  weight_decay: 0
  optimizer: 'Adam'
  lr: 2e-5
  beta1: 0.9
  eps: 1e-8
  warmup: 5000
  grad_clip: 1.