--num-layers 12
--hidden-size 768
--num-attention-heads 12
--seq-length 1024
--max-position-embeddings 1024
--micro-batch-size 40
--global-batch-size 640
--lr 3e-3
--train-iters 50000
--lr-decay-iters 50000
--lr-decay-style cosine
--lr-warmup-iters 2000
--weight-decay .05
--fp16
--log-interval 10
--save-interval 2000
--eval-interval 1000
--eval-iters 10
--clip-grad 1.0
--tokenizer-type GPT2BPETokenizer
--optimizer adam
--adam-beta1 0.9
--adam-beta2 0.95