name: 'xl'
layers: 4
token_dim: 128
hidden_dim: 512
# lr:
ctx_len: ???
batch_size: 256
lr: 2e-4
mask_ratio: 0.15
clip_grad_norm: 5
mem_len: ???