_target_: models.transformer.Transformer
n_layers: 2
n_heads: 4
qk_dim: 64
embedding_dim: 256
pos_dim: 128
enable_skip: true
enable_norm: false
enable_mlp: true
enable_value: true
enable_Wout: true
pos_enc: 'learned'
scale_attention: true
cat_pos: false
scale_init: null
init_att: null
init_output: null
init_mlp: null
freeze_emb: false 
one_hot_emb: false
qk_param: true
temp: null
skip_embedding: false
force_embedding_dim_to_input_dim: false