WANDB_MODE=online CUDA_VISIBLE_DEVICES=0 python src/llama/train_model.py \
    --mlp_type GLU --hidden_act silu --hidden_size 192 --intermediate_size 768 --num_hidden_layers 12 --head_dim 64\
    --num_attention_heads 3 --num_key_value_heads 3 --seed 0 --tgt_len 256 --mem_len 0 --eval_tgt_len 256 \
    --learning-rate 0.00025 --batch-size 64 --max_step 60000 --warmup_step 2000 --dataset wt103 --eval-frequency 2000 --save-frequency 2000\
     --wandb-project LMC-Attention --wandb-group Llama-OneBillionWord-FFN   \
     --model-save-dir /root/weights/lmc/llama-wt103 --data-path /root/datasets/wt103

