WANDB_MODE=online CUDA_VISIBLE_DEVICES=0 python train.py --gradient_accumulation_steps 1 --seed 0\
    --save-dir ~/weights/conservation/wt103 --data-path ~/datasets/wt103 --dataset wt103  --num_experts 4\
    --hidden_size 192 --intermediate_size 768 --num_hidden_layers 12 --num_attention_heads 3 --hidden_act silu --router_act softmax --num_key_value_heads 3\
    --opt sgd --lr 2e-6 --warmup-lr 2e-6 --max_step 15000 --warmup_step 0 --lr-scheduler linear --momentum 0.0 --weight_decay 0.0 --ffn_type smoe\
    --batch-size 48 --tgt_len 256 --eval_tgt_len 256  --mem_len 0 --wandb-project "ConservationLaws" --wandb-group "WT103" \
    --logging-frequency 100 --eval-frequency 2000  --save-frequency 2000

