WANDB_MODE=online CUDA_VISIBLE_DEVICES=0 python train.py --gradient_accumulation_steps 18 --seed 00\
    --save-dir ~/weights/conservation/ptb --data-path ~/datasets/ptb --dataset ptb  --num_experts 4\
    --hidden_size 192 --intermediate_size 768 --num_hidden_layers 12 --num_attention_heads 3 --hidden_act silu --router_act softmax --num_key_value_heads 3\
    --opt sgd --lr 0.02 --warmup-lr 0.02 --max_step 300 --warmup_step 0 --lr-scheduler linear --momentum 0.0 --weight_decay 0.0 --ffn_type dmoe\
    --batch-size 192 --tgt_len 256 --eval_tgt_len 256  --mem_len 0 --wandb-project "ConservationLaws" --wandb-group "PTB" \
    --logging-frequency 1 --eval-frequency 1  --save-frequency 1
