export CUDA_VISIBLE_DEVICES=2,3
torchrun --nproc_per_node=2 --master_port=33310 --master_addr=localhost torchrun_main_repeat.py \
    --model_config configs/llama_130m.json \
    --optimizer adamw \
    --lr 0.001 \
    --batch_size 256 \
    --total_batch_size 512 \
    --log_LR_every 100 \
    --num_training_steps 20000 \
    --warmup_steps 2000 \
    --weight_decay 0.1 \
    --use_modulewise_lr \
    --alpha_positively_with_lr \
    --unbalancedlr_every 500 \
    --grad_alpha_metric grad \
    --num_grad_steps 0.05 \
    --grad_unbalancedlr_every 0.2 \
    --assign_func tb_linear_map\
    --lr_min_ratio 1 \
    --lr_max_ratio 3 \
    --dtype bfloat16 \
    --eval_every 1000 \
    --swanlab_name adamw_ours-130M-lr0_001-WD0_1 \
    --target_eval_tokens 10_000_000 \
    --save_every 30000