torchrun --standalone --nproc_per_node 8 torchrun_main.py \
    --model_config configs/llama_60m.json \
    --lr 0.0025 \
    --batch_size 4 \
    --total_batch_size 256 \
    --num_training_steps 10000 \
    --warmup_steps 1000 \
    --weight_decay 0 \
    --dtype bfloat16 \
    --eval_every 500 \
    --max_length 1024 \
    --save_dir output 