# torchrun --standalone --nproc_per_node=8 train_gpt2.py --input_folder unbalanced_pretrain/powernew --save_every 100 --wandb_run_name size_xxxs --warmup_ratio 0.05 --warmdown_ratio 0.9 --sequence_length 512 --device_batch_size 16 --num_epochs 1 --weight_decay 0.1 --learning_rate 0.0003 --batch_size 128 --bf16 --model_size xxxs

# torchrun --standalone --nproc_per_node=8 train_gpt2.py --input_folder unbalanced_pretrain/powernew --save_every 100 --wandb_run_name size_xxs --warmup_ratio 0.05 --warmdown_ratio 0.9 --sequence_length 512 --device_batch_size 16 --num_epochs 1 --weight_decay 0.1 --learning_rate 0.0003 --batch_size 128 --bf16 --model_size xxs

# torchrun --standalone --nproc_per_node=8 train_gpt2.py --input_folder unbalanced_pretrain/powernew --save_every 100 --wandb_run_name size_xs --warmup_ratio 0.05 --warmdown_ratio 0.9 --sequence_length 512 --device_batch_size 16 --num_epochs 1 --weight_decay 0.1 --learning_rate 0.0003 --batch_size 128 --bf16 --model_size xs

# torchrun --standalone --nproc_per_node=8 train_gpt2.py --input_folder unbalanced_pretrain/powernew --save_every 100 --wandb_run_name size_small --warmup_ratio 0.05 --warmdown_ratio 0.9 --sequence_length 512 --device_batch_size 16 --num_epochs 1 --weight_decay 0.1 --learning_rate 0.0003 --batch_size 128 --bf16 --model_size small

# torchrun --standalone --nproc_per_node=8 train_gpt2.py --input_folder unbalanced_pretrain/powernew --save_every 100 --wandb_run_name size_base --warmup_ratio 0.05 --warmdown_ratio 0.9 --sequence_length 512 --device_batch_size 16 --num_epochs 1 --weight_decay 0.1 --learning_rate 0.0003 --batch_size 128 --bf16 --model_size base

# torchrun --standalone --nproc_per_node=8 train_gpt2.py --input_folder unbalanced_pretrain/powernew --save_every 100 --wandb_run_name size_medium --warmup_ratio 0.05 --warmdown_ratio 0.9 --sequence_length 512 --device_batch_size 16 --num_epochs 1 --weight_decay 0.1 --learning_rate 0.0003 --batch_size 128 --bf16 --model_size medium

# torchrun --standalone --nproc_per_node=8 train_gpt2.py --input_folder unbalanced_pretrain/powernew --save_every 100 --wandb_run_name size_large --warmup_ratio 0.05 --warmdown_ratio 0.9 --sequence_length 512 --device_batch_size 16 --num_epochs 1 --weight_decay 0.1 --learning_rate 0.0003 --batch_size 128 --bf16 --model_size large

# torchrun --standalone --nproc_per_node=8 train_gpt2.py --input_folder unbalanced_pretrain/powernew --save_every 100 --wandb_run_name size_xl --warmup_ratio 0.05 --warmdown_ratio 0.9 --sequence_length 512 --device_batch_size 16 --num_epochs 1 --weight_decay 0.1 --learning_rate 0.0003 --batch_size 128 --bf16 --model_size xl

torchrun --standalone --nproc_per_node=8 train_gpt2.py --input_folder unbalanced_pretrain/powernew --save_every 100 --wandb_run_name size_4xs --warmup_ratio 0.05 --warmdown_ratio 0.9 --sequence_length 512 --device_batch_size 16 --num_epochs 1 --weight_decay 0.1 --learning_rate 0.0003 --batch_size 128 --bf16 --model_size 4xs && torchrun --standalone --nproc_per_node=8 train_gpt2.py --input_folder unbalanced_pretrain/powernew --save_every 100 --wandb_run_name size_3xs --warmup_ratio 0.05 --warmdown_ratio 0.9 --sequence_length 512 --device_batch_size 16 --num_epochs 1 --weight_decay 0.1 --learning_rate 0.0003 --batch_size 128 --bf16 --model_size 3xs && torchrun --standalone --nproc_per_node=8 train_gpt2.py --input_folder unbalanced_pretrain/powernew --save_every 100 --wandb_run_name size_5xs --warmup_ratio 0.05 --warmdown_ratio 0.9 --sequence_length 512 --device_batch_size 16 --num_epochs 1 --weight_decay 0.1 --learning_rate 0.0003 --batch_size 128 --bf16 --model_size 5xs