python Create_fineweb_bin.py
torchrun --standalone --nproc_per_node=8 train_gpt2.py \
        --input_folder "fineweb10B/" \
        --save_every 4000 \
        --val_loss_every 4000 \
        --run_name "fineweb10B" \
        --warmup_ratio 0.05 \
        --warmdown_ratio 0.9 \
        --sequence_length 512 \
        --device_batch_size 16 \
        --num_epochs 1 \
        --weight_decay 0.1 \
        --learning_rate 0.0003 \
        --batch_size 128 \
        --bf16 \
        --model_size small \
        --output_dir "/data/fineweb10B/"
