
CUDA_VISIBLE_DEVICES=2,3 \
accelerate launch \
    --config_file ddp_config.yaml \
    --main_process_port 29501 \
    --num_processes 2 \
    sft_train.py \
    --grad_accum_steps 2 \
    --batch_size 2 \
    --num_epochs 5 \
    --output_dir ./sft_output \
    --learning_rate 1e-5 \
    --train_data math_combined.parquet \
    --time_scaling 
