CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 torchrun --nproc_per_node=8 src/train.py \
  --model_name_or_path Qwen3-8B \
  --stage sft \
  --do_train \
  --finetuning_type full \
  --deepspeed xxx/ds_config_zero3.json \
  --dataset_dir xxx/LLaMA-Factory-main/data \
  --dataset t3 \
  --template qwen3 \
  --cutoff_len 32768 \
  --overwrite_cache \
  --preprocessing_num_workers 16 \
  --output_dir xxx \
  --logging_steps 1 \
  --save_steps 1 \
  --plot_loss \
  --overwrite_output_dir \
  --save_total_limit 50 \
  --save_only_model \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 8 \
  --learning_rate 1.0e-5 \
  --max_steps 50  \
  --lr_scheduler_type cosine \
  --warmup_ratio 0.01 \
  --weight_decay 0.1 \
  --adam_beta1 0.9 \
  --adam_beta2 0.95 \
  --max_grad_norm 1.0 \
  --bf16 \
  --ddp_timeout 180000000 \