export WANDB_DISABLED=true

# 移除 CUBLAS 设置，除非你确实遇到确定性报错，否则这会降低 A800 性能
export CUBLAS_WORKSPACE_CONFIG=:4096:8 
export FLASH_ATTENTION_DETERMINISTIC=1
export NCCL_P2P_DISABLE=1
export NCCL_IB_DISABLE=1

# 1. 修改进程数匹配你的 GPU 数量 (2卡)
accelerate launch --num_processes=2 train/train_RM.py \
    --model_name_or_path="/root/autodl-tmp/rStar-rStar-math/qwen/Qwen2.5-3B-Instruct" \
    --output_dir="./output/reward_model_qwen2.5" \
    --pair_json_path "/root/autodl-tmp/rStar-rStar-math/train/rm_training_data_trajectory_numbered.json" \
    --per_device_train_batch_size=16 \
    --per_device_eval_batch_size=16 \
    --num_train_epochs=2 \
    --gradient_accumulation_steps=4 \
    --gradient_checkpointing=True \
    --learning_rate=5e-6 \
    --remove_unused_columns=False \
    --optim="adamw_torch" \
    --logging_steps=1 \
    --eval_strategy="steps" \
    --eval_steps=200 \
    --save_steps=400 \
    --load_best_model_at_end \
    --save_total_limit=3 \
    --max_length=2048 \
    --bf16 \
    --attn_impl="flash_attention_2" \
    --fsdp "full_shard auto_wrap" \
    --fsdp_transformer_layer_cls_to_wrap 'Qwen2DecoderLayer'

# accelerate launch --num_processes=2 train/train_RM_lora.py \
#     --model_name_or_path="/root/autodl-tmp/rStar-rStar-math/qwen/Qwen2.5-3B-Instruct" \
#     --output_dir="./output/reward_model_qwen2.5_lora" \
#     --pair_json_path "/root/autodl-tmp/rStar-rStar-math/train/rm_training_data_with_eos.json" \
#     --per_device_train_batch_size=8 \
#     --per_device_eval_batch_size=8 \
#     --num_train_epochs=2 \
#     --gradient_accumulation_steps=4 \
#     --gradient_checkpointing=True \
#     --learning_rate=2e-4 \
#     --remove_unused_columns=False \
#     --optim="adamw_torch" \
#     --logging_steps=1 \
#     --eval_strategy="steps" \
#     --eval_steps=400 \
#     --save_steps=400 \
#     --save_total_limit=3 \
#     --max_length=2048 \
#     --bf16 \
#     --attn_impl="flash_attention_2" \
#     --ddp_find_unused_parameters True
#     --save_safetensors False
#     # 注意：完全删除了 --fsdp 相关参数
