#!/bin/bash
# ScreenSpot调试脚本 - 单进程运行便于排查问题

cd /Users/zhewu/Desktop/data/VLM-R1/src/open-r1-multimodal
export PYTHONPATH=$(pwd)/src

export DEBUG_MODE="true"
export CUDA_VISIBLE_DEVICES=0  # 只使用一个GPU进行调试

RUN_NAME="Qwen2.5-VL-7B-GRPO-ScreenSpot-Debug"
export LOG_PATH="./debug_log_$RUN_NAME.txt"

echo "开始ScreenSpot训练调试..."
echo "工作目录: $(pwd)"
echo "Python路径: $PYTHONPATH"
echo "日志文件: $LOG_PATH"
echo "数据配置: data_config/screenspot_mobile_converted.yaml"
echo "图片根目录: /data/data/ScreenSpot-v2"

# 检查关键文件是否存在
echo "检查关键文件..."
if [ ! -f "src/open_r1/grpo_screenspot.py" ]; then
    echo "❌ 错误: grpo_screenspot.py 不存在"
    exit 1
else
    echo "✅ grpo_screenspot.py 存在"
fi

if [ ! -f "data_config/screenspot_mobile_converted.yaml" ]; then
    echo "❌ 错误: screenspot_mobile_converted.yaml 不存在"
    exit 1
else
    echo "✅ 配置文件存在"
fi

if [ ! -f "local_scripts/zero3.json" ]; then
    echo "⚠️  警告: zero3.json 不存在，将跳过deepspeed"
    DEEPSPEED_ARG=""
else
    echo "✅ zero3.json 存在"
    DEEPSPEED_ARG="--deepspeed local_scripts/zero3.json"
fi

# 检查数据文件
echo "检查数据文件..."
DATA_FILE=$(grep "json_path:" data_config/screenspot_mobile_converted.yaml | awk '{print $3}')
echo "数据文件路径: $DATA_FILE"

if [ ! -f "$DATA_FILE" ]; then
    echo "❌ 错误: 训练数据文件不存在: $DATA_FILE"
    echo "请确保数据转换已完成"
    exit 1
else
    echo "✅ 训练数据文件存在"
    # 显示数据文件的前几行
    echo "数据文件前3行:"
    head -3 "$DATA_FILE"
fi

echo ""
echo "开始单进程训练（便于调试）..."
echo "如果出现错误，请查看完整的错误信息"
echo ""

# 使用python直接运行，不使用torchrun，便于看到完整错误信息
python src/open_r1/grpo_screenspot.py \
    $DEEPSPEED_ARG \
    --output_dir output/$RUN_NAME \
    --model_name_or_path Qwen/Qwen2.5-VL-7B-Instruct \
    --dataset_name data_config/screenspot_mobile_converted.yaml \
    --image_root /data/data/ScreenSpot-v2 \
    --max_prompt_length 1024 \
    --num_generations 4 \
    --per_device_train_batch_size 1 \
    --gradient_accumulation_steps 1 \
    --logging_steps 1 \
    --bf16 \
    --torch_dtype bfloat16 \
    --data_seed 42 \
    --gradient_checkpointing true \
    --num_train_epochs 1 \
    --run_name $RUN_NAME \
    --save_steps 50 \
    --save_only_model true \
    --reward_funcs accuracy format \
    --max_pixels 12845056 \
    --min_pixels 3136 \
    --max_train_samples 10

echo ""
echo "调试完成。如果仍有问题，请检查上面的错误信息。"
