#!/bin/bash
# 一键运行完整流程：生成改写 → 评估 → unified judge 打分 → 统计汇总
#
# 用法：
#   ./run_pipeline.sh [选项]
#
# 示例：
#   ./run_pipeline.sh \
#     --input_file data/pku_saferlhf_test.jsonl \
#     --output_dir results \
#     --rewrite_model gpt-4.1-mini \
#     --judge_model gpt-4o-2024-11-20 \
#     --direction increase \
#     --num_rewrites 1 \
#     --skip_rewrite_batch_wait \
#     --skip_judge_batch_wait

set -e  # 遇到错误立即退出

# 默认参数
INPUT_FILE="data/pku_saferlhf_test.jsonl"
OUTPUT_DIR="results"
REWRITTEN_FILE=""  # 如果提供，跳过 Step 1
EVALUATED_FILE="data/test_trained_model_results_dpo.jsonl"  # 如果提供，跳过 Step 1 和 Step 2
REWRITE_MODEL="gpt-4.1-mini"
JUDGE_MODEL="gemini-3-flash-preview" #gpt-5.2-2025-12-11/gemini-2.5-flash-preview-09-2025/gpt-4o-2024-11-20/gemini-3-pro-preview/gemini-3-flash-preview
DIRECTION="increase"  # 改写方向：increase 或 decrease
NUM_REWRITES=1  # 每个样本的改写数量
SKIP_REWRITE_WAIT=true   # 默认：先异步提交 batch，再轮询显示进度并取回结果（脚本不退出）
SKIP_JUDGE_WAIT=true     # 默认：先异步提交 batch，再轮询显示进度并取回结果（脚本不退出）
JUDGES="cka,xteaming,generative"
JUDGE_TARGET_HOLDER=""  # 默认：根据 --judge_model 自动检测（OpenAI / Google / Anthropic）
MAX_COMPLETION_TOKENS=1000
BATCH_COMPLETION_WINDOW="24h"
BATCH_CHECK_INTERVAL=60
LOCAL_REWRITE=""  # 如果提供，使用本地 SGLang 服务器 URL（如 "http://localhost:30000"）
LOCAL_JUDGE=""  # 如果提供，使用本地 SGLang 服务器 URL 进行 judge 评分（如 "http://localhost:30000"）

# 追踪用户是否显式指定 holder（否则自动检测）
JUDGE_TARGET_HOLDER_USER_PROVIDED=false

# 解析命令行参数
while [[ $# -gt 0 ]]; do
    case $1 in
        --input_file)
            INPUT_FILE="$2"
            shift 2
            ;;
        --rewritten_file)
            REWRITTEN_FILE="$2"
            shift 2
            ;;
        --evaluated_file)
            EVALUATED_FILE="$2"
            shift 2
            ;;
        --output_dir)
            OUTPUT_DIR="$2"
            shift 2
            ;;
        --rewrite_model)
            REWRITE_MODEL="$2"
            shift 2
            ;;
        --judge_model)
            JUDGE_MODEL="$2"
            shift 2
            ;;
        --direction)
            DIRECTION="$2"
            shift 2
            ;;
        --num_rewrites)
            NUM_REWRITES="$2"
            shift 2
            ;;
        --skip_rewrite_batch_wait)
            SKIP_REWRITE_WAIT=true
            shift
            ;;
        --wait_rewrite_batch)
            SKIP_REWRITE_WAIT=false
            shift
            ;;
        --skip_judge_batch_wait)
            SKIP_JUDGE_WAIT=true
            shift
            ;;
        --wait_judge_batch)
            SKIP_JUDGE_WAIT=false
            shift
            ;;
        --judges)
            JUDGES="$2"
            shift 2
            ;;
        --judge_target_holder)
            JUDGE_TARGET_HOLDER="$2"
            JUDGE_TARGET_HOLDER_USER_PROVIDED=true
            shift 2
            ;;
        --max_completion_tokens)
            MAX_COMPLETION_TOKENS="$2"
            shift 2
            ;;
        --local_rewrite)
            LOCAL_REWRITE="$2"
            shift 2
            ;;
        --local_judge)
            LOCAL_JUDGE="$2"
            shift 2
            ;;
        --help|-h)
            cat <<EOF
用法: $0 [选项]

选项:
  --input_file FILE              输入 JSONL 文件（默认: data/pku_saferlhf_test.jsonl）
  --rewritten_file FILE          改写后的文件（如果提供，跳过 Step 1）
  --evaluated_file FILE          评估后的文件（如果提供，跳过 Step 1 和 Step 2）
  --output_dir DIR               输出目录（默认: results）
  --rewrite_model MODEL          改写模型（默认: gpt-4.1-mini）
  --judge_model MODEL            Judge 模型（默认: gemini-2.5-flash-preview-09-2025）
  --direction DIR                改写方向：increase 或 decrease（默认: increase）
  --num_rewrites N               每个样本的改写数量（默认: 1）
  --skip_rewrite_batch_wait      先异步提交改写 batch，再轮询显示进度并取回结果（默认开启）
  --wait_rewrite_batch           直接等待改写 batch（不走“先提交后取回”的两段式）
  --skip_judge_batch_wait        先异步提交 judge batch，再轮询显示进度并取回结果（默认开启）
  --wait_judge_batch             直接等待 judge batch（不走“先提交后取回”的两段式）
  --judges JUDGES                Judge 类型，逗号分隔（默认: cka,xteaming,generative）
  --judge_target_holder NAME     Judge target holder（默认: 自动检测：gemini->Google，claude->Anthropic，其它->OpenAI）
  --max_completion_tokens N      Max completion tokens（默认: 250）
  --local_rewrite URL            使用本地 SGLang 服务器 URL 进行改写（如 http://localhost:30000）
  --local_judge URL              使用本地 SGLang 服务器 URL 进行 judge 评分（如 http://localhost:30000）
  --help, -h                     显示此帮助信息

环境变量:
  OPENAI_API_KEY                  当使用 OpenAI（改写 batch / judge batch）时需要
  GEMINI_API_KEY / GOOGLE_API_KEY  当 judge 使用 Gemini 时需要

示例:
  $0 --input_file data/my_input.jsonl --output_dir my_results
  $0 --skip_rewrite_batch_wait --skip_judge_batch_wait  # 异步模式
EOF
            exit 0
            ;;
        *)
            echo "错误: 未知参数 $1"
            echo "使用 --help 查看帮助信息"
            exit 1
            ;;
    esac
done

is_gemini_model() {
    [[ "${1,,}" == gemini* ]]
}

is_claude_model() {
    [[ "${1,,}" == claude* ]]
}

# 将模型名转换为适合作为文件名的 tag（小写 + 非字母数字转下划线）
# 同时去掉 "preview" 和日期部分（如 -09-2025, -2024-11-20, -20241022）
sanitize_for_filename() {
    echo "$1" \
      | tr '[:upper:]' '[:lower:]' \
      | sed -E 's/-preview\b//g; s/\bpreview-//g; s/-[0-9]{8}//g; s/-[0-9]{2}-[0-9]{4}//g; s/-[0-9]{4}(-[0-9]{2}){1,2}//g; s/[^a-z0-9]+/_/g; s/^_+//; s/_+$//'
}

# 默认 holder 自动检测（仅在用户未显式指定时生效）
if [ "$JUDGE_TARGET_HOLDER_USER_PROVIDED" != true ] || [ -z "$JUDGE_TARGET_HOLDER" ]; then
    if is_gemini_model "$JUDGE_MODEL"; then
        JUDGE_TARGET_HOLDER="Google"
    elif is_claude_model "$JUDGE_MODEL"; then
        JUDGE_TARGET_HOLDER="Anthropic"
    else
        JUDGE_TARGET_HOLDER="OpenAI"
    fi
fi

# 输出文件名中使用的 judge 模型标识（本地 judge 用 local；否则用清洗后的 JUDGE_MODEL）
if [ -n "$LOCAL_JUDGE" ]; then
    JUDGE_MODEL_TAG="local"
else
    JUDGE_MODEL_TAG="$(sanitize_for_filename "$JUDGE_MODEL")"
fi

# 获取脚本所在目录（用于找到其他脚本）
SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
cd "$SCRIPT_DIR"

# 兼容从任意目录调用：相对路径统一按脚本目录解析
if [[ "$INPUT_FILE" != /* ]]; then
    INPUT_FILE="${SCRIPT_DIR}/${INPUT_FILE}"
fi
if [[ "$OUTPUT_DIR" != /* ]]; then
    OUTPUT_DIR="${SCRIPT_DIR}/${OUTPUT_DIR}"
fi

# 检查输入文件是否存在
if [ ! -f "$INPUT_FILE" ]; then
    echo "❌ 错误: 输入文件不存在: $INPUT_FILE"
    exit 1
fi

# 创建输出目录
mkdir -p "$OUTPUT_DIR"

# 在文件名生成之前，检查用户是否提供了参数
EVALUATED_FILE_USER_PROVIDED=false
if [ -n "$EVALUATED_FILE" ]; then
    EVALUATED_FILE_USER_PROVIDED=true
fi
REWRITTEN_FILE_USER_PROVIDED=false
if [ -n "$REWRITTEN_FILE" ]; then
    REWRITTEN_FILE_USER_PROVIDED=true
fi

# 检查必要的环境变量（按实际会用到的 provider 来检查）
NEED_OPENAI=false
NEED_GEMINI=false
NEED_ANTHROPIC=false

# Step 1 (rewrite): 只有在未提供 rewritten/evaluated 且未使用本地 SGLang 时才需要 OpenAI
if [ "$EVALUATED_FILE_USER_PROVIDED" != true ] && [ "$REWRITTEN_FILE_USER_PROVIDED" != true ] && [ -z "$LOCAL_REWRITE" ]; then
    NEED_OPENAI=true
fi

# Step 3 (judge)
if [ -z "$LOCAL_JUDGE" ]; then
    if is_gemini_model "$JUDGE_MODEL"; then
        NEED_GEMINI=true
    elif is_claude_model "$JUDGE_MODEL"; then
        NEED_ANTHROPIC=true
    else
        # OpenAI Batch judge
        NEED_OPENAI=true
    fi
fi

if [ "$NEED_OPENAI" = true ] && [ -z "$OPENAI_API_KEY" ]; then
    echo "❌ 错误: OPENAI_API_KEY 环境变量未设置（此流程会调用 OpenAI）"
    echo "请设置: export OPENAI_API_KEY='your-api-key'"
    exit 1
fi
if [ "$NEED_GEMINI" = true ] && [ -z "$GEMINI_API_KEY" ] && [ -z "$GOOGLE_API_KEY" ]; then
    echo "❌ 错误: GEMINI_API_KEY / GOOGLE_API_KEY 环境变量未设置（judge 使用 Gemini）"
    echo "请设置: export GEMINI_API_KEY='your-api-key'  （或 export GOOGLE_API_KEY='your-api-key'）"
    exit 1
fi
if [ "$NEED_ANTHROPIC" = true ] && [ -z "$ANTHROPIC_API_KEY" ]; then
    echo "❌ 错误: ANTHROPIC_API_KEY 环境变量未设置（judge 使用 Claude）"
    echo "请设置: export ANTHROPIC_API_KEY='your-api-key'"
    exit 1
fi

# 生成输出文件名（如果未提供）
INPUT_BASENAME=$(basename "$INPUT_FILE" .jsonl)
if [ "$EVALUATED_FILE_USER_PROVIDED" != true ]; then
    # 如果未提供 EVALUATED_FILE，需要生成 REWRITTEN_FILE（如果也未提供）
    if [ "$REWRITTEN_FILE_USER_PROVIDED" != true ]; then
        REWRITTEN_FILE="$OUTPUT_DIR/${INPUT_BASENAME}_rewritten.jsonl"
    fi
    EVALUATED_FILE="$OUTPUT_DIR/${INPUT_BASENAME}_evaluated.jsonl"
fi
JUDGE_SCORED_FILE="$OUTPUT_DIR/$(basename "${EVALUATED_FILE}" .jsonl)_${JUDGE_MODEL_TAG}_judge_scored.jsonl"
STATS_FILE="$OUTPUT_DIR/$(basename "${EVALUATED_FILE}" .jsonl)_${JUDGE_MODEL_TAG}_statistics.txt"

# Batch metadata 文件
REWRITE_METADATA="$OUTPUT_DIR/batch_rewrite_metadata.json"
JUDGE_METADATA="$OUTPUT_DIR/batch_judge_metadata.json"

echo "=========================================="
echo "Judge Test Pipeline - 完整流程"
echo "=========================================="
echo "输入文件: $INPUT_FILE"
echo "输出目录: $OUTPUT_DIR"
echo "改写模型: $REWRITE_MODEL"
echo "Judge 模型: $JUDGE_MODEL"
echo "=========================================="
echo ""

# ============================================================================
# Step 1: 生成改写
# ============================================================================
# 如果用户提供了 EVALUATED_FILE，跳过 Step 1 和 Step 2
if [ "$EVALUATED_FILE_USER_PROVIDED" = true ]; then
    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
    echo "Step 1: 跳过（使用提供的评估文件，将同时跳过 Step 2）"
    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
    echo "使用文件: $EVALUATED_FILE"
    if [ ! -f "$EVALUATED_FILE" ]; then
        echo "⚠️  警告: 文件不存在，后续步骤可能失败"
    fi
    echo ""
elif [ "$REWRITTEN_FILE_USER_PROVIDED" = true ]; then
    # 如果用户提供了 REWRITTEN_FILE，跳过 Step 1
    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
    echo "Step 1: 跳过（使用提供的改写文件）"
    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
    echo "使用文件: $REWRITTEN_FILE"
    if [ ! -f "$REWRITTEN_FILE" ]; then
        echo "⚠️  警告: 文件不存在，后续步骤可能失败"
    fi
    echo ""
else
    if [ -n "$LOCAL_REWRITE" ]; then
        echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
        echo "Step 1: 生成改写 (本地 SGLang 服务器)"
        echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
        echo "服务器 URL: $LOCAL_REWRITE"
        
        if python rewrite_responses.py \
            --input_file "$INPUT_FILE" \
            --output_file "$REWRITTEN_FILE" \
            --server_url "$LOCAL_REWRITE" \
            --direction "$DIRECTION" \
            --num_rewrites "$NUM_REWRITES"; then
            echo "✅ Step 1 完成: 改写文件已生成"
        else
            echo "❌ Step 1 失败: 生成改写时出错"
            exit 1
        fi
    else
        echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
        echo "Step 1: 生成改写 (Batch API)"
        echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
        
        REWRITE_BATCH_REQUESTS_FILE="$OUTPUT_DIR/batch_rewrite_requests_${INPUT_BASENAME}_${DIRECTION}.jsonl"
        REWRITE_METADATA_FILE="${REWRITE_BATCH_REQUESTS_FILE%.jsonl}_metadata.json"

        if [ "$SKIP_REWRITE_WAIT" = true ]; then
            echo "模式: 先异步提交 → 再轮询显示进度并取回结果（脚本不退出）"

        # 先提交 batch（立即返回）
        python rewrite_responses_batch.py \
            --input_file "$INPUT_FILE" \
            --output_file "$REWRITTEN_FILE" \
            --rewrite_model "$REWRITE_MODEL" \
            --direction "$DIRECTION" \
            --num_rewrites "$NUM_REWRITES" \
            --batch_requests_file "$REWRITE_BATCH_REQUESTS_FILE" \
            --skip_wait

        if [ ! -f "$REWRITE_METADATA_FILE" ]; then
            echo "❌ Step 1 失败: 找不到改写 batch metadata 文件: $REWRITE_METADATA_FILE"
            exit 1
        fi

        REWRITE_BATCH_ID=$(python -c "import json; print(json.load(open('$REWRITE_METADATA_FILE'))['batch_id'])")
        echo "📋 Rewrite Batch ID: $REWRITE_BATCH_ID"
        echo "⏳ 等待改写 batch 完成并取回结果（每 ${BATCH_CHECK_INTERVAL} 秒更新一次）..."

        # 取回/等待（脚本会定期打印 batch 状态 & 进度）
        if python rewrite_responses_batch.py \
            --batch_id "$REWRITE_BATCH_ID" \
            --metadata_file "$REWRITE_METADATA_FILE" \
            --input_file "$INPUT_FILE" \
            --output_file "$REWRITTEN_FILE" \
            --check_interval "$BATCH_CHECK_INTERVAL"; then
            echo "✅ Step 1 完成: 改写文件已生成"
        else
            echo "❌ Step 1 失败: 取回改写 batch 结果时出错"
            exit 1
        fi
        else
            echo "模式: 直接等待（直到完成）"
            if python rewrite_responses_batch.py \
                --input_file "$INPUT_FILE" \
                --output_file "$REWRITTEN_FILE" \
                --rewrite_model "$REWRITE_MODEL" \
                --direction "$DIRECTION" \
                --num_rewrites "$NUM_REWRITES" \
                --batch_requests_file "$REWRITE_BATCH_REQUESTS_FILE" \
                --check_interval "$BATCH_CHECK_INTERVAL"; then
                echo "✅ Step 1 完成: 改写文件已生成"
            else
                echo "❌ Step 1 失败: 生成改写时出错"
                exit 1
            fi
        fi
    fi
    echo ""
fi

# ============================================================================
# Step 2: 评估 unsafe_score 和 similarity_score
# ============================================================================
# 如果用户提供了 EVALUATED_FILE，跳过 Step 2
if [ "$EVALUATED_FILE_USER_PROVIDED" = true ]; then
    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
    echo "Step 2: 跳过（使用提供的评估文件）"
    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
    echo "使用文件: $EVALUATED_FILE"
    echo ""
else
    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
    echo "Step 2: 评估 unsafe_score 和 similarity_score (本地)"
    echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
    
    # 如果 Step 1 是异步的，检查文件是否存在
    if [ ! -f "$REWRITTEN_FILE" ]; then
        echo "⚠️  警告: 改写文件不存在: $REWRITTEN_FILE"
        echo "   如果 Step 1 是异步提交，请等待 batch 完成后再运行此脚本"
        echo "   或者手动运行:"
        echo "   python evaluate_rewrites.py --input_file $REWRITTEN_FILE --output_file $EVALUATED_FILE"
        echo ""
    else
        if python evaluate_rewrites.py \
            --input_file "$REWRITTEN_FILE" \
            --output_file "$EVALUATED_FILE"; then
            echo "✅ Step 2 完成: 评估文件已生成"
        else
            echo "❌ Step 2 失败: 评估时出错"
            exit 1
        fi
    fi
    echo ""
fi

# ============================================================================
# Step 3: unified judge 打分
# ============================================================================
if [ -n "$LOCAL_JUDGE" ]; then
    echo "Step 3: unified judge 打分 (本地 SGLang 服务器)"
else
    echo "Step 3: unified judge 打分 (Batch API)"
fi
echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"

# 检查 Step 2 的输出是否存在
if [ ! -f "$EVALUATED_FILE" ]; then
    echo "⚠️  警告: 评估文件不存在，跳过 Step 3"
    echo "   请先完成 Step 2，然后手动运行 Step 3"
    echo ""
else
    if [ -n "$LOCAL_JUDGE" ]; then
        echo "服务器 URL: $LOCAL_JUDGE"
        
        if python evaluate_rewrites_unifiedjudge.py \
            --input_file "$EVALUATED_FILE" \
            --output_file "$JUDGE_SCORED_FILE" \
            --use_local \
            --server_url "$LOCAL_JUDGE" \
            --judge_model_name "default" \
            --judges "$JUDGES" \
            --target_model_holder "$JUDGE_TARGET_HOLDER" \
            --max_completion_tokens "$MAX_COMPLETION_TOKENS" \
            --temperature 0.0 \
            --seed 123; then
            echo "✅ Step 3 完成: judge 评分文件已生成"
        else
            echo "❌ Step 3 失败: judge 评分时出错"
            exit 1
        fi
    else
        # Claude 不支持 Batch（本仓库的 batch 脚本只支持 OpenAI/Gemini）。
        # 检测到 claude* 时，自动走非-batch并发脚本。
        if is_claude_model "$JUDGE_MODEL"; then
            echo "检测到 Claude 模型：使用非 Batch 模式进行 judge 评分"
            if python evaluate_rewrites_unifiedjudge.py \
                --input_file "$EVALUATED_FILE" \
                --output_file "$JUDGE_SCORED_FILE" \
                --provider "claude" \
                --judge_model_name "$JUDGE_MODEL" \
                --judges "$JUDGES" \
                --target_model_holder "$JUDGE_TARGET_HOLDER" \
                --max_completion_tokens "$MAX_COMPLETION_TOKENS" \
                --temperature 0.0 \
                --seed 123; then
                echo "✅ Step 3 完成: judge 评分文件已生成"
            else
                echo "❌ Step 3 失败: judge 评分时出错"
                exit 1
            fi
        else
            JUDGE_BATCH_REQUESTS_FILE="$OUTPUT_DIR/batch_unifiedjudge_requests_${JUDGE_MODEL_TAG}_$(basename "${EVALUATED_FILE}" .jsonl).jsonl"
            JUDGE_METADATA_FILE="${JUDGE_BATCH_REQUESTS_FILE%.jsonl}_metadata.json"

            if [ "$SKIP_JUDGE_WAIT" = true ]; then
            echo "模式: 先异步提交 → 再轮询显示进度并取回结果（脚本不退出）"

            # 先提交 batch（立即返回）
            python evaluate_rewrites_unifiedjudge_batch.py \
                --input_file "$EVALUATED_FILE" \
                --output_file "$JUDGE_SCORED_FILE" \
                --judge_model_name "$JUDGE_MODEL" \
                --judges "$JUDGES" \
                --target_model_holder "$JUDGE_TARGET_HOLDER" \
                --max_completion_tokens "$MAX_COMPLETION_TOKENS" \
                --completion_window "$BATCH_COMPLETION_WINDOW" \
                --check_interval "$BATCH_CHECK_INTERVAL" \
                --batch_requests_file "$JUDGE_BATCH_REQUESTS_FILE" \
                --skip_wait

            if [ ! -f "$JUDGE_METADATA_FILE" ]; then
                echo "❌ Step 3 失败: 找不到 judge batch metadata 文件: $JUDGE_METADATA_FILE"
                exit 1
            fi

            JUDGE_BATCH_ID=$(python -c "import json; print(json.load(open('$JUDGE_METADATA_FILE'))['batch_id'])")
            echo "📋 Judge Batch ID: $JUDGE_BATCH_ID"
            echo "⏳ 等待 judge batch 完成并取回结果（每 ${BATCH_CHECK_INTERVAL} 秒更新一次）..."

            # 取回/等待（脚本会定期打印 batch 状态 & 进度）
            if python evaluate_rewrites_unifiedjudge_batch.py \
                --batch_id "$JUDGE_BATCH_ID" \
                --metadata_file "$JUDGE_METADATA_FILE" \
                --input_file "$EVALUATED_FILE" \
                --output_file "$JUDGE_SCORED_FILE" \
                --check_interval "$BATCH_CHECK_INTERVAL"; then
                echo "✅ Step 3 完成: judge 评分文件已生成"
            else
                echo "❌ Step 3 失败: 取回 judge batch 结果时出错"
                exit 1
            fi
        else
            echo "模式: 直接等待（直到完成）"
            if python evaluate_rewrites_unifiedjudge_batch.py \
                --input_file "$EVALUATED_FILE" \
                --output_file "$JUDGE_SCORED_FILE" \
                --judge_model_name "$JUDGE_MODEL" \
                --judges "$JUDGES" \
                --target_model_holder "$JUDGE_TARGET_HOLDER" \
                --max_completion_tokens "$MAX_COMPLETION_TOKENS" \
                --completion_window "$BATCH_COMPLETION_WINDOW" \
                --check_interval "$BATCH_CHECK_INTERVAL" \
                --batch_requests_file "$JUDGE_BATCH_REQUESTS_FILE"; then
                echo "✅ Step 3 完成: judge 评分文件已生成"
            else
                echo "❌ Step 3 失败: judge 评分时出错"
                exit 1
            fi
            fi
        fi
    fi
fi

echo ""

# ============================================================================
# Step 4: 统计汇总
# ============================================================================
echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
echo "Step 4: 统计汇总"
echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"

# 检查 Step 3 的输出是否存在
if [ ! -f "$JUDGE_SCORED_FILE" ]; then
    echo "⚠️  警告: judge 评分文件不存在，跳过 Step 4"
    echo "   请先完成 Step 3，然后手动运行:"
    echo "   python statistics_rewrites.py --input_file $JUDGE_SCORED_FILE"
    echo ""
else
    if python statistics_rewrites.py \
        --input_file "$JUDGE_SCORED_FILE" > "$STATS_FILE" 2>&1; then
        echo "✅ Step 4 完成: 统计结果已保存到 $STATS_FILE"
        echo ""
        echo "统计结果预览："
        echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
        head -60 "$STATS_FILE"
        echo "━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━"
    else
        echo "❌ Step 4 失败: 统计时出错"
        exit 1
    fi
fi

echo ""
echo "=========================================="
echo "✅ Pipeline 完成！"
echo "=========================================="
echo "输出文件:"
echo "  - 改写: $REWRITTEN_FILE"
echo "  - 评估: $EVALUATED_FILE"
echo "  - Judge 评分: $JUDGE_SCORED_FILE"
echo "  - 统计: $STATS_FILE"
echo ""

