#!/bin/bash

################################################################################
# LLaDA/Dream 模型评测脚本
# 
# 功能：
#   - 支持多种任务：Sudoku, Countdown, GSM8K, GPQA 等
#   - 支持多种生成模式：info-gain, pc_sampler, eb_sampler, entropy, margin 等
#   - 支持多种启发函数：pc, confidence, neg_entropy, margin, uniform
#
# 使用方法：
#   1. 修改下面的配置部分
#   2. 取消注释要运行的评测命令
#   3. 运行: bash Eval.sh
################################################################################

################################################################################
# ============================ 配置部分 ============================
################################################################################

# --- 模型配置 ---
MODEL_NAME="Dream-org/Dream-v0-Instruct-7B"  # or use local path: "/path/to/your/model"
model_short='dream'
DEVICE="cuda:0"

# 其他可选模型：
# MODEL_NAME="GSAI-ML/LLaDA-8B-Instruct"  # or use local path: "/path/to/your/model"
# model_short='llada'

# --- 任务配置 ---
# 选择要运行的任务（取消注释对应的配置块）

# 任务 1: Countdown
export TASK="countdown"
export DATA_PATH="../data/countdown.jsonl"
export GEN_LENGTH=48
export STEPS=48
export BLOCK_LENGTH=48
export TOKENS_PER_STEP=1

# 任务 2: Sudoku（取消注释以使用）
# export TASK="sudoku"
# export DATA_PATH="../data/sudoku.csv"
# export GEN_LENGTH=0
# export STEPS=16
# export BLOCK_LENGTH=16
# export TOKENS_PER_STEP=1

# 任务 3: GSM8K（取消注释以使用）
# export TASK="gsm8k"
# export DATA_PATH="../data/gsm8k.jsonl"
# export GEN_LENGTH=256
# export STEPS=256
# export BLOCK_LENGTH=32
# export TOKENS_PER_STEP=1

# 任务 4: GPQA（取消注释以使用）
# export TASK="gpqa"
# export DATA_PATH="../data/gpqa.jsonl"
# export GEN_LENGTH=256
# export STEPS=256
# export BLOCK_LENGTH=32
# export TOKENS_PER_STEP=1

# --- 通用参数 ---
TEMPERATURE=0.7
ALPHA=100
BASELINE_NAME="../data/baseline/reference_corpus.json"

# --- Info-Gain Sampler 专用参数 ---
POSITION_TEMPERATURE=0.2
CANDIDATE_NUMBER=8

# --- 结果目录 ---
RESULT_DIR="results-news/${model_short}_eval"
mkdir -p "$RESULT_DIR"

################################################################################
# ============================ 评测函数 ============================
################################################################################

# 运行评测的辅助函数
# 参数：
#   $1: mode - 生成模式 (info-gain, pc_sampler, eb_sampler, etc.)
#   $2: result_suffix - 结果文件名后缀
#   $3: extra_args - 额外的参数（可选）
run_eval() {
    local mode=$1
    local result_suffix=$2
    local extra_args="${3:-}"
    
    # 基础参数（所有模式都需要）
    local base_args=(
        --task "$TASK"
        --model_name "$MODEL_NAME"
        --device "$DEVICE"
        --gen_length $GEN_LENGTH
        --steps $STEPS
        --block_length $BLOCK_LENGTH
        --temperature $TEMPERATURE
        --mode "$mode"
        --tokens_per_step $TOKENS_PER_STEP
        --data_path "$DATA_PATH"
        --result_path "$RESULT_DIR/${TASK}_${result_suffix}_T${TEMPERATURE}_K${TOKENS_PER_STEP}.txt"
    )
    
    # 根据模式添加特定参数
    case "$mode" in
        info-gain|pc_sampler)
            base_args+=(--lambd 0.0 --alpha $ALPHA --baseline_name "$BASELINE_NAME")
            ;;
        eb_sampler)
            # eb_sampler 只需要 gamma，不需要 lambd/alpha/baseline
            ;;
    esac
    
    # 执行命令
    python eval.py "${base_args[@]}" $extra_args
}

################################################################################
# ============================ 评测命令 ============================
# 取消注释要运行的评测命令
################################################################################

# --- Info-Gain Sampler 模式：PC 启发函数（退化为 PC-Sampler）---
run_eval "info-gain" "pc" \
    "--position_temperature 0 --candidate_number 1 --heuristic pc"

# --- Info-Gain Sampler 模式：其他启发函数（退化为 PC-Sampler）---
# run_eval "info-gain" "uniform" \
#     "--position_temperature $POSITION_TEMPERATURE --candidate_number 1 --heuristic uniform"
# 
# run_eval "info-gain" "confidence" \
#     "--position_temperature 0 --candidate_number 1 --heuristic confidence"
# 
# run_eval "info-gain" "neg_entropy" \
#     "--position_temperature 0 --candidate_number 1 --heuristic neg_entropy"
# 
# run_eval "info-gain" "margin" \
#     "--position_temperature 0 --candidate_number 1 --heuristic margin"

# --- Info-Gain Sampler 模式：完整 Info-Gain（带位置采样）---
# run_eval "info-gain" "info_gain_confidence" \
#     "--position_temperature $POSITION_TEMPERATURE --candidate_number $CANDIDATE_NUMBER --heuristic confidence"
# 
# run_eval "info-gain" "info_gain_pc" \
#     "--position_temperature $POSITION_TEMPERATURE --candidate_number $CANDIDATE_NUMBER --heuristic pc"

# --- 其他模式 ---
# run_eval "eb_sampler" "eb_sampler" "--gamma 0.01"
# run_eval "pc_sampler" "pc_sampler" "--lambd 0.25 --alpha $ALPHA"
# run_eval "entropy" "entropy" ""
# run_eval "margin" "margin" ""

################################################################################
# ============================ 说明 ============================
################################################################################

# 参数说明：
#   --mode: 生成模式
#     - 'info-gain': Info-Gain Sampler（信息增益采样器，支持多种启发函数）
#     - 'pc_sampler': PC 采样器
#     - 'eb_sampler': EB 采样器
#     - 'entropy': 熵采样
#     - 'margin': 边际采样
#     - 'original': 原始模式
#
#   --heuristic: 启发函数类型（仅 Info-Gain Sampler 模式，默认：confidence）
#     - 'confidence': 置信度（默认）
#     - 'pc': PC 值
#     - 'neg_entropy': 负熵
#     - 'margin': 边际
#     - 'uniform': 均匀随机
#
#   --position_temperature: 位置采样温度
#     - 0: 退化为 Top-k
#     - >0: 启用位置采样
#
#   --candidate_number: 候选动作数量
#     - 1: 退化为 Baselines
#     - >1: 启用多候选采样
#
#   --tokens_per_step: 每步解码的 token 数量 (K)
#     - 若设置，则 steps = num_masks // K
#
#   --no_shot: 不使用 shot（示例），仅使用问题本身
