# ProcessBench Uncertainty Drop Error Detection

基于 Uncertainty Drop 进行过程级别错误检测的评估脚本。

## 功能说明

这个脚本使用 **Uncertainty Drop** 作为 uncertainty measure 来检测 ProcessBench 数据集中数学解答的过程级别错误。

### 核心思想

1. **Forced Decoding（强制解码）**：让模型按照数据集中的解答序列生成，获取对应的 logprobs
   - 给定问题和到当前段落为止的所有步骤
   - 使用数据集中的"下一个段落"作为 target
   - 让模型按照这个 target 序列生成（或直接计算该序列的 logprobs）
   - **生成的序列和数据集序列完全一致**，避免分布差异
   - 如果当前段落有错误，模型在生成后续段落时会表现出更高的不确定性
2. **Uncertainty Drop**：使用 Shannon Entropy 计算每个 token 的不确定性，通过寻找熵曲线的下降（drop）来识别错误
3. **错误定位**：根据每段的 uncertainty measure，找到最早出现错误的段落

### 两种实现方式

- **vLLM 方式**（默认）：让模型生成下一个段落，获取生成过程中的 logprobs
- **Transformers 方式**（`--use_transformers`）：直接计算模型对 target 序列的 logprobs，更接近真正的 forced decoding

## 使用方法

### 基本用法

```bash
# 使用默认的 uncertainty measures (entropy_drop, length_norm_logprob)
python run_eval_uncertainty_drop.py \
    --model_path Qwen/Qwen2.5-3B-Instruct \
    --configs gsm8k \
    --output_dir ./outputs \
    --ema_span 5.0 \
    --drop_k 5

# 使用多个 uncertainty measures（默认会生成 N*2 个结果）
# 例如：entropy 会生成 entropy_drop 和 entropy 两个版本
python run_eval_uncertainty_drop.py \
    --model_path Qwen/Qwen2.5-3B-Instruct \
    --configs gsm8k \
    --output_dir ./outputs \
    --ema_span 5.0 \
    --drop_k 5 \
    --uncertainty_measures entropy evidence length_norm_logprob mean_logprob perplexity confidence

# 只计算原始版本（不使用 drop）
python run_eval_uncertainty_drop.py \
    --model_path Qwen/Qwen2.5-3B-Instruct \
    --configs gsm8k \
    --output_dir ./outputs \
    --ema_span 5.0 \
    --drop_k 5 \
    --uncertainty_measures entropy evidence length_norm_logprob \
    --no-use_drop
```

### 参数说明

- `--model_path`: 模型路径（必需）
- `--configs`: 评估的数据集配置，可选 `gsm8k`, `math`, `olympiadbench`, `omnimath`（默认全部）
- `--output_dir`: 输出目录（默认 `./outputs`）
- `--ema_span`: EMA 平滑窗口大小（默认 5.0）
- `--drop_k`: 考虑的最大下降数量（默认 5）
- `--max_tokens`: 每个段落继续生成的最大 token 数（默认 50）
- `--threshold`: 可选的 uncertainty 阈值（None 表示自动）
- `--use_max_uncertainty`: 使用最大 uncertainty 段落作为错误（默认策略）
- `--uncertainty_measures`: 要计算的基础 uncertainty measures 列表（默认：`entropy length_norm_logprob`）
  
  可选基础 measures（使用基础名称，如 `entropy`，会自动生成 drop 和原始版本）：
  - `entropy`: 会生成 `entropy_drop`（基于熵曲线下降）和 `entropy`（平均熵）
  - `evidence` / `mahuan`: 会生成 `evidence_drop`/`mahuan_risk`（基于 evidence 曲线下降）和 `evidence`/`mahuan`（平均 evidence）
  - `length_norm_logprob`: Length-normalized log probability（不支持 drop，只有原始版本）
  - `mean_logprob`: Mean log probability（不支持 drop，只有原始版本）
  - `max_logprob`: Max log probability（不支持 drop，只有原始版本）
  - `variance_logprob`: Variance of log probabilities（不支持 drop，只有原始版本）
  - `perplexity`: Perplexity（不支持 drop，只有原始版本）
  - `confidence`: Confidence score（不支持 drop，只有原始版本）

- `--use_drop`: 同时计算 drop 和原始版本（默认：True，会生成 N*2 个 measures）
- `--drop_only`: 只计算 drop 版本（覆盖 `--use_drop`）

### 使用脚本

```bash
bash run_uncertainty_drop.sh
```

## 评价指标

脚本会计算以下评价指标：

1. **Overall Accuracy**: 整体准确率（预测的错误位置是否与标注一致）
2. **Error Accuracy**: 对有错误样本的准确率
3. **Correct Accuracy**: 对无错误样本的准确率
4. **F1 Score**: Error 和 Correct 准确率的调和平均数
5. **Error Position Accuracy**: 错误位置预测准确率（仅针对有错误的样本）
6. **AUC-ROC**: 二分类（是否有错误）的 ROC-AUC
7. **AUC-PR**: 二分类的 PR-AUC

## 输出文件

对于每个配置，会生成：

1. `{config}_uncertainty_drop_results.json`: 评估结果摘要
2. `{config}_detailed_results.jsonl`: 每个样本的详细结果，包括：
   - 每段的多种 uncertainty measures（字典格式）
     - 如果 `use_drop=True`，会包含 N*2 个 measures（每个支持 drop 的 measure 都有 drop 和原始两个版本）
     - 例如：`entropy` 会生成 `entropy_drop` 和 `entropy` 两个值
   - 预测的错误位置（基于第一个 measure 的 drop 版本，如果可用）
   - 是否匹配标注

### Uncertainty Measures 说明

- **entropy_drop**: 基于 Shannon Entropy 曲线的下降幅度，值越大表示不确定性增加越严重
- **length_norm_logprob**: 长度归一化的 log probability，值越大表示模型越确定
- **mean_logprob**: 平均 log probability，值越大表示模型越确定
- **max_logprob**: 最大 log probability，值越大表示模型越确定
- **variance_logprob**: Log probabilities 的方差，值越大表示不确定性越高
- **perplexity**: Perplexity = exp(-mean_logprob)，值越大表示不确定性越高
- **confidence**: 置信度分数 = 1 - 归一化熵，值越大表示置信度越高
- **mean_entropy**: 平均熵，值越大表示不确定性越高
- **evidence_drop** / **mahuan_risk**: Mahuan Risk Score，基于 logprobs sum 曲线的下降幅度，值越大表示风险越高（来自 Mahuan 方法）
- **mean_evidence**: Logprobs sum 的平均值，值越大表示模型越确定

## 工作原理

### 1. Uncertainty Drop 计算

对于每个段落：
- **输入**：问题 + 到当前段落为止的所有步骤
- **Target**：数据集中的"下一个段落"（如果存在）
- **任务**：让模型按照 target 序列生成（forced decoding）
- **原理**：
  - 如果当前段落正确，模型能自信地生成下一个段落（不确定性低）
  - 如果当前段落有错误，模型在生成后续段落时会表现出更高的不确定性
  - **生成的序列和数据集序列完全一致**，避免分布差异
- **计算过程**：
  - 提取生成 target 序列过程中的 logprobs
  - 计算每个 token 的 Shannon Entropy
  - 通过 EMA 平滑和寻找最大下降来计算 Uncertainty Drop Score
  - 不确定性越高，说明当前段落越可能有错误

### 示例

假设有一个数学问题：
- **问题**：计算 2 + 2
- **段落0**：2 + 2 = 5（错误！）
- **段落1**：因此答案是 5（数据集中的下一个段落）
- **任务**：让模型按照"段落1"生成，获取 logprobs
- **观察**：模型在生成时会表现出高不确定性，因为前面有错误
- **结果**：该段落的 uncertainty measure 会很高

### 2. 错误检测策略

- **自动策略**（默认）：找到第一个 uncertainty 超过 `mean + std` 的段落
- **最大 uncertainty**：选择 uncertainty 最高的段落
- **阈值策略**：如果提供了 `--threshold`，找到第一个超过阈值的段落

### 3. 评价指标

- **段落级别**：预测的错误段落索引是否与标注一致
- **样本级别**：是否能正确判断样本是否有错误（二分类）

## 示例输出

```
Processing gsm8k dataset
Loaded 1319 samples

Processing gsm8k: 100%|██████████| 1319/1319 [05:30<00:00, 4.0it/s]

Evaluating gsm8k...

gsm8k Results:
  Overall Accuracy: 65.23%
  Error Accuracy: 58.45%
  Correct Accuracy: 72.01%
  F1 Score: 64.58%
  Error Position Accuracy: 58.45%
  AUC-ROC: 0.7234
  AUC-PR: 0.6891
```

## 注意事项

1. **计算成本**：需要逐段生成，计算量较大，建议使用 GPU
2. **模型要求**：需要支持 logprobs 的模型（vLLM 支持）
3. **内存使用**：建议设置合适的 `gpu_memory_utilization`
4. **参数调优**：`ema_span` 和 `drop_k` 可能需要根据数据集调整

## 与标准评估的对比

| 特性 | `run_eval.py` | `run_eval_uncertainty_drop.py` |
|------|---------------|--------------------------------|
| 方法 | 生成完整 critique | 基于 uncertainty drop |
| 输出 | 文本分析 | 数值 uncertainty measure |
| 计算 | 一次性生成 | 逐段生成评估 |
| 可解释性 | 文本解释 | 数值指标 |

