# Extracted Bench 训练指南

本目录包含使用 verl 框架在 Extracted Bench 数据集上训练 Agent 模型的完整配置。

## 📁 文件结构

```
recipe/fileagent/
├── config/
│   ├── extracted_bench_trainer.yaml      # 训练配置文件
│   ├── agent_loop.yaml                   # Agent Loop 配置（FileAgentAgentLoop）
│   └── tool/
│       └── extracted_bench_tool.yaml     # FileAgent Sandbox 工具配置
├── prompts/
│   └── extracted_bench_sp.md             # 系统提示词
├── convert_extracted_bench.py            # 数据转换脚本
├── run_extracted_bench.sh                # 训练启动脚本
├── reward_score.py                       # 奖励计算（单样本）
└── reward_score_batch.py                 # 奖励计算（批处理包装器）
```

## 🚀 快速开始

### 1. 准备 LLM Judge Server

确保 LLM Judge 服务已启动（vLLM 或其他 OpenAI 兼容 API）：

```bash
# 在另一个终端或节点启动 Judge 服务
# 例如使用 vLLM：
# vllm serve Qwen2.5-32B-Instruct --port 18908
```

### 2. 选择运行模式

我们提供两种运行模式：

#### 模式 A: 直接运行（单节点，推荐入门）

**适用场景**: 单机/单节点训练，本地开发测试

```bash
cd /path/to/your/verl

# （可选）配置环境变量
export LLM_JUDGE_IP="2605:340:cd51:4b00:140c:e92f:caf3:f57a"
export LLM_JUDGE_PORT="18908"
export LLM_JUDGE_MODEL_NAME="Qwen2.5-32b-bench-v2-deepseek"

# 启动训练
bash recipe/fileagent/run_extracted_bench.sh
```

脚本会自动：
1. 检查数据是否存在，如不存在则自动转换
2. 显示训练配置摘要
3. 启动训练

#### 模式 B: Ray Job Submit（多节点，生产环境）

**适用场景**: 多节点分布式训练，生产环境

```bash
cd /path/to/your/verl

# 修改 runtime_env_extracted_bench.yaml 中的 LLM Judge 配置（如需要）
vim recipe/fileagent/runtime_env_extracted_bench.yaml

# 提交 Ray Job
bash recipe/fileagent/run_extracted_bench_ray.sh

# 查看任务状态
ray job status
ray job logs <job-id>
```

**Ray 模式的优势**:
- 支持多节点分布式训练
- 环境变量通过 `runtime_env.yaml` 统一管理
- 任务异步提交，不占用当前终端
- 更好的任务管理和日志收集

### 3. 两种模式的区别

| 特性 | 直接运行模式 | Ray Submit 模式 |
|------|------------|----------------|
| 节点数 | 单节点 | 支持多节点 |
| 环境变量 | 通过 `export` 设置 | 通过 `runtime_env.yaml` 管理 |
| 任务管理 | 前台运行 | 后台异步运行 |
| 日志查看 | 直接输出 | `ray job logs` |
| 适用场景 | 开发测试 | 生产训练 |
| 脚本 | `run_extracted_bench.sh` | `run_extracted_bench_ray.sh` |

## 🔧 配置说明

### 数据相关

- **输入数据**: `/path/to/your/data/extracted_bench-v2.json`
- **转换后数据**: `/path/to/your/verl/data/extracted_bench/train.parquet`
- **系统提示词**: `recipe/fileagent/prompts/extracted_bench_sp.md`

### 模型相关

- **模型路径**: 在 `run_extracted_bench.sh` 中配置 `MODEL_PATH`
- **默认**: `/path/to/your/LLaMA-Factory/Qwen2.5-7b-bench-v1-deepseek/checkpoint-120`

### 训练超参数

在 `run_extracted_bench.sh` 中可配置：

```bash
train_bsz=128              # 训练批次大小
val_bsz=16                 # 验证批次大小
max_turns=15               # 最大轮次
max_prompt_len=2048        # 最大提示长度
max_resp_len=30720         # 最大响应长度（30KB）
max_tool_resp_len=20480    # 最大工具响应长度（20KB）
```

### 工具配置

工具定义在 `config/tool/extracted_bench_tool.yaml`：
- **ExecuteCode**: 执行 Python 代码
- **ExecuteShell**: 执行 Shell 命令

两个工具都在 FileAgent Sandbox 中安全执行。

### Reward 配置

- **Reward 函数**: `reward_score_batch.py` 中的 `compute_score_batch`
- **评判方式**: 使用 LLM Judge 评判最终答案的正确性
- **奖励组成**:
  - `acc_reward`: 准确性奖励（LLM Judge 评判）
  - `format_reward`: 格式奖励（`<think>`、`<answer>` 标签）
  - `tool_reward`: 工具使用奖励

## 📊 监控训练

### 1. 查看训练日志

训练日志会实时输出到终端，包括：
- 训练进度
- 每步的 metrics
- Reward 统计

### 2. WandB 监控

训练开始后会显示 WandB 链接，可以在浏览器中查看：
- Reward 曲线
- Loss 曲线
- 工具使用统计
- 生成样例

### 3. 使用监控脚本

```bash
# 在另一个终端运行
watch -n 5 bash /path/to/project/verl/monitor_training.sh
```

## 🔍 故障排查

### 问题 1: 数据转换失败

**症状**: `convert_extracted_bench.py` 报错

**解决**:
```bash
# 手动运行数据转换，查看详细错误
python3 recipe/fileagent/convert_extracted_bench.py \
    --input /path/to/your/data/extracted_bench-v2.json \
    --output /path/to/your/verl/data/extracted_bench/train.parquet \
    --system_prompt recipe/fileagent/prompts/extracted_bench_sp.md
```

### 问题 2: LLM Judge 连接失败

**症状**: 日志中出现 "LLM Judge is not enabled"

**解决**:
1. 确认 Judge 服务已启动：`curl http://[IP]:PORT/v1/models`
2. 检查环境变量：`echo $LLM_JUDGE_BASE_URL`
3. 检查防火墙/网络连接

### 问题 3: 工具调用失败

**症状**: Sandbox 创建或执行失败

**解决**:
1. 检查 FileAgent Sandbox API 是否可用
2. 查看详细错误日志
3. 确认 `verl/tools/fileagent_sandbox_tool.py` 中的 API 配置

### 问题 4: 内存不足

**症状**: OOM 错误

**解决**:
1. 降低批次大小：`train_bsz=64`
2. 降低序列长度：`max_resp_len=20480`
3. 启用 offload：修改配置文件中的 `param_offload=True`

## 📝 修改系统提示词

如果需要修改系统提示词：

```bash
# 编辑提示词文件
vim recipe/fileagent/prompts/extracted_bench_sp.md

# 重新转换数据
rm /path/to/your/verl/data/extracted_bench/train.parquet
python3 recipe/fileagent/convert_extracted_bench.py ...
```

## 🎯 修改 LLM Judge Prompt

如果需要修改 LLM Judge 的评判逻辑：

```bash
# 编辑 LLM Judge 配置
vim recipe/fileagent/utils/llm_judge.py

# 修改 SYSTEM_PROMPT 和 USER_PROMPT_TEMPLATE
```

## 🔧 高级配置

### 自定义工具

如需添加新工具，编辑 `config/tool/extracted_bench_tool.yaml`：

```yaml
tools:
  - class_name: "your.tool.Class"
    config:
      type: native
    tool_schema:
      type: "function"
      function:
        name: "YourTool"
        description: "Tool description"
        parameters:
          type: "object"
          properties:
            arg1:
              type: "string"
              description: "Argument description"
          required: ["arg1"]
```

### 调整 Agent Loop

如需修改 Agent Loop 行为，编辑 `recipe/fileagent/agent_loop.py`。

### 自定义 Reward

如需完全自定义 Reward 计算，可以：
1. 修改 `reward_score.py` 中的逻辑
2. 或创建新的 reward 函数，并在 `config/extracted_bench_trainer.yaml` 中指定

## 📚 相关文档

- **verl 框架文档**: `/path/to/project/verl/README.md`
- **FileAgent Recipe**: `/path/to/project/verl/recipe/fileagent/README.md`
- **LLM Judge 配置**: `/path/to/project/verl/HOW_TO_MODIFY_LLM_JUDGE_PROMPT.md`
- **Reward 系统**: `/path/to/project/verl/FILEAGENT_REWARD_GUIDE.md`

## 🤝 贡献

如有问题或改进建议，请联系团队成员。
