# Extracted Bench 训练脚本对比

## 📋 脚本列表

我们为 Extracted Bench 提供了两套完整的训练脚本，适用于不同的使用场景：

### 1. 直接运行模式（推荐入门）

**主脚本**: `run_extracted_bench.sh`

- **运行方式**: 直接执行 `python3 -m verl.trainer.main_ppo`
- **节点数**: 单节点（NNODES=1）
- **环境管理**: 通过脚本内的 `export` 设置环境变量
- **适用场景**: 
  - 本地开发和测试
  - 单机训练
  - 快速迭代实验
- **优点**:
  - 简单直接，易于调试
  - 日志实时输出到终端
  - 环境变量修改方便
- **缺点**:
  - 仅支持单节点
  - 占用当前终端

**使用示例**:
```bash
cd /mnt/bn/fileagent-storage/users/<your_username>/verl

# 配置环境变量（可选）
export LLM_JUDGE_IP="your_judge_ip"
export LLM_JUDGE_PORT="18908"

# 运行
bash recipe/fileagent/run_extracted_bench.sh
```

### 2. Ray Job Submit 模式（生产环境）

**主脚本**: `run_extracted_bench_ray.sh`  
**配置文件**: `runtime_env_extracted_bench.yaml`

- **运行方式**: `ray job submit` 提交任务到 Ray 集群
- **节点数**: 支持多节点（可配置 NNODES）
- **环境管理**: 通过 `runtime_env.yaml` 统一管理
- **适用场景**:
  - 多节点分布式训练
  - 生产环境部署
  - 长时间运行的训练任务
- **优点**:
  - 支持多节点分布式
  - 异步提交，不占用终端
  - 环境配置统一管理
  - 更好的任务监控和日志管理
- **缺点**:
  - 配置相对复杂
  - 需要 Ray 集群环境

**使用示例**:
```bash
cd /mnt/bn/fileagent-storage/users/<your_username>/verl

# 修改 runtime_env（如需要）
vim recipe/fileagent/runtime_env_extracted_bench.yaml

# 提交任务
bash recipe/fileagent/run_extracted_bench_ray.sh

# 查看任务
ray job status
ray job logs <job-id>
```

## 🔄 两者的核心区别

### 运行命令对比

**直接运行模式**:
```bash
# 在脚本中
python3 -m verl.trainer.main_ppo \
    --config-path=${cfg_path} \
    --config-name=${cfg_name} \
    ...
```

**Ray Submit 模式**:
```bash
# 在脚本中
ray job submit --no-wait \
    --runtime-env="${RUNTIME_ENV}" \
    --working-dir "${WORKING_DIR}" \
    --address "${RAY_ADDRESS}" \
    -- python3 -m verl.trainer.main_ppo \
    --config-path=${cfg_path} \
    --config-name=${cfg_name} \
    ...
```

### 环境变量配置对比

**直接运行模式** (`run_extracted_bench.sh`):
```bash
# 在脚本开头 export
export USE_FILEAGENT_TRAINER="true"
export LLM_JUDGE_BASE_URL="http://[${LLM_JUDGE_IP}]:${LLM_JUDGE_PORT}/v1"
export VERL_LOGGING_LEVEL="INFO"
...
```

**Ray Submit 模式** (`runtime_env_extracted_bench.yaml`):
```yaml
env_vars:
  USE_FILEAGENT_TRAINER: "true"
  LLM_JUDGE_BASE_URL: "http://[2605:...]:18908/v1"
  VERL_LOGGING_LEVEL: "INFO"
  ...
```

### 配置路径对比

**直接运行模式**:
```bash
# 使用相对路径
cfg_path="${PROJECT_DIR}/recipe/fileagent/config"
tool_cfg_path="recipe/fileagent/config/tool/extracted_bench_tool.yaml"
```

**Ray Submit 模式**:
```bash
# 使用绝对路径（更稳定）
cfg_path="/mnt/bn/fileagent-storage/users/<your_username>/verl/recipe/fileagent/config"
tool_cfg_path="recipe/fileagent/config/tool/extracted_bench_tool.yaml"
```

## 📊 完整对比表

| 特性 | 直接运行模式 | Ray Submit 模式 |
|------|------------|----------------|
| **脚本** | `run_extracted_bench.sh` | `run_extracted_bench_ray.sh` |
| **配置文件** | 无（环境变量在脚本中） | `runtime_env_extracted_bench.yaml` |
| **节点支持** | 单节点 | 多节点 |
| **运行方式** | `python3 -m ...` | `ray job submit ...` |
| **环境变量** | 脚本内 `export` | YAML 配置文件 |
| **日志输出** | 直接到终端 | 通过 `ray job logs` |
| **任务管理** | 前台运行 | 后台异步 |
| **适用场景** | 开发/测试 | 生产/分布式 |
| **学习曲线** | 简单 | 中等 |
| **灵活性** | 高（易修改） | 中（需修改 YAML） |
| **可靠性** | 中（依赖当前 shell） | 高（Ray 管理） |

## 🎯 选择建议

### 使用直接运行模式（`run_extracted_bench.sh`），如果：

- ✅ 你是第一次运行训练
- ✅ 你在单机/单节点环境
- ✅ 你需要快速迭代和调试
- ✅ 你想实时查看详细日志
- ✅ 你对环境变量需要频繁调整

### 使用 Ray Submit 模式（`run_extracted_bench_ray.sh`），如果：

- ✅ 你需要多节点分布式训练
- ✅ 你在生产环境部署
- ✅ 你需要长时间运行训练
- ✅ 你希望任务后台运行
- ✅ 你有 Ray 集群环境

## 🔄 从直接模式切换到 Ray 模式

如果你已经用直接模式测试通过，想切换到 Ray 模式：

1. **更新 runtime_env_extracted_bench.yaml**
   ```bash
   vim recipe/fileagent/runtime_env_extracted_bench.yaml
   # 修改 LLM Judge 相关配置
   ```

2. **配置 Ray 地址**（如果使用远程集群）
   ```bash
   export RAY_ADDRESS="http://[your_ray_head_ip]:10975"
   ```

3. **运行 Ray 脚本**
   ```bash
   bash recipe/fileagent/run_extracted_bench_ray.sh
   ```

## 📝 两个脚本的共同配置

以下配置在两个脚本中是**完全相同**的：

- ✅ 模型路径 (`MODEL_PATH`)
- ✅ 数据路径 (`DATA_HOME`, `TRAIN_FILES`, `VAL_FILES`)
- ✅ 工具配置 (`tool_cfg_path` → `extracted_bench_tool.yaml`)
- ✅ Agent Loop 配置 (`agent_loop_cfg_path`)
- ✅ 系统提示词 (`new_sp_path`)
- ✅ 训练超参数（batch size, learning rate, max_turns, etc.）
- ✅ Reward 配置（使用 `reward_score_batch.py` + LLM Judge）
- ✅ 所有 PPO 算法参数

**唯一的区别是运行方式和环境管理！**

## 🛠️ 常见操作

### 修改 LLM Judge 地址

**直接模式**:
```bash
# 编辑脚本
vim recipe/fileagent/run_extracted_bench.sh
# 或使用环境变量
export LLM_JUDGE_IP="new_ip"
```

**Ray 模式**:
```bash
vim recipe/fileagent/runtime_env_extracted_bench.yaml
# 修改 env_vars 下的 LLM_JUDGE_IP 等
```

### 修改训练批次大小

**两种模式**（都在脚本中修改）:
```bash
vim recipe/fileagent/run_extracted_bench.sh  # 或 run_extracted_bench_ray.sh
# 找到并修改
train_bsz=128  # 改为你需要的值
```

### 查看训练日志

**直接模式**:
- 直接在终端查看

**Ray 模式**:
```bash
ray job logs <job-id>  # 实时查看
ray job logs <job-id> > training.log  # 保存到文件
```

## 📚 相关文档

- **使用指南**: `EXTRACTED_BENCH_README.md`
- **迁移说明**: `MIGRATION_TO_FILEAGENT_RECIPE.md`
- **团队标准脚本参考**: `run_llm_grpo_7b.sh`（直接模式）、`example_ray_submit.sh`（Ray 模式）

---

**最后更新**: 2025-10-15  
**维护者**: AI Assistant & User

