# FileAgent 代码仓库

本仓库主要包含两个部分：
- `infer/`：基于 OpenAI / vLLM 接口的推理与工具调用框架
- `verl/`：基于 [verl](https://github.com/volcengine/verl) 的强化学习训练配方


```bash
pip install -r requirements.txt
```


## 推理（Inference）

推理代码在 `infer/` 目录下，支持两种调用方式：

- **Function Calling（推荐）**：`infer.py`  
  - 适用于：支持 OpenAI 工具调用协议的服务（官方 OpenAI / 兼容 API 等）  
  - 工具定义：`infer/tool_config.yaml`  
  - 模型与 endpoint 配置：`infer/api_config.yaml`、`infer/models_config.json`  
  - 基本用法：
    ```bash
    cd infer
    python infer.py \
      --input /path/to/extracted_bench-v2.json \
      --output /path/to/output_dir \
      --models_config models_config.json
    ```

- **文本协议 + vLLM**：`tool_vllm_client_sandbox.py`  
  - 适用于：只有普通 chat 接口、不支持 `tools` 字段的 vLLM / 开源模型  
  - System prompt：`infer/simple_system_prompt-qwen.txt`  
  - vLLM 地址配置：`infer/vllm_config.json`  
  - 基本用法：
    ```bash
    cd infer
    python tool_vllm_client_sandbox.py \
      -i /path/to/input.json \
      -o /path/to/results.json \
      -m your_model_name
    ```


输入格式为 JSON / JSONL，每个样本至少需要包含一个用于推理的字段（如 `formatted_question`）。  
推理结果将保存到指定的输出路径，每行对应一个样本的详细结果（包括模型输出、工具调用信息等）。

### 测试数据

- 我们提供了一个示例测试集：`data/extracted_bench-v2-final.json`  
  - 每个样本包含：`task_id`、`level`、`formatted_question`、`prewrites`（需要放入沙盒的文件列表）、`answer` 等字段。  
  - `prewrites[*].fpath` 中引用的文件默认存放在 `data/files/` 目录下。
- 使用前需要先从数据发布地址下载所有原始文件，解压后放置到：
  - JSON 文件：`data/extracted_bench-v2-final.json`  
  - 对应文件：`data/files/<文件名>`  
  然后在推理命令中将 `--input` 参数指向该 JSON 文件。

### 推理相关配置文件

- `infer/api_config.yaml`  
  - `defaults`：公共配置（如统一的 `azure_endpoint`、`api_version`、默认 temperature）。  
  - `models`：按 `model_name` 配置各自的 `api_key`、`max_tokens`、是否启用 thinking 等。  
  - 在 `infer.py` 中通过 `load_api_config(model_name)` 读取；实际运行哪些 `model_name` 由 `infer/models_config.json` 控制。
  - 使用前需要将文件中的 `api_key` 和 `azure_endpoint` 替换为你自己的服务信息。

- `infer/vllm_config.json`  
  - 用于配置 vLLM / 开源模型的访问地址：`{ "模型名": { "ipv6": "...", "port": 18908 }, ... }`。  
  - `vllm_api.py` 和基于 vLLM 的脚本会根据传入的 `model_name` 从这里查找对应的后端地址。  
  - 如果部署了新的 vLLM 服务，只需在此文件中新增一项，然后在命令行使用 `-m 该模型名` 即可。

## 训练（Training）

训练代码在 `verl/` 目录下，基于官方 `verl` 框架，结合 sandbox 实现文件交互功能，进行多轮工具调用的强化学习训练。

### 训练脚本示例

- `verl/run_extracted_bench_qwen3-32b.sh`

这些脚本会通过 Ray 提交一个 `verl.trainer.main_ppo` 任务，加载以下配置：

- 训练配置：`verl/recipe/fileagent/config/extracted_bench_trainer.yaml`  
- 工具/agent 配置：`verl/recipe/fileagent/config/tool/extracted_bench_tool.yaml`、`verl/recipe/fileagent/config/agent_loop.yaml`  
- 数据与数据集定义：`verl/recipe/fileagent/rl_dataset.py` 以及相关的 parquet 数据文件

### 运行前需要修改的内容

在使用前，建议根据你的环境修改以下几个地方：

- 模型与数据路径（脚本顶部）  
  - `MODEL_PATH`：指向你的基础模型检查点（如 Qwen-32B 系列）  
  - `DATA_HOME` / `TRAIN_FILES` / `VAL_FILES`：指向你本地准备好的 RL 训练/验证数据（parquet 格式）
- 输出与 Ray 集群  
  - `SAVE_DIR`：训练日志与模型权重的输出目录  
  - `RAY_ADDRESS`：你的 Ray 集群地址（也可以改为本机 `ray start --head` 的地址）
- 运行环境  
  - `verl/runtime_env.yaml`：用于 `ray job submit` 的 runtime 配置，可以删除或替换其中的内部代理、私有服务 URL，只保留必需的 env 变量与 pip 依赖。

修改完成后，即可在 Ray 集群上启动训练，例如：

```bash
cd verl
bash run_extracted_bench_qwen3-32b.sh
```

训练过程中的更多超参数（如 batch size、max tokens、adv_estimator 等），可以直接在脚本和 `recipe/fileagent/config/extracted_bench_trainer.yaml` 中调整。
