# R³DAO: 基于反馈驱动拓扑演化的反应式数据智能体编排框架

**R³DAO**是一个反应式数据智能体编排框架（Reactive Data Agent Orchestration），旨在解决长周期数据科学任务中的编排难题。针对现有框架依赖静态链式执行计划、易受错误传播影响导致推理链崩溃的问题，R³DAO 提出了**“分层探索、迭代恢复、经验收敛”**的动态演化闭环。

前端提供 Web UI；后端基于 FastAPI，支持 REST API 与 WebSocket 实时日志流；每次运行独立子进程，日志与结果按 run_id 归档保存。

## 📊 性能亮点

在 **MLE-bench** 上的评估表明，R³DAO 展现了卓越的可靠性、效率和成本效益：
- **成功率提升 77.36%**：相较于先进的 R&D-Agent。
- **执行效率飞跃**：平均执行时间压缩 **36倍**。
- **极低成本**：单任务 Token 消耗控制在 **104k** 以内。

## ✨ 核心特性

- **动态分层任务网络 (Dynamic Hierarchical Task Network)**
	- 将全局意图递归分解为宏观逻辑锚点（Macro-logical Anchors）和微观算子（Micro-operators）。
	- 通过逻辑空间的降维实现低成本探索，支持任务分解与计划可视化。
- **反应式拓扑重构 (Reactive Topology Reconfiguration)**
	- 利用语义反思（Semantic Reflection）将执行异常映射为诊断信号。
	- 取代昂贵的全局重置，通过局部拓扑优化实现弹性自愈（Resilient Self-healing）。
- **语义经验蒸馏 (Semantic Experience Distillation)**
	- 实现双环累积（Dual-loop Accumulation），自动从成功案例中提取技术经验与常见陷阱。
	- 将长周期轨迹压缩为结构化先验，结合从 Kaggle 竞赛中检索的外部知识（基于语义向量检索），引导执行效率向最优状态收敛。
- **交互式系统架构**
	- **可视化前端**：实时日志（WebSocket）、运行历史、经验提取与反馈统计。
	- **后端 API**：统一 REST API 管理运行与知识库。
	- **全流程追溯**：完整的日志与结果归档机制。

## 🏗 架构概览

- FastAPI 后端（`server.py`）
	- 静态前端挂载在 `/app`，避免与 `/api/*` 路由冲突。
	- 运行管理存于内存字典 `RUNS`，多线程互斥更新。
	- 子进程执行器：`run_worker.py`，按 run_id 落地日志和结果。
	- WebSocket `/ws/logs`：按行推送新增日志，支持 `?run_id=` 指定。
- 前端（`frontend/index.html`）
	- 原生 HTML/CSS/JS，使用 WebSocket 实时显示日志，颜色与级别一致。
	- 运行列表、终止/重启、Plan 可视化、经验提取与反馈统计。
- 知识与反馈（`knowledgeBase/` 与 `knowledge.py`）
	- 从成功用例（`plan.json`）中抽取经验，整合到反馈库。

## 📂 目录结构

```
/
├─ agent/                 # 智能体核心模块（planner/actor/critic 等）
├─ frontend/              # Web UI（静态资源），通过 /app 提供
│  └─ index.html
├─ knowledgeBase/             # 经验知识库与配置
│  ├─ external_knowledge.json     # 预置的外部专家知识
│  ├─ experience_library.json               # 动态学习的经验反馈
│  └─ case_library.jsonl      # Kaggle 竞赛语料库（可选）
├─ knowledge_retriever.py         # Kaggle 知识检索模块
├─ manage_kaggle_kb.py            # Kaggle 语料库管理工具
├─ KAGGLE_RETRIEVAL_GUIDE.md      # Kaggle 检索使用指南
├─ output/                # 运行产物（日志与结果）
│  ├─ logs/               # run_<run_id>.log
│  └─ results/
│     └─ <run_id>/
│        ├─ code.ipynb
│        └─ plan.json
├─ prompt/                # 提示词模板
├─ tool/                  # 执行工具（如 Notebook 代码执行器）
├─ server.py              # FastAPI 应用（REST + WebSocket）
├─ run_worker.py          # 子进程执行器（单次 run）
├─ requirements.txt       # 依赖
└─ README.md
```

## 🔧 环境要求

- Python 3.10+（推荐 3.10/3.11）
- Windows / macOS / Linux 均可

## 📦 安装

1) 可选：创建虚拟环境（Windows PowerShell）

```
conda activate -n myenv python==3.11
conda activate myenv
```

2) 安装依赖

```
pip install -r requirements.txt   #下载最少依赖
pip install -r requirements_full.txt #下载全部依赖（推荐）
```
pip install torch==2.5.1+cu118 torchvision==0.20.1+cu118 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu118
```

> 如首次运行后端失败（如 `ModuleNotFoundError: fastapi/uvicorn` 或 uvicorn 启动退出），优先检查依赖是否安装成功。

## ▶️ 启动

首先激活环境`conda activate myenv`

1. 直接启动

   - 在项目根目录执行（确保当前目录包含 `main.py`）：

     ```
     python .\main.py
     ```

浏览器访问：http://127.0.0.1:3000

2. 前后端启动

   - 启动前端

     ```
     cd .\frontend-react\
     npm run dev
     ```

   - 启动后端

     ~~~
     python .\server.py 
     ~~~

## 🖥 使用方式

### Web UI

1) 在“运行控制”输入需求并点击“运行”。
2) “实时日志”区域自动通过 WebSocket 显示终端同款彩色日志。
3) “运行管理”可查看历史 run、查看单个 run 日志、终止/重启运行、查看 Plan。
4) “结果列表”可查看产出目录，支持对 `plan.json` 触发“从 plan 提取经验”。
5) “反馈统计”展示当前经验/反馈的汇总。

### 语义澄清（自动）

- 在正式进行任务分解前，系统会先对用户输入做一次"语义澄清"，将模糊表述重写为更可执行的需求，并补充关键假设、约束、输入/输出、评估指标等要点；
- 若可能需要外部数据（如 Kaggle），会在澄清结果中给出可能的数据来源与 Kaggle slug 建议；
- 澄清结果会随同 plan 一起保存到 `output/results/<run_id>/plan.json` 的 `clarification` 字段，并在 `refined_question` 字段提供重写后的需求文本；
- 澄清失败不会阻塞主流程，系统会回退到原始需求继续规划。

### Kaggle 知识检索（可选）

系统支持从 Kaggle 竞赛中自动检索相关技巧：

1. **初始化语料库**
   ```bash
   python manage_kaggle_kb.py init
   ```
   这会创建包含经典竞赛（Titanic、House Prices 等）的示例语料库。

2. **启用检索**
   在 `config.json` 中设置：
   ```json
   {
     "module_config": {
       "enable_kaggle_retrieval": true
     }
   }
   ```

3. **工作流程**
   - 任务开始前，系统会基于任务描述找到最相似的 Kaggle 竞赛
   - 使用 LLM 从获奖方案中提取技术细节（特征工程、模型参数等）
   - 提取的技巧自动存入知识库，后续任务可直接复用

4. **查看更多**
   详见 [KAGGLE_RETRIEVAL_GUIDE.md](KAGGLE_RETRIEVAL_GUIDE.md)

### API 速览（REST）

- 健康检查：`GET /api/health`
- 发起运行：`POST /api/run`
	- 请求：`{"requirement": "用泰坦尼克数据做二分类并可视化"}`
	- 响应：`{"run_id": "20251024_101844_3b6dda"}`
- 运行列表：`GET /api/runs`
	- 响应：`{"runs": [{"run_id", "status", "elapsed_seconds", ...}]}`
- 终止运行：`POST /api/runs/{run_id}/terminate`
- 重启运行：`POST /api/runs/{run_id}/restart`
	- 响应：`{"run_id": "<new_run_id>", "old_run_id": "<old>"}`
- 结果列表：`GET /api/results`
- 从 plan 提取经验：`POST /api/extract-experience`
	- 请求：`{"plan_path": "output/results/<run_id>/plan.json", "task_type": "可选"}`
- 反馈汇总：`GET /api/feedback/summary`

### WebSocket 实时日志

- 端点：`/ws/logs`
- 可选参数：`run_id`
	- 指定 `run_id`：推送该运行的日志
	- 不指定：自动推送最新日志文件
- 单条消息示例：

```json
{"level":"INFO","color":"blue","message":"[INFO] Actor started ..."}
```

## 🗂 产出与文件约定

- 日志文件：`output/logs/run_<run_id>.log`
- 结果目录：`output/results/<run_id>/`
	- 计划：`plan.json`
	- 笔记本：`code.ipynb`

> 子进程会在运行完成后将最新结果目录重命名为 `<run_id>`，以便与日志对应。

## ❓常见问题（FAQ）

1) uvicorn 启动失败/退出（Exit Code 1）
	 - 确认已在项目根目录执行（当前目录包含 `server.py`）。
	 - 重新安装依赖：`pip install -r requirements.txt`。
	 - 检查 Python 版本 >= 3.10。

2) 页面 405 或接口返回 405
	 - 请通过 `/app/` 访问前端页面，不要将静态目录挂载到根路径 `/`。

3) 实时日志无内容
	 - 检查是否存在日志文件：`output/logs/run_<run_id>.log`。
	 - WebSocket URL 是否正确（前端默认连接 `ws://<host>/ws/logs?run_id=...`）。

## 🧪 开发提示

- 修改前端请编辑：`frontend/index.html`。
- 后端新增接口请更新：`server.py`，并维护 API 文档（本文件）。
- 日志级别颜色映射在后端与前端保持一致，便于终端风格渲染。

## 📄 许可证

待补充（如需开源协议请在此处注明）。

