<div align="center">

# CKM-HypoGen

**面向预测性科学假设生成的 Continuous Knowledge Metabolism 工作流**

CKM 把持续更新的科学文献流转化为可演化的知识状态，再生成结构化假设，并用之后才发表的论文进行回查验证。

[English](./README.md) · [Benchmark](./benchmark/) · [快速上手](#快速上手) · [工作流](#工作流) · [文档](#文档)

</div>

<p align="center">
  <a href="figures/ckm_framework.pdf">
    <img src="figures/ckm_framework.png" alt="CKM workflow" width="94%">
  </a>
  <br>
  <sub><a href="figures/ckm_framework.pdf">查看 PDF 版本框架图</a></sub>
</p>

| 50 个主题 | 约 9000 篇冻结论文 | 5.8% 未来文献命中率 | 72% 主题覆盖率 | 领先 460 天 |
|---:|---:|---:|---:|---:|
| ML benchmark | 跨时间阶段的 arXiv ID | CKM-Lite | 至少一条假设被验证的主题比例 | RLHF 稳定性案例 |

## 概览

很多 LLM 科学发现流程是在生成后立刻由另一个模型打分。CKM 采用更严格的时间验证：只使用某个时间窗口之前的文献生成假设，再用窗口之后出现的论文检查这些假设是否被后续研究印证。

这个仓库同时包含可运行工作流和用于评测该工作流的 benchmark。

| 组件 | 提供什么 | 位置 |
|---|---|---|
| **Agent Runtime 插件** | 论文收集、知识状态更新、假设生成、后续研究计划和定时追踪等 skills | [`src/`](./src/)、[`skills/`](./skills/)、[`index.ts`](./index.ts) |
| **CKM Benchmark** | 可复现的预测性假设生成基准：冻结 topic、冻结论文池、跨 provider 裁判和参考结果 | [`benchmark/`](./benchmark/) |
| **评测 harness** | 运行 CKM-Lite / Full / Batch 变体并保存详细报告的研究代码 | [`ckm-eval/`](./ckm-eval/) |

## 快速上手

以 Agent Runtime 插件形式使用工作流：

```bash
agent-runtime plugins install ckm-hypogen
agent-runtime gateway
```

随后在 chat UI 中调用研究 skills：

```text
/research-collect "long-context modeling"        # 构建基线知识状态
/metabolism                                       # 吸收新窗口论文并生成假设
/research-plan                                    # 把选中的假设转成研究计划
```

从源码开发：

```bash
git clone https://github.com/<your-fork>/ckm-hypogen.git
cd ckm-hypogen
pnpm install
pnpm build
agent-runtime plugins install -l ./
agent-runtime gateway
```

## Benchmark

复现已发布的 leaderboard summary 不需要 API 调用：

```bash
cd benchmark
pip install -r requirements.txt
python -m ckm_benchmark.recompute --summary results/lite_summary.json results/batch_summary.json results/full_summary.json
```

使用发布的 validation pool 重新评测一个新系统：

```bash
cp .env.example .env  # 编辑 OPENAI_API_KEY
python -m ckm_benchmark.rejudge --hypotheses path/to/yours/ --validation-pool data/validation_pool.json --output results/yours.json
```

问题定义、提交格式、评测协议和 leaderboard 见 [`benchmark/README.md`](./benchmark/README.md)。

## 工作流

CKM 是一个滑动窗口研究工作流。每个窗口都会吸收新论文、更新当前知识状态，并基于累积状态生成文献支撑的假设。

| 阶段 | Skill | 输出 |
|---|---|---|
| **1. 初始化** | `/research-collect` | 从最多 48 篇历史论文构建 Markdown 知识状态 $\mathcal{K}_0$ |
| **2. 更新** | `/metabolism` | 更新后的 $\mathcal{K}_t$，包含新发现、支持证据、矛盾和跨窗口变化 |
| **3. 生成** | `/metabolism` | 带源文献引用、新颖性检查、可行性说明和自评分的结构化假设 |

工作流属于 tool-augmented reasoning：模型不自由浏览网页，只消费 arXiv、OpenAlex 和 Unpaywall 等确定性工具的输出。

<details>
<summary><strong>可用 skills 和命令</strong></summary>

| Skill | 用途 |
|---|---|
| `/research-collect` | 构建基线知识状态 |
| `/metabolism-init` | 为某个 topic 初始化 metabolism 工作区 |
| `/metabolism` | 吸收新论文并生成假设 |
| `/idea-generation` | 基于近期论文生成研究想法 |
| `/research-survey` | 生成多论文综述 |
| `/research-plan` | 把有潜力的假设转成实施计划 |
| `/research-implement` | 实施计划并运行短验证 |
| `/research-review` | 审查并修订研究产物 |
| `/research-experiment` | 运行完整训练和消融实验 |
| `/research-pipeline` | 通过 `sessions_spawn` 串接多个 skills |
| `/research-subscription` | 调度日级或周级研究追踪任务 |

| 命令 | 用途 |
|---|---|
| `/research-status` | 查看当前研究工作区 |
| `/papers` | 查看当前项目收集的论文 |
| `/ideas` | 查看生成的研究想法 |
| `/projects` | 查看研究项目 |
| `/project-switch <id>` | 切换当前项目 |
| `/research-subscriptions` | 查看定时任务 |
| `/research-unsubscribe [job-id]` | 删除定时任务 |

</details>

## 仓库结构

```text
.
├── benchmark/                # CKM Benchmark v0.1
│   ├── ckm_benchmark/        # Python 包：judge、rejudge、recompute
│   ├── data/                 # 冻结 topic、arXiv ID、validation pool
│   ├── docs/                 # 问题定义、评测协议、leaderboard
│   ├── results/              # 参考 summaries
│   └── README.md             # benchmark 文档
├── ckm-eval/                 # 研究评测 harness
│   ├── core/                 # engines、judge、store
│   ├── tools/                # 搜索、全文、metrics、可视化
│   ├── scripts/              # Lite / Full / Batch / 消融 runners
│   └── results/              # 单次运行日志，gitignored
├── skills/                   # Agent Runtime skill 提示词
├── src/                      # TypeScript 插件源码
├── docs/                     # 架构和运维说明
├── figures/                  # 框架图
├── index.ts                  # 插件入口
├── agent-runtime.plugin.json # 插件 manifest
└── package.json              # npm 包配置
```

`analysis/`、`experiments/`、`paper/`、`reference/`、`ckm-eval/results/` 和缓存目录等本地产物已 gitignore。

## 文档

| 方向 | 链接 |
|---|---|
| Benchmark | [`benchmark/README.md`](./benchmark/README.md)、[`PROBLEM_STATEMENT.md`](./benchmark/docs/PROBLEM_STATEMENT.md)、[`EVALUATION.md`](./benchmark/docs/EVALUATION.md)、[`LEADERBOARD.md`](./benchmark/docs/LEADERBOARD.md) |
| 插件 | [`ARCHITECTURE.md`](./docs/ARCHITECTURE.md)、[`AGENT_RUNTIME_CONFIG.md`](./docs/AGENT_RUNTIME_CONFIG.md)、[`PLUGIN_CAPABILITIES.md`](./docs/PLUGIN_CAPABILITIES.md) |
| 评测 harness | [`EXPERIMENTS.md`](./ckm-eval/scripts/EXPERIMENTS.md) |

## 引用

```bibtex
@inproceedings{ckm2026,
  title     = {Continuous Knowledge Metabolism: Generating Scientific Hypotheses from Evolving Literature},
  author    = {[Anonymous, AI4Research workshop submission]},
  booktitle = {AI4Research Workshop at ICML 2026},
  year      = {2026}
}
```

## License

MIT。Benchmark 代码 license 见 [`benchmark/LICENSE`](./benchmark/LICENSE)；Agent Runtime 插件源码同样 MIT。
