# 实验组设计说明

## 概览

所有实验共享同一套 topic 列表（50 个）、同一套论文搜索逻辑、同一套 Phase 1 (Init) 和 Phase 3 (Validation) 评估流程。
区别仅在 **Phase 2（知识演化阶段）** 的处理方式。

```
时间线: [2019] ──Init── [2024] ──Evolution── [2025] ──Validation── [2027]
                Phase 1         Phase 2              Phase 3
```

## CKM（完整系统）

**路径：** `scripts/eval_single.py`

CKM 是完整的知识新陈代谢系统，Phase 2 每个窗口执行以下 6 个步骤：

```
for each window t:
  ① 选论文 + 下载全文
  ② 构建 papers_text
  ③ 快照 K_before → topic_update_engine（对比性更新：新发现/印证/矛盾）→ 快照 K_after
  ④ topic_discover_engine（检测新主题）
  ⑤ trigger_detection(K_before, K_after) → 得到 change_type + reason（变化感知）
  ⑥ ckm_hypothesis_engine（传入演化轨迹 + 已有假设 + change_type + reason）
```

**核心特征：**
- 对比性知识更新（diff-based）
- 显式变化检测（知道发生了什么类型的变化）
- 演化轨迹感知（知道历史窗口发生了什么）
- 假设链（知道之前生成过什么假设，避免重复、支持 refinement）

**Hypothesis Engine：** `run_ckm_hypothesis_engine`

---

## Pool（一次性批处理 baseline）

**路径：** `scripts/pool/eval_single.py`

**消融了什么：** 增量结构 — 没有时间窗口，没有演化过程

**Phase 2 流程：**
```
  ① 一次性下载全部 evolution 论文全文
  ② 一次性更新所有 topic files
  ③ 一次性发现新 topic
  ④ 调用 n_windows 轮假设生成（每轮 budget=3，保证调用次数与 CKM 相同）
  ⑤ LLM 去重（因为多轮调用可能产生重复）
```

**与 CKM 的区别：**

| 维度 | CKM | Pool |
|------|-----|------|
| 论文处理 | 逐窗口增量 | 一次性全部 |
| 知识更新 | 每窗口对比性更新 | 一次性更新 |
| 变化检测 | 每窗口检测 | 无 |
| 演化轨迹 | 有（每窗口记录） | 无 |
| 已有假设感知 | 有 | 无 |
| 假设 engine | `run_ckm_hypothesis_engine` | `run_baseline_hypothesis_engine` |
| 假设去重 | 不需要（每窗口知识不同，假设自然不同） | 需要（多轮输入相同，可能重复） |
| context overflow 风险 | 无（每窗口 prompt 小） | 有（大量论文可能超出 128K） |

**验证的命题：** 增量知识演化 vs 一次性批处理，哪种产生更好的假设？

**Hypothesis Engine：** `run_baseline_hypothesis_engine`（无状态，无演化上下文）

---

## Ablation 1：Shuffled Timestamps（打乱时间）

**路径：** `scripts/ablation1/eval_single.py`

**消融了什么：** 时间信号 — 论文时间被打乱，窗口内容随机化

**Phase 2 流程：** 与 CKM 完全相同的 6 个步骤，唯一区别是在 Phase 2 开始前：
```
  *** 打乱所有 evolution 论文的 published 时间戳 ***
  然后正常执行 CKM 的全部流程
```

**与 CKM 的区别：**

| 维度 | CKM | Ablation 1 |
|------|-----|------------|
| 论文时间顺序 | 正序（正确的时间线） | **随机打乱** |
| 知识更新 | 相同 | 相同（但输入的论文顺序错乱） |
| 变化检测 | 相同 | 相同（但检测到的"变化"基于错乱的输入） |
| 演化轨迹 | 反映真实演化 | **反映虚假的演化** |
| 假设 engine | 相同 | 相同 |

**验证的命题：** 正确的时间线对假设质量是否重要？如果 Ablation 1 显著差于 CKM，说明时间信号是有价值的。

**Hypothesis Engine：** `run_ckm_hypothesis_engine`

---

## Lite：No-Diff（无差异感知）

**路径：** `scripts/lite/eval_single.py`

**消融了什么：** 整个 diff 机制 — 不做对比性知识更新，不做变化检测

**Phase 2 流程：**
```
for each window t:
  ① 选论文 + 下载全文（同 CKM）
  ② 构建 papers_text（同 CKM）
  ③ 直接把论文内容追加到 accumulator 文件（不调 topic_update_engine）
  ④ 跳过 topic_discover_engine
  ⑤ 跳过 trigger_detection
  ⑥ ckm_hypothesis_engine（trigger_type="NONE", trigger_reason=""）
```

**与 CKM 的区别：**

| 维度 | CKM | Lite |
|------|-----|------------|
| 知识更新方式 | `topic_update_engine`（对比：新发现/印证/矛盾） | **直接追加论文内容** |
| 知识结构 | 结构化 topic files | **单一 accumulator 文件** |
| 新 topic 发现 | 有 | **跳过** |
| 变化检测 | `trigger_detection` → change_type | **跳过（传 NONE）** |
| 演化轨迹 | 含变化摘要 | 仅记录"X papers appended" |
| 已有假设感知 | 有 | 有（相同） |
| 假设 engine | 相同 | 相同（但无 change 信号输入） |

**验证的命题：** 对比性知识吸收（"什么是新的、什么被印证、什么矛盾了"）对假设质量是否重要？如果 Lite 显著差于 CKM，说明 diff 机制是 CKM 的关键组件。

**Hypothesis Engine：** `run_ckm_hypothesis_engine`

---

## Ablation 2：Abstract-Only（仅摘要）

**路径：** `scripts/ablation2/eval_single.py`

**消融了什么：** 全文深度阅读 — 所有论文只用 abstract，不下载全文

**Phase 2 流程：** 与 CKM 完全相同的 6 个步骤，唯一区别是论文内容：
```
  所有 resolve_paper_contents 替换为 resolve_paper_contents_abstract_only
  → 论文 content = abstract（约 200 词）而非全文（约 5000-10000 词）
```

**与 CKM 的区别：**

| 维度 | CKM | Ablation 2 |
|------|-----|------------|
| 论文内容来源 | 全文（.tex / PDF） | **仅 abstract** |
| 知识更新 | 基于全文的对比性更新 | 基于摘要的对比性更新 |
| 变化检测 | 相同 | 相同（但基于更浅的内容） |
| 演化轨迹 | 相同 | 相同 |
| 假设 engine | 相同 | 相同 |
| 全文下载时间 | 大量（主要耗时） | **零** |

**验证的命题：** 深度阅读（全文）是否比浅层阅读（摘要）产生更好的假设？这也有实用意义——如果 abstract-only 效果接近，系统可以快 5-10 倍。

**Hypothesis Engine：** `run_ckm_hypothesis_engine`

---

## 消融矩阵总结

| 实验组 | 增量窗口 | 对比性更新 | 变化检测 | 全文阅读 | 时间顺序 | 演化轨迹 | 假设链 |
|--------|---------|-----------|---------|---------|---------|---------|-------|
| **CKM** | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ | ✓ |
| **Pool** | ✗ | ✗(一次性) | ✗ | ✓ | ✗ | ✗ | ✗ |
| **Abl.1 Shuffled** | ✓ | ✓ | ✓ | ✓ | **✗** | ✓(错乱) | ✓ |
| **Lite No-Diff** | ✓ | **✗** | **✗** | ✓ | ✓ | ✓(弱) | ✓ |
| **Abl.2 Abstract** | ✓ | ✓ | ✓ | **✗** | ✓ | ✓ | ✓ |

每组消融恰好去掉一个核心组件（或一类组件），结论可以清晰归因。

---

## 运行命令

```bash
# CKM 完整系统
./scripts/run_single.sh "AI for software engineering"
./scripts/run_batch.sh --concurrency 3

# Pool baseline
./scripts/pool/run_single.sh "AI for software engineering"
./scripts/pool/run_batch.sh --concurrency 3

# Ablation 1: Shuffled
./scripts/ablation1/run_single.sh "AI for software engineering"
./scripts/ablation1/run_batch.sh --concurrency 3

# Lite: No-Diff
./scripts/lite/run_single.sh "AI for software engineering"
./scripts/lite/run_batch.sh --concurrency 3

# Ablation 2: Abstract-Only
./scripts/ablation2/run_single.sh "AI for software engineering"
./scripts/ablation2/run_batch.sh --concurrency 3
```

## 结果目录

```
results/
├── YYYYMMDD_HHMMSS/           # CKM
├── pool_YYYYMMDD_HHMMSS/      # Pool
├── ablation1_YYYYMMDD_HHMMSS/ # Shuffled
├── lite_YYYYMMDD_HHMMSS/ # No-Diff
├── ablation2_YYYYMMDD_HHMMSS/ # Abstract-Only
```

所有结果目录结构一致：`batch_summary.json` + `all_reports/` + `topics/<slug>/`。
