{
  "project_title": "概念引导下的蒙特卡洛树搜索（CG-MCTS）在科学构想生成中的应用",
  "project_goal": "通过严谨的定量实验，证明CG-MCTS方法在生成科学构想时，能显著提升其新颖性和合理性，并优于现有的解码策略与基线方法。",
  "methodology": "在公开可用的科学论文语料库上构建知识数据库，并使用自动化指标评估CG-MCTS与多个基线方法生成的构想。",
  "experiments": [
    {
      "step": 1,
      "title": "数据集与知识库构建",
      "description": "为后续的生成与评估任务准备核心数据集和向量索引。",
      "details": [
        {
          "data_type": "核心语料库 (Novelty Database, D_novelty)",
          "purpose": "用于衡量生成构想的新颖性（V_novelty），同时作为锚点集（Anchor Set, A）的来源。",
          "source": "选择一个特定领域的大规模公开论文语料库。",
          "recommendation": "推荐使用ACL Anthology或arXiv上某个特定分类（如cs.AI, cs.CL, cs.LG）的全部论文摘要，截止到某个固定时间点（例如2022年）。这既能保证数据量，又便于复现。例如，`Paper 2`和`Paper 3`都使用了类似的数据集构建方法 [cite: 5, 9]。"
        },
        {
          "data_type": "测试提示（Test Prompts）",
          "purpose": "用于驱动所有方法生成科学构想，确保公平比较。",
          "source": "从上述核心语料库中，随机抽取一批在固定时间点之后（例如2023-2024年）发表的论文，使用其标题或摘要作为测试提示 [cite: 9]。这样能天然地包含“新颖”的概念，方便后续评估。",
          "quantity": "建议选取50-100个测试提示，每个提示生成10个不同的构想，以保证结果的统计学显著性。"
        }
      ],
      "code_files": [
        "data_prep/1_download_corpus.py",
        "data_prep/2_build_vector_index.py"
      ],
      "implementation_notes": "使用`Hugging Face`的`sentence-transformers/all-mpnet-base-v2`或`jina-embeddings-v3`等高性能开源嵌入模型对论文摘要进行向量化 [cite: 10]。将向量存储在`FAISS`（Facebook AI Similarity Search）索引中，以便进行高效的最近邻搜索 [cite: 5]。"
    },
    {
      "step": 2,
      "title": "方法实现与基线构建",
      "description": "实现您的CG-MCTS方法，并准备用于比较的基线方法。",
      "details": [
        {
          "method_group": "您的核心方法",
          "methods": [
            "CG-MCTS (Complete)",
            "CG-MCTS (Ablation 1): 无概念正交投影（COP），仅使用MCTS进行探索，以证明COP的作用。",
            "CG-MCTS (Ablation 2): 不同的方向引导权重（w_dir）值，例如w_dir=0.1, 0.5, 1.0，以展示该超参数的影响。"
          ],
          "implementation_notes": "实现您论文草稿中描述的完整算法，包括ExtractVector、COP、Guided UCT、Simulation和Backpropagation。重点在于实现隐藏状态的访问和向量计算。"
        },
        {
          "method_group": "核心基线方法",
          "methods": [
            "标准贪心搜索（Greedy Search）",
            "束搜索（Beam Search）",
            "Top-P采样",
            "Top-K采样"
          ],
          "implementation_notes": "这些是LLM最常见的解码策略，能直接与您的搜索方法进行对比。它们代表了LLM的“默认”行为，是您证明新颖性的关键对照 [cite: 9]。"
        },
        {
          "method_group": "检索增强基线",
          "methods": [
            "RAG-Vanilla"
          ],
          "implementation_notes": "这是一个强大的基线，它模仿了`Paper 3`的语义检索方法 [cite: 9]。具体做法是：使用用户提示检索`Novelty Database`中Top-K篇最相关的论文摘要，将摘要作为附加上下文信息输入给LLM，然后使用Top-P采样生成构想。这能证明您的方法不仅仅是简单的信息检索增强。"
        }
      ],
      "code_files": [
        "methods/cg_mcts.py",
        "methods/baselines.py",
        "main.py"
      ],
      "implementation_notes": "所有方法都应使用相同的LLM骨干模型（例如Llama 3或Mistral），相同的硬件环境和相同的测试提示集，以确保实验公平性。"
    },
    {
      "step": 3,
      "title": "自动化评估与结果分析",
      "description": "使用量化指标对所有方法生成的构想进行客观评估，并进行统计分析。",
      "details": [
        {
          "metric_type": "新颖性（Novelty）",
          "metric": "平均新颖性价值（Mean V_novelty）",
          "formula": "1 - CosineSimilarity(v_idea, v_nearest_neighbor_in_D_novelty)",
          "notes": "这直接对应您的`V_novelty`指标，并通过计算每个生成的构想向量与`Novelty Database`中最近邻向量的余弦距离来衡量。平均距离越大，新颖性越高。这是完全自动化的、可复现的评估方法。"
        },
        {
          "metric_type": "合理性/连贯性（Coherence）",
          "metric": "平均连贯性价值（Mean V_coherence）",
          "formula": "平均对数概率",
          "notes": "这直接对应您的`V_coherence`指标，通过LLM自身给出的生成序列的平均对数概率来衡量，分数越高代表语言越流畅、逻辑越自洽。"
        },
        {
          "metric_type": "多样性（Diversity）",
          "metrics": [
            "语义多样性（Semantic Diversity of Embeddings, SDE）",
            "Self-BLEU"
          ],
          "notes": "这两个指标在`Paper 1`和`Paper 3`中被广泛使用 [cite: 3, 11]。SDE通过计算同一方法生成的不同构想向量之间的平均余弦距离来衡量语义多样性。Self-BLEU则衡量不同构想之间的n-gram重叠度，分数越低代表多样性越高。这能补充说明您的方法不仅仅是新颖，而且能产生多种不同的想法。"
        }
      ],
      "code_files": [
        "evaluation/metrics.py",
        "evaluation/run_evaluation.py",
        "analysis/plot_results.py"
      ],
      "implementation_notes": "运行脚本自动生成评估报告和图表，比较不同方法在各个指标上的表现。使用柱状图、箱线图等可视化方式清晰地呈现结果，并通过t-test或ANOVA等统计学检验来证明您的结果是显著的。"
    }
  ]
}