
{
  "experimental_plan": [
    {
      "step_number": 1,
      "title": "准备测试数据集",
      "description": "利用AutomatedThemeGenerator生成一个包含200个主题的“主题池”，并从中随机抽取50个作为本次实验的核心测试集。这一步确保了我们实验的起点是随机且无偏的。",
      "actions": [
        {
          "action_type": "generate_code",
          "description": "创建一个Python脚本，用于调用AutomatedThemeGenerator生成主题池并抽样。",
          "output_filename": "construct_test_dataset.py",
          "details": {
            "purpose": "自动化生成用于实验的、无偏见的、高质量研究主题数据集。",
            "implementation_details": [
              "从`cg_mcts_qwen`导入`LLMInterface`, `AutomatedThemeGenerator`, `Config`等必要模块。",
              "设置常量`POOL_SIZE = 200`和`SAMPLE_SIZE = 50`。",
              "主函数中，初始化`LLMInterface`和`AutomatedThemeGenerator`，加载所需的向量和元数据文件。",
              "循环`POOL_SIZE`次，调用`theme_generator.generate_theme()`，将返回的`theme`和`elaboration`以及一个唯一ID存入一个列表。",
              "将完整的主题池列表写入`theme_pool.json`。",
              "使用`random.sample()`从主题池中随机抽取`SAMPLE_SIZE`个主题。",
              "将抽样后的测试集列表写入`test_themes.json`。"
            ],
            "inputs": [
              {"filename": "paper_metadata.json", "format": "JSON列表，每个对象包含'title'和'abstract'。"},
              {"filename": "vectors_{model_name}.npy", "format": "NumPy数组文件，包含paper_metadata.json中论文的向量嵌入。"}
            ],
            "outputs": [
              {"filename": "theme_pool.json", "format": "JSON列表，包含200个主题对象。每个对象格式：{'id': 'theme_001', 'theme': '...', 'elaboration': '...'}"},
              {"filename": "test_themes.json", "format": "JSON列表，包含从池中随机抽取的50个主题对象，格式同上。"}
            ]
          }
        },
        {
          "action_type": "run_script",
          "description": "运行脚本以生成 'theme_pool.json' 和 'test_themes.json'。",
          "details": { "command": "python construct_test_dataset.py" }
        }
      ]
    },
    {
      "step_number": 2,
      "title": "执行所有实验",
      "description": "创建一个主脚本，加载'test_themes.json'，并针对每个主题运行我们自己的方法、所有基准方法以及消融实验。所有结果将被汇总到一个文件中。",
      "actions": [
        {
          "action_type": "generate_code",
          "description": "创建一个Python脚本，用于编排所有实验的运行。",
          "output_filename": "run_experiments.py",
          "details": {
            "purpose": "针对测试集中的每个主题，自动化地运行所有模型和算法变体，并收集它们的生成结果。",
            "implementation_details": [
              "加载`test_themes.json`文件。",
              "加载`cg_mcts_qwen`中的`LLMInterface`和`CG_MCTS`等模块，以及FAISS索引。",
              "为每个对比方法（Top-p, CoT, Self-Refine, Beam Search）和我们自己的方法（CG-MCTS及其消融变体）创建独立的执行函数。",
              "每个函数接收一个主题对象，构造对应的Prompt，调用LLM，并返回生成的文本。",
              "主循环遍历`test_themes.json`中的每一个主题。",
              "在循环中，依次调用所有执行函数，获取所有方法的输出。",
              "将每个主题的输入和所有方法的输出汇总到一个大的字典中。",
              "为了防止长时间运行中断导致数据丢失，每处理完一个主题就将当前的全部结果增量写入`experiment_results.json`。"
            ],
            "inputs": [
              {"filename": "test_themes.json", "format": "步骤1生成的JSON文件。"},
              {"filename": "faiss_index_{model_name}.bin", "format": "用于CG-MCTS和新颖性计算的FAISS索引文件。"}
            ],
            "outputs": [
              {
                "filename": "experiment_results.json", 
                "format": "JSON列表，每个对象对应一个主题。对象格式：{'id': '...', 'theme': '...', 'elaboration': '...', 'outputs': {'top_p': '...', 'cot': '...', 'cg_mcts_full': '...', ...}}"
              }
            ]
          }
        },
        {
          "action_type": "run_script",
          "description": "运行主实验脚本。这将是一个耗时较长的过程。",
          "details": { "command": "python run_experiments.py" }
        }
      ]
    },
    {
      "step_number": 3,
      "title": "自动化评估",
      "description": "对所有生成的构想进行自动化评估。这包括计算V_novelty分数，以及使用LLM-as-a-Judge进行成对比较打分。",
      "actions": [
        {
          "action_type": "generate_code",
          "description": "创建一个脚本，用于计算所有产出的V_novelty分数。",
          "output_filename": "evaluate_novelty.py",
          "details": {
            "purpose": "为`experiment_results.json`中的每一个生成结果计算其V_novelty分数。",
            "implementation_details": [
              "加载`experiment_results.json`。",
              "初始化`LLMInterface`用于文本向量化，并加载FAISS索引。",
              "遍历结果文件中的每一个主题的每一个方法的输出文本。",
              "对每个输出文本，调用`llm.get_vector()`得到其向量。",
              "使用FAISS索引搜索该向量的最近邻，计算 `1 - cosine_similarity` 作为新颖性分数。",
              "将计算出的新颖性分数写回原结果对象中，形成一个新的评估字段。",
              "将更新后的完整数据写入`results_with_novelty.json`。"
            ],
            "inputs": [
              {"filename": "experiment_results.json", "format": "步骤2生成的JSON文件。"},
              {"filename": "faiss_index_{model_name}.bin", "format": "FAISS索引文件。"}
            ],
            "outputs": [
              {
                "filename": "results_with_novelty.json", 
                "format": "结构同`experiment_results.json`，但在每个主题对象中增加了'evaluations': {'v_novelty': {'top_p': 0.8, 'cot': 0.85, ...}}字段。"
              }
            ]
          }
        },
        {
          "action_type": "run_script",
          "description": "运行脚本计算新颖性分数。",
          "details": { "command": "python evaluate_novelty.py" }
        },
        {
          "action_type": "generate_code",
          "description": "创建一个脚本，使用强大的第三方LLM作为裁判，进行成对比较打分。",
          "output_filename": "evaluate_llm_as_judge.py",
          "details": {
            "purpose": "使用LLM-as-a-Judge方法，对我们的核心方法与所有基准方法进行两两配对比较，从多个维度进行打分。",
            "implementation_details": [
              "加载`experiment_results.json`。",
              "设置一个强大的裁判LLM（如GPT-4）的API接口。",
              "定义您在计划中设计的裁判Prompt模板。",
              "遍历结果文件中的每一个主题。",
              "对于每个主题，将`cg_mcts_full`的输出与每一个基准方法的输出配对。",
              "为每一对（A, B），格式化裁判Prompt，并调用裁判LLM API。",
              "解析返回的JSON格式评分，并将其存储。",
              "将所有主题的所有配对评分结果汇总并写入`llm_judge_evaluations.json`。"
            ],
            "inputs": [
              {"filename": "experiment_results.json", "format": "步骤2生成的JSON文件。"}
            ],
            "outputs": [
              {
                "filename": "llm_judge_evaluations.json", 
                "format": "JSON列表，每个对象对应一个主题。对象格式：{'id': '...', 'comparisons': [{'comparison': {'A': 'cg_mcts_full', 'B': 'top_p'}, 'scores': {'A': {...}, 'B': {...}}, 'winner': 'A'}, ...]}"
              }
            ]
          }
        },
        {
          "action_type": "run_script",
          "description": "运行LLM裁判评估脚本。注意：这会调用付费API，可能产生费用。",
          "details": { "command": "python evaluate_llm_as_judge.py" }
        }
      ]
    },
    {
      "step_number": 4,
      "title": "结果分析与可视化",
      "description": "使用Python脚本对收集到的所有评估数据进行统计分析（如配对t检验），并生成图表（如箱形图）来直观展示性能对比。",
      "actions": [
        {
          "action_type": "generate_code",
          "description": "创建一个Python脚本或Jupyter Notebook，用于数据分析和可视化。",
          "output_filename": "analyze_results.py",
          "details": {
            "purpose": "汇总所有评估数据，进行统计检验，并生成用于论文的图表。",
            "implementation_details": [
              "使用`pandas`库加载`results_with_novelty.json`和`llm_judge_evaluations.json`，并将它们处理成易于分析的DataFrame。",
              "对于V_novelty和LLM-as-a-Judge的每个评分维度，将`cg_mcts_full`的分数与其他每个方法的分数进行配对t检验（`scipy.stats.ttest_rel`），打印p-value。",
              "使用`matplotlib`和`seaborn`库，为每个关键指标（如V_novelty, 创新潜力得分等）生成箱形图或条形图，直观对比所有方法的性能分布。",
              "将生成的图表保存为高分辨率图片文件（如.png或.pdf）。"
            ],
            "inputs": [
              {"filename": "results_with_novelty.json", "format": "步骤3生成的文件。"},
              {"filename": "llm_judge_evaluations.json", "format": "步骤3生成的文件。"}
            ],
            "outputs": [
              {"filename": "novelty_comparison.png", "format": "箱形图图片文件，对比各方法的V_novelty分数。"},
              {"filename": "llm_judge_scores.png", "format": "箱形图或条形图图片文件，对比各方法在LLM裁判评估中的得分。"},
              {"filename": "statistical_analysis_report.txt", "format": "文本文件，包含所有t检验的结果（p-value）。"}
            ]
          }
        },
        {
          "action_type": "run_script",
          "description": "运行分析脚本，生成统计结果和图表文件。",
          "details": { "command": "python analyze_results.py" }
        }
      ]
    }
  ]
}
