FATHER_PLANNER_PROMPT: str = """
# 可用父任务类型：
{parent_task_type_desc}

# 经验知识：
{experience_knowledge}

# 相关案例：
{related_cases}

# 任务说明：
请基于以上“可用父任务类型”，为当前目标设计一组高层次的父级任务，用于覆盖整个实现流程的主要逻辑。
你可以适当结合“经验知识”优化任务的合理性与顺序。

每个父任务的 `instruction` 字段需简要描述该阶段的目标、输入与输出范围，若有必要`instruction`（指令）字段必须明确包含：
- 涉及的**具体文件路径**（如果适用）
- 任务的**关键要求或约束条件**（如：考虑CPU/显卡负载，尽量避免过于复杂的模型）
- 任务采用的**主要方法或技术手段**（可选）
但不需要细化具体实现步骤。

---

# 输出要求：
- 请根据用户需求生成 1～5 个父级任务，按逻辑顺序排列；
- 在 `dependent_task_ids` 中指明任务间的依赖；
- 每个任务类型必须来自“可用父任务类型”；
- 输出结果需为符合 JSON 格式的任务列表。
如有必要需要外部资料可调用检索（最多调用一次），否则直接输出 JSON
---

# 输出格式示例：
```json
[
    {{
        "task_id": "t1",
        "dependent_task_ids": [],
        "instruction": "加载并检查原始数据文件，确保格式正确并可供后续分析。",
        "task_type": "数据输入与加载层"
    }},
    {{
        "task_id": "t2",
        "dependent_task_ids": ["t1"],
        "instruction": "进行数据清洗与初步分析，识别缺失值、异常值和数据分布，为特征工程做准备.",
        "task_type": "数据预处理层"
    }},
    {{
        "task_id": "t3",
        "dependent_task_ids": ["t2"],
        "instruction": "在清洗后的数据上进行特征提取与建模训练，选择并优化合适模型。",
        "task_type": "建模与训练层"
    }}
]
```
"""

# 需求澄清与重写（在任务分解前执行）
CLARIFY_PROMPT: str = """
# 目标
在不改变用户核心意图的前提下，对需求进行“语义澄清与重写”，主要在调用工具后补充必须的数据路径、数据结构与关键字段信息，并输出一个更加明确、可执行的需求说明。

# 输出要求（仅输出 JSON，字段必须齐全）
{
    "refined_requirement": "string，重写后的清晰需求（保持用户语气与上下文，但更明确、可执行）",
    "required_data_schema": {
        "文件名或数据源名称": {
            "path": "string，若用户已给出路径则原样引用；未知则留空",
            "fields": {
                "字段名": {
                    "description": "字段含义（从 data_explorer 工具输出中获取 ）"
                }
            }
        }
    }
}

# 约束与注意事项
- 不擅自虚构数据、文件或字段含义。
- 用户若已提供文件名或路径，请原样引用，不需调用下载工具。
- 当用户未提供数据集、无法直接读取时，可使用 data_downloader 或 kaggle_downloader 获取数据。
- 若需求需要用到外部知识，先调用 web_search_summarize。
- 在获得数据后，必须调用 data_explorer 工具提取数据结构与字段信息，再将其注入 required_data_schema。
- 仅输出 JSON，不包含额外解释。
"""

# 需求澄清 Phase1：知识补充 + 数据获取（允许检索/下载工具）
CLARIFY_PHASE1_PROMPT: str = """
# 目标
第一阶段：进行外部知识补充及数据获取。
1. 若用户在需求中直接提供了数据（文件夹路径/含义），请提取并整理。
2. 若需要获取外部知识可以调用 web_search_summarize工具。
3. 若需要进行数据获取，则调用 kaggle_downloader / data_downloader函数。
最后基于已有信息重写需求及数据路径。

# 输出 JSON 格式（仅输出 JSON）
{
    "refined_requirement": "string, 基于原始需求与可能的知识补充后的更明确版本",
    "knowledge_summary": "string, 若调用检索工具则综合总结，未调用则可为空字符串",
    "dataset_paths": ["string, 已存在或新下载的数据集文件/目录路径"],
    "dataset_description": "string, 若用户提供了文件夹结构、内容含义或数据说明，请在此详细描述（传递给下一阶段）",
    "final_output_requirements": "string, 对最终输出结果的补充说明（如格式、包含哪些字段、共多少条记录）",
    "notes": ["可选的补充说明，如为什么未调用工具或后续探索建议"]
}

# 注意
- 不要凭空伪造路径；若用户未提供数据路径或文件名，并且未提供数据，必须先调用工具下载数据。

- 若用户已明确提供数据路径或文件名，则不要重复下载。
- 若无需工具，直接返回 refined_requirement（保持原意但更结构化和明确）,dataset_paths(已知的数据路径列表)。
- 仅输出 JSON，不加解释文本。
- 输出的dataset_paths保持绝对或相对workspace目录下的相对路径。
"""

# 需求澄清 Phase2：数据结构探索（允许 data_explorer）
CLARIFY_PHASE2_PROMPT: str = """
# 目标
第二阶段：基于第一阶段得到的 dataset_paths 结合已知的dataset_description，决定是否调用 data_explorer 工具探索字段/文件结构。然后输出 enriched schema。

输入提供：
- 第一阶段 refined_requirement
- dataset_paths 列表
- notes 补充说明

若已清楚数据集文件或目录的结构或字段名则不需要调用 data_explorer，否则调用data_explorer工具探索数据集结构与字段含义。
最后汇总为 required_data_schema。

# 输出 JSON 格式（仅输出 JSON）
{
    "refined_requirement": "string, 可以在第一阶段的基础上再微调但不能改变核心意图",
    "required_data_schema": {
        "文件或数据源名称": {
            "path": "string, 对应文件或目录路径",
            "file_meaning": "string, 该文件或数据源的含义说明（如已知）",
            "loading_parameters": {
                "description": "包含用于 pd.read_csv 加载该文件的正确参数（如 sep, header, names等）,若无可为空"
            },
            "fields": {
                "字段名": {
                    "description": "字段可能的含义或类型说明（来自 data_explorer 或启发式推断）"
                }
            }
        }
    },
    "explore_decision": "string, 'explored' | 'skip'",
    "notes": ["补充说明，如未调用 data_explorer 的原因"]
}

# 注意
- 若 dataset_paths 为空或无法解析，可直接 skip。
- 不修改用户真实意图，不发明不存在的文件或字段。
- 仅输出 JSON。
"""

CHILD_PLANNER_PROMPT: str = """
# 角色：
你是一位资深数据科学家 AI，擅长把宏观目标拆解为可在 Notebook 中逐步执行的代码化步骤。

# 上一个父任务执行结果：
{pre_task_results}

# 可用子任务类型：
{child_task_type_desc}

# 任务说明（重要的拆分准则）：
请评估“当前父任务”的复杂度与依赖关系，**默认优先选择不拆分（split=false）**，除非任务满足下列“必须拆分”的硬性条件。：
## 仅当满足以下任一条件时，才允许拆分为 2-3 个子任务：
- **依赖运行时决策**：必须先运行 Step A，**看到**其输出的日志/指标/数据分布后，才能决定 Step B 该怎么写（例如：先训练基线模型，根据 Feature Importance 决定下一步如何筛选特征）。
- **包含长耗时/高风险操作**：涉及模型训练、大规模数据下载或复杂计算，需要设置断点（Checkpointing），防止中间失败导致前功尽弃。
- **逻辑极度复杂**：任务包含多个独立的逻辑阶段（例如：先进行复杂的文本清洗，再进行向量化，最后进行聚类分析），合并在一起会导致代码可读性极差。
## 若任务逻辑线性、上下文充足、资源可控且简单明确，则不允许拆分。

# 子任务字段与质量要求（严格遵守下列数据结构）：
- ChindTask：
    - task_id: string（例如 "t2.1"）
    - instruction: string（子任务目标与输入输出范围，足以指导代码生成与日志打印）
    - task_type: string（任务类型标签）

# 输出对象字段定义：
统一返回一个 JSON 对象
- split: boolean（是否进行子任务拆分）
- 当 split=true 时：
    - children: ChindTask[]（按执行顺序排列，task_id 派生自父任务编号，如 t3.1, t3.2派生自父任务t3）
- 当 split=false 时：
    - refined_parent_instruction: string（基于上下文与上一步执行结果，进一步明确且可直接指导代码生成的父层任务指令。包括：目标、输入/输出、关键日志打印要求、重要约束/文件路径等）

# 输出格式示例 A（不需拆分 → 直接给出精炼后的父任务指令）：
```json
{{
    "split": false,
    "refined_parent_instruction": "读取 ./cleaned.csv，完成特征缩放并保存为 ./features.parquet；打印转换后 DataFrame 的 shape、示例行头部与输出文件路径。",
}}
```

# 输出格式示例 B（确需拆分 → 返回 ChindTask 列表）：
```json
{{
    "split": true,
    "children": [
        {{
            "task_id": "t3.1",
            "dependent_task_ids": [],
            "instruction": "使用 RandomForestClassifier 作为基线模型，在训练集上进行训练。完成后，需在验证集上进行初步评估，打印出准确率（Accuracy）和 F1 分数，并将训练好的模型保存到 `./baseline_model.pkl`。",
            "task_type": "建模与训练"
        }},
        {{
            "task_id": "t3.2",
            "dependent_task_ids": ["t3.1"],
            "instruction": "基于基线模型的表现，使用 GridSearchCV 对 RandomForestClassifier 的超参数进行搜索以提升性能。搜索空间应至少包括 n_estimators: [100, 200, 300] 和 max_depth: [10, 20, None]。搜索完成后，打印最佳参数组合与对应的交叉验证分数，并将最佳模型保存至 `./tuned_model.pkl`。",
            "task_type": "模型调优"
        }},
        {{
            "task_id": "t3.3",
            "dependent_task_ids": ["t3.2"],
            "instruction": "加载经过调优的最佳模型（`./tuned_model.pkl`），在独立的测试集上进行最终性能评估。必须输出完整的分类报告（classification_report）和混淆矩阵（confusion_matrix），以全面衡量模型的最终泛化能力。",
            "task_type": "模型评估"
        }}
    ]
}}
```
"""

PLAN_STATUS_PROMPT = """
    ## 已完成任务
    {finished_tasks_desc}

    ## 当前任务
    {current_task}

    当前任务已完成部分
    ### 代码
    ```python
    {current_task_code}
    ```
    ### 执行结果
    {current_task_result}

    任务指导
    请为“当前任务”中未完成的部分编写代码。避免重复书写“已完成任务”和“当前任务已完成部分”中的代码，例如重复导入包、重复读取数据等。
    具体要求：{guidance}
    """

PLAN_REFINE_HUMAN_PROMPT: str = """
# 背景
你已经为用户需求生成了一个初步的数据科学任务规划，但是经过人工审查后，收到了一些修改建议。
你需要根据这些建议更新任务列表。

# 用户原始需求
{requirement}

# 当前计划
```json
{current_plan}
```

# 人工审查建议
{human_suggestion}

# 任务类型参考
{parent_task_type_desc}

# 任务要求
1. 参考“人工审查建议”对“当前计划”进行修改。建议可能涉及修改指令、删除任务、增加任务或调整顺序。
2. 确保修改后的计划依然逻辑连贯，依赖关系正确 (`dependent_task_ids` 需对应存在的 `task_id`)。
3. 每个任务的 `task_type` 必须在“任务类型参考”中。
4. 输出完整的、修改后的 JSON 任务列表。

# 输出格式示例
```json
[
    {{
        "task_id": "t1",
        "dependent_task_ids": [],
        "instruction": "...",
        "task_type": "..."
    }},
    ...
]
```
"""

CHILD_PLAN_REFINE_HUMAN_PROMPT: str = """
# 背景
你已经将父任务分解为一组子任务，但是经过人工审查后，收到了一些修改建议。
你需要根据这些建议更新子任务列表。

# 父任务
{parent_task_desc}

# 当前子任务列表
```json
{current_subtasks}
```

# 人工审查建议
{human_suggestion}

# 子任务类型参考
{child_task_type_desc}

# 任务要求
1. 参考“人工审查建议”对“当前子任务列表”进行修改。建议可能涉及修改指令、删除任务、增加任务或调整顺序。
2. 确保修改后的子任务逻辑连贯，能够完成父任务的目标。
3. 严格遵守 JSON 输出格式。

# 输出对象字段定义：
统一返回一个 JSON 对象
- split: boolean（是否进行子任务拆分）
- 当 split=true 时：
    - children: ChindTask[]（按执行顺序排列，task_id 派生自父任务编号，如 t3.1, t3.2派生自父任务t3）
- 当 split=false 时：
    - refined_parent_instruction: string（基于上下文与上一步执行结果，进一步明确且可直接指导代码生成的父层任务指令。包括：目标、输入/输出、关键日志打印要求、重要约束/文件路径等）

# 输出格式示例（需拆分 -> 返回 ChildTask 列表）
```json
{{
    "split": true,
    "children": [
        {{
            "task_id": "t3.1",
            "dependent_task_ids": [],
            "instruction": "...",
            "task_type": "..."
        }}
    ]
}}
```
"""
