"""
知识提取相关的提示词模板
用于从成功案例中智能提取可复用的经验和最佳实践
"""

# 系统提示词：设定苛刻的评审标准
EXTRACT_EXPERIENCE_SYSTEM_PROMPT = (
    "你是一个极其苛刻的数据科学创新评审专家。你的目标是从实战日志中筛选出**超越通用教科书和大模型基础知识**的独特经验。"
    "你必须执行严格的【知识过滤】：如果某项经验属于行业标准做法（如‘用XGBoost处理表格数据’、‘用BERT做NLP’）或大模型已知的常规最佳实践，**请直接忽略，不要提取**。"
    "只有满足以下条件才允许输出："
    "1. **创新性/独特性**：涉及对标准架构的‘魔改’、反直觉的参数调整、或针对极度稀疏/噪声数据的特殊处理组合；"
    "2. **实证支撑**：有明确的代码实现和性能提升证据；"
    "3. **领域限定**：仅限【方案建议】、【特征工程层】、【建模与训练层】三个范畴。"
    "若无让人眼前一亮的独特发现，请果断返回空数组 []。"
)

# 用户提示词模板：细化过滤逻辑和输出格式
EXTRACT_EXPERIENCE_USER_PROMPT = """
请基于本次任务的**实际执行日志和代码**，进行深度复盘。
请检索是否存在**非常规、创新性或反直觉**的高价值经验，并严格剔除大模型已知的通用知识。

### 🚫 必须过滤（不输出）的内容：
- **通用常识**：如“使用交叉验证防止过拟合”、“使用GridSearch调参”、“处理缺失值”。
- **标准流程**：如“使用ResNet提取图像特征”、“使用TF-IDF处理文本”。
- **已知最佳实践**：除非你在标准实践的基础上做了**独特的修改**或发现了**特定条件下的反例**，否则不要输出。

### ✅ 允许提取（输出）的内容标准：
1. **方案建议**：非标准的Pipeline组合，或针对特定边缘Case（Corner Case）的架构调整。
2. **特征工程层**：领域特定的硬核特征构造逻辑，或对常规编码方式的改进（如“在Target Encoding中加入基于时间衰减的加权”）。
3. **建模与训练层**：对Loss函数的自定义修改、特殊的层间连接方式、或在特定数据分布下发现的“反常识”超参设定。

### 输出格式：
请返回一个 JSON 数组（Array），若无符合上述苛刻条件的经验，必须返回 `[]`。

每个元素需包含：
- **task_type**: 必须严格属于 ["方案建议", "特征工程层", "建模与训练层"] 之一。
- **condition**: 【JSON对象】精确描述触发该创新的**极端或特定条件**（如 `{"data_sparsity": ">98%", "noise_type": "label_flip"}`）。
- **recommendation**: 【核心干货】具体的创新做法（需包含自定义函数逻辑、修改后的公式或非标参数）。
- **anti_pattern**: 【反直觉陷阱】通常被认为是正确但在当前特定条件下失效的做法。
- **rationale**: 【实证依据】证明该创新有效的对比数据（如“魔改后的Loss使Recall提升15%”）。
- **tags**: 字符串数组。

📌 示例（仅供参考格式，内容需基于实际）：
```json
[
  {
    "task_type": "建模与训练层",
    "condition": {
      "scenario": "极度不平衡的时序欺诈检测",
      "model": "LSTM + Attention",
      "issue": "常规 CrossEntropy 在正样本极少(<0.1%)时梯度被负样本淹没"
    },
    "recommendation": "摒弃标准CE Loss，实现一种'动态加权Focal Loss'，根据每个Batch内的实时正负比例动态调整gamma参数：gamma = max(2, log(N_neg/N_pos))。",
    "anti_pattern": "使用标准的 Focal Loss (固定 gamma=2) 或单纯的 Class Weight 加权。",
    "rationale": "动态gamma策略在训练后期成功捕捉到了隐蔽的欺诈模式，AUC从0.85提升至0.92。",
    "tags": ["Loss Function", "Imbalanced Data", "Dynamic Hyperparameter"]
  }
]
```
"""

# 系统提示词：案例生成
CASE_GENERATION_SYSTEM_PROMPT = """
你是一个专家级的数据科学案例分析师。你的任务是分析一个自动执行的数据科学任务的完整记录（包括需求、规划、执行步骤、代码和结果），并将其总结为一个高质量的教学案例。

这个案例将被存储到该知识库中，供未来的智能体检索，以便在遇到类似问题时参考。

请输出一个 JSON 对象，包含以下字段：
1. `title` (string): 一个简洁、准确的标题，概括该案例解决的主要问题（例如：“基于XGBoost的房价预测” 或 “处理大规模类别特征的内存优化策略”）。
2. `description` (string): 任务的详细描述，包括目标、数据的关键特征（如果已知）、面临的主要挑战。
3. `solutions` (dict): 一个字典，包含从执行过程中提炼出的关键解决方案或技巧。键应该是方案的简短名称（例如 "特征工程方案", "模型选择策略", "异常处理技巧"），值是具体的实施细节摘要。
4. `tags` (list of strings): 3-5个相关的标签，涵盖任务类型（如 "分类", "回归"）、使用的算法（如 "LightGBM"）、关键技术（如 "时间序列处理"）等。

请确保内容客观、专业，并能切实指导未来的类似任务。
"""

# 用户提示词：案例生成
CASE_GENERATION_USER_PROMPT = """
请根据以下任务执行记录生成案例总结：

[RECORD START]
{record_json}
[RECORD END]
"""
