from pydantic import BaseModel
from enum import Enum
from typing import Optional


class TaskTypeDef(BaseModel):
    name: str
    desc: str = ""
    guidance: str = ""
    output: Optional[str] = None
class TaskType(Enum):
    @classmethod
    def get_type_in_self(cls, type_name):
        for member in cls:
            if member.value.name == type_name:
                return member.value
        return None
    
    @classmethod
    def find_type(cls, type_name: str):
        for task_enum_class in [ParentTaskType, ChildTaskType]:
            found_type = task_enum_class.get_type_in_self(type_name)
            if found_type:
                return found_type
        return None 

class ParentTaskType(TaskType):
    """通过标识具体的任务类型，我们可以注入人类的先验（指导），以帮助完成任务"""
    
    DATA_INPUT = TaskTypeDef(
        name="数据输入与加载层",
        desc="负责加载并验证原始数据，为后续分析和建模提供可靠输入。",
        guidance=(
            "1. **数据加载**: 使用 pandas 等高效工具读取数据，支持多种格式(CSV/Excel/SQL/Parquet)。处理编码错误和分隔符问题。\n"
            "2. **初步概览**: 输出数据形状(shape)、列名、数据类型(dtypes)及前5行样本，快速确认加载正确性。\n"
            "3. **完整性检查**: 检查是否存在空文件、列名乱码或明显的数据截断。\n"
            "4. **多源合并**: 若存在多个数据文件，根据键值(Key)进行合并(Merge/Concat)，并验证合并后的记录数。\n"
            "5. **输出产物**: 确保输出为清洗后的 DataFrame，以便后续处理。"
        ),
        output="原始结构化数据（DataFrame）"
    )

    DATA_PREPROCESS = TaskTypeDef(
        name="数据预处理层",
        desc="清洗、修正和统一数据结构，保证数据质量和一致性。",
        guidance=(
            "1. **数据清洗**: 识别并处理缺失值(Missing Values)、重复行(Duplicates)和异常值(Outliers)。\n"
            "2. **数据泄露防范**: **严禁**在整个数据集上进行统计计算(如均值、方差)用于填充或缩放。必须先划分训练/测试集，或使用 Pipeline 确保 `fit` 仅在训练集上执行。\n"
            "3. **特征变换**: \n"
            "   - **数值型**: 标准化(StandardScaler)、归一化(MinMaxScaler)或对数变换(Log Transform)以处理偏态分布。\n"
            "   - **类别型**: 独热编码(OneHot)、标签编码(Label)或目标编码(Target Encoding)。\n"
            "4. **标签保护**: **绝对禁止**对目标变量(Label/Target)进行缩放或标准化，除非是特定的回归任务需求。\n"
            "5. **一致性**: 确保测试集应用了与训练集完全相同的变换逻辑和参数。\n"
            "6. **记录与验证**: 打印预处理前后的统计差异，确保数据分布符合预期。"
        ),
        output="清洗后的数据集（DataFrame）"
    )

    FEATURE_ENGINEERING = TaskTypeDef(
        name="特征工程层",
        desc="通过特征提取、构造与选择提升模型的表达能力。",
        guidance=(
            "1. **特征筛选**: 剔除无方差特征(Constant)、高相关特征(Collinear)及无业务意义的ID列。\n"
            "2. **特征构造**: \n"
            "   - **交互特征**: 多项式组合、加减乘除。\n"
            "   - **时间特征**: 提取年、月、日、星期、季度、是否节假日。\n"
            "   - **文本/序列**: TF-IDF、词向量、窗口统计量(Rolling Statistics)。\n"
            "3. **特征选择**: 使用过滤法(Filter)、包裹法(Wrapper)或嵌入法(Embedded, 如 Lasso/Tree Importance)筛选重要特征。\n"
            "4. **维度控制**: 避免生成过多特征导致维度灾难，保持模型轻量化。\n"
            "5. **可复现性**: 记录所有特征工程的逻辑，确保新数据能生成相同特征。"
        ),
        output="特征矩阵或特征集（DataFrame 或数组）"
    )

    MODELING_TRAINING = TaskTypeDef(
        name="建模与训练层",
        desc="选择合适模型并完成训练、验证与优化。",
        guidance=(
            "1. **模型选择**: \n"
            "   - **资源约束**: 考虑CPU及显卡负载，尽量避免构建过于复杂的模型。优先选择轻量高效的模型。\n"
            "   - 表格数据：首选 LightGBM/XGBoost/CatBoost。\n"
            "   - 图像：优先用 ResNet18/MobileNet 等轻量模型；避免超大参数模型。\n"
            "   - 文本：优先选 DistilBERT/TinyBERT 等蒸馏模型；避免直接微调大参数LLM。\n"
            "   - 图数据：GCN/GAT/GraphSAGE 为主，进阶可用 GIN/Graph Transformer。\n"
            "   - 时间序列：优先 LightGBM/XGBoost + 特征工程；简单深度模型如 LSTM/GRU。\n"
            "   - 简单模型（如 LogisticRegression、MLP）作为基线。\n"
            "2. **训练策略**: 使用交叉验证(K-Fold Cross Validation)评估模型稳健性，避免过拟合。\n"
            "3. **超参数调优**: 使用 GridSearch, RandomSearch 或 Optuna 搜索最优参数组合，注意限制搜索空间大小以减少计算消耗。\n"
            "4. **过程监控**: 打印训练集与验证集的 Loss/Metric 曲线，观察是否欠拟合或过拟合。\n"
            "5. **模型保存**: 训练完成后，保存最佳模型对象(如 .pkl/.joblib)及关键配置。"
        ),
        output="训练好的模型对象及性能指标"
    )

    EVALUATION = TaskTypeDef(
        name="分析评估层",
        desc="对模型或任务结果进行评估与对比分析。",
        guidance=(
            "1. **多维评估**: \n"
            "   - **分类**: Accuracy, Precision, Recall, F1-Score, AUC-ROC, LogLoss。\n"
            "   - **回归**: MSE, RMSE, MAE, R2, MAPE。\n"
            "2. **可视化分析**: 绘制混淆矩阵、ROC/PR 曲线、残差分布图、预测值vs真实值散点图。\n"
            "3. **特征重要性**: 输出模型的 Feature Importance 或 SHAP 值，解释模型决策依据。\n"
            "4. **错误分析**: 检查预测错误的样本(Bad Cases)，分析模型在哪些场景下表现不佳。\n"
            "5. **结果输出**: 打印关键评估指标，生成简洁的评估总结，对比基线模型提升幅度。"
        ),
        output="评估指标及分析报告"
    )

    # SUMMARIZATION = TaskTypeDef(
    #     name="归纳总结层",
    #     desc="整合各阶段结果，形成最终结论与报告。",
    #     guidance=(
    #         "1. 汇总模型评估结果及主要性能指标。\n"
    #         "2. 对比不同方案的效果，明确最优模型与关键因素。\n"
    #         "3. 提炼实验亮点、局限性及后续改进建议。\n"
    #         "4. 输出结构化总结文本，可包含表格、图表或要点说明。"
    #     ),
    #     output="最终结论与总结报告"
    # )

    OTHER = TaskTypeDef(name="其他", desc="不在定义类别中的任何任务")

DATA_LOADING_PROMPT = """
当前任务是数据加载，请注意以下事项：
- **工具选择**: 使用 pandas 等高效工具读取数据(CSV/Excel/SQL/Parquet)。
- **路径检查**: 确认文件路径正确，处理文件不存在或权限错误。
- **基础检查**: 检查列名是否乱码，数据量是否符合预期。
- **类型优化**: 初步转换时间列和数值列，减少内存占用。
- **输出概览**: 打印 shape, dtypes 及 head()，确认加载成功。
"""

EDA_PROMPT = """
当前任务是探索性数据分析(EDA)，请注意以下事项：
- **分布分析**: 区分数值型(直方图/箱线图)和类别型(条形图)字段的分布。
- **关系分析**: 计算相关性矩阵(Heatmap)，分析特征与目标变量的关系。
- **质量检查**: 统计缺失值比例、重复值数量、异常值情况。
- **可视化**: 若有需要可生成清晰的图表，避免过多无意义的绘图。
- **结论**: 简要总结数据特点，为后续预处理提供建议。
"""
DATA_CLEANING_PROMPT = """
当前任务是数据清洗，请注意以下事项：
- **缺失处理**: 根据业务逻辑选择删除、均值/中位数填充或模型预测填充。
- **异常处理**: 识别并处理离群点(如 3-Sigma, IQR)，避免噪声干扰。
- **重复处理**: 删除完全重复的样本。
- **列操作**: 删除全空列、单一值列或无意义的ID列。
- **验证**: 输出清洗前后的数据量变化，确保未误删重要数据。
"""

# 针对"data_preprocess"任务的提示
DATA_PREPROCESS_PROMPT = """
当前任务是数据预处理，请注意以下事项：
- **数据泄露**: 必须先划分 Train/Test，统计量(如均值)仅从 Train 计算，应用到 Test。
- **数值变换**: 标准化(StandardScaler)或归一化(MinMaxScaler)，处理偏态分布(Log)。
- **类别编码**: OneHotEncoder(低基数), TargetEncoder(高基数), LabelEncoder(树模型)。
- **标签保留**: 不要对 Label 列进行缩放或编码(除非是特定回归/多分类需求)。
- **一致性**: 使用 Pipeline 封装处理流程，确保可复现。
"""

# 针对"feature_engineering"任务的提示
FEATURE_ENGINEERING_PROMPT = """
当前任务是特征工程，请注意以下事项：
- **业务特征**: 结合背景知识构造比率、差值、聚合特征。
- **时间特征**: 提取周期性特征(DayOfWeek, Month, Hour)及时间差。
- **文本特征**: TF-IDF, CountVectorizer, 词向量(如适用)。
- **交互特征**: 多项式特征(PolynomialFeatures)挖掘非线性关系。
- **验证**: 检查新特征与目标变量的相关性，避免引入噪声。
"""

FEATURE_SELECTION_PROMPT = """
当前任务是特征选择，请注意以下事项：
- **过滤法**: 移除低方差特征，基于相关性筛选高相关特征。
- **包裹法**: 使用 RFE (递归特征消除) 寻找最优特征子集。
- **嵌入法**: 基于 Lasso (L1正则) 或 树模型重要性(Feature Importance) 筛选。
- **维度控制**: 在保留信息的前提下尽可能减少特征数量，防止过拟合。
- **输出**: 明确列出最终保留的特征列表。
"""

MODELING_AND_TRAINING_PROMPT = """
当前任务是建模与训练，请注意以下事项：
- **资源注意**: 考虑到硬件负载，避免构建过于复杂的深度网络或庞大的集成模型，优先选用高效模型。
- **模型选择**: 根据任务类型与数据规模选择合适模型（如树模型、深度学习、时序模型等）。
- **交叉验证**: 可使用交叉验证或验证集评估模型性能。
- **训练监控**: 记录 Loss 变化，必要时使用早停机制。
- **超参设置**: 初始使用常用默认参数，后续再进行精细调优。
- **结果输出**: 打印训练集和验证集的主要指标(Accuracy/RMSE等)。
"""

MODEL_TUNING_PROMPT = """
当前任务是模型调优，请注意以下事项：
- **搜索策略**: 优先使用 RandomizedSearchCV 或 Optuna，比 GridSearch 更高效。
- **参数范围**: 根据模型特性设置合理的参数搜索空间。
- **评估标准**: 明确优化的目标指标(如 AUC, F1, RMSE)。
- **最佳模型**: 保存并输出验证集表现最好的参数组合。
"""

# 针对"model_train"任务的提示
# MODEL_EVALUATE_PROMPT = """
# 当前任务是模型评估，请注意以下事项：
# - **指标全面**: 分类(Acc, Precision, Recall, F1, AUC), 回归(MSE, MAE, R2)。
# - **可视化**: 绘制 Confusion Matrix, ROC Curve, PR Curve, Residual Plot。
# - **解释性**: 使用 SHAP 或 Permutation Importance 解释模型。
# - **Bad Case**: 分析预测偏差较大的样本，寻找改进空间。
# - **报告**: 生成简洁的评估总结，对比基线模型提升幅度。
# """

# # 针对"model_evaluate"任务的提示
# REPORT_GENERATION_PROMPT = """
# 当前任务是报告生成，请注意以下事项：
# - **结构清晰**: 包含背景、方法(预处理/模型)、结果(指标/图表)、结论。
# - **重点突出**: 强调关键发现、模型优劣及业务价值。
# - **可视化**: 嵌入关键的图表(如特征重要性、ROC曲线)。
# - **建议**: 基于分析结果提出后续优化或业务行动建议。
# """


class ChildTaskType(TaskType):
    """通过标识具体的任务类型，我们可以注入人类的先验（指导），以帮助完成任务"""
    DATA_LOADING = TaskTypeDef(
        name="数据加载",
        desc="负责从文件或数据库中读取原始数据并建立DataFrame。",
        guidance=DATA_LOADING_PROMPT,
    )
    EDA = TaskTypeDef(
        name="探索性数据分析",
        desc="用于分析数据分布、特征统计与潜在规律。",
        guidance=EDA_PROMPT,
    )
    DATA_CLEANING = TaskTypeDef(
        name="数据清洗",
        desc="用于处理缺失值、异常点与重复样本。",
        guidance=DATA_CLEANING_PROMPT,
    )
    DATA_PREPROCESS = TaskTypeDef(
        name="数据预处理",
        desc="负责数据标准化、编码、类型转换等预处理操作。",
        guidance=DATA_PREPROCESS_PROMPT,
    )
    FEATURE_ENGINEERING = TaskTypeDef(
        name="特征工程",
        desc="用于生成新的特征或进行特征组合。",
        guidance=FEATURE_ENGINEERING_PROMPT,
    )
    FEATURE_SELECTION = TaskTypeDef(
        name="特征选择",
        desc="用于筛选最有用的特征，提高模型泛化能力。",
        guidance=FEATURE_SELECTION_PROMPT,
    )
    MODELING_AND_TRAINING = TaskTypeDef(
        name="建模与训练",
        desc="用于模型构建、训练与初步验证。",
        guidance=MODELING_AND_TRAINING_PROMPT,
    )
    MODEL_TUNING = TaskTypeDef(
        name="模型调优",
        desc="用于搜索最佳超参数配置。",
        guidance=MODEL_TUNING_PROMPT,
    )
    # MODEL_EVALUATE = TaskTypeDef(
    #     name="模型评估",
    #     desc="用于评估模型性能与生成评估指标。",
    #     guidance=MODEL_EVALUATE_PROMPT,
    # )
    # REPORT_GENERATION = TaskTypeDef(
    #     name="报告生成",
    #     desc="自动生成分析报告与结论总结。",
    #     guidance=REPORT_GENERATION_PROMPT,
    # )
    OTHER = TaskTypeDef(
        name="其他",
        desc="不属于上述任一类的任务。",
        guidance="",
    )


PARENT_CHILD_TASK_MAPPING = {
    "数据输入与加载层": [
        "数据加载",
        "探索性数据分析"  # 初步探索
    ],
    "数据预处理层": [
        "探索性数据分析",  # 深入探索以发现问题
        "数据清洗",
        "数据预处理"    # 编码、标准化等
    ],
    "特征工程层": [
        "特征工程",
        "特征选择"
    ],
    "建模与训练层": [
        "建模与训练",
        "模型调优"
    ],
    "分析评估层": [
        "模型评估"
    ]
}
# 将 OTHER 任务作为所有父任务的备选项
# PARENT_CHILD_TASK_MAPPING["所有父任务"] = ["其他"]

DATA_INPUT_TASK_TYPES = ["数据输入与加载层","数据加载","探索性数据分析","数据预处理层","探索性数据分析","数据清洗","数据预处理"]
DATA_OUTPUT_TASK_TYPES = ["建模与训练层","建模与训练","模型调优","分析评估层","模型评估"]
# 可拆分父任务类型
PARENT_TASK_TYPES_CAN_BE_DECOMPOSED = ["数据输入与加载层","数据预处理层","特征工程层","建模与训练层"]

def get_all_task_types_in_current_level(task_type: str = None,is_parent: bool = None) -> list:
    """
    获取当前层级可用的所有任务类型名称列表。
    1. 如果 task_type 为父任务类型，返回顶层（父）任务类型。
    2. 如果 task_type 为子任务类型，返回该父任务类型下的子任务类型。
    3. 始终会在返回列表中加入 "其他"。
    """
    # 1. 检查是否为父任务类型（通过名称匹配）
    if is_parent is not None:
        is_parent_type = is_parent
    else:
        is_parent_type = False
        if task_type:
            for member in ParentTaskType:
                if member.value.name == task_type:
                    is_parent_type = True
                    break
    
    types = []
    if is_parent_type:
        # 返回所有父任务类型名称
        types = [t.value.name for t in ParentTaskType if t.value.name != "其他"]
    else:
        # 尝试作为子任务类型查找其所属的父任务类型，并返回该父任务下的所有子任务
        found_parent = None
        for p_name, children in PARENT_CHILD_TASK_MAPPING.items():
            if task_type in children:
                found_parent = p_name
                break
        
        if found_parent:
            types = PARENT_CHILD_TASK_MAPPING.get(found_parent, []).copy()
        else:
             # 如果既不是父类型，也在映射表中找不到（可能是"其他"），则不返回额外类型，只保留默认的"其他"
            pass
            
    # 确保列表中不重复包含 "其他"，并在末尾追加
    if "其他" in types:
        types.remove("其他")
    types.append("其他")
    
    return types
