"""
Kaggle 知识库管理工具
用于离线构建、更新和维护 Kaggle 竞赛知识库
"""

import json
import argparse
from pathlib import Path
from typing import List, Dict
import asyncio



class KaggleCorpusBuilder:
    """
    Kaggle 语料库构建工具
    从 Kaggle API 或手动数据构建竞赛知识库
    """

    def __init__(self, output_path: str = "knowledgeBase/case_library.jsonl"):
        self.output_path = Path(output_path)
        self.output_path.parent.mkdir(parents=True, exist_ok=True)

    def add_competition_manual(
        self,
        title: str,
        description: str,
        solutions: Dict[str, str],
        tags: List[str] = None
    ):
        """
        手动添加竞赛信息到语料库
        
        Args:
            title: 竞赛标题
            description: 竞赛描述（任务说明）
            solutions: 获奖解决方案字典 {"排名": "方案描述"}
            tags: 标签列表（如 ["tabular", "classification"]）
        """
        competition = {
            "title": title,
            "description": description,
            "solutions": solutions,
            "tags": tags or []
        }

        # 追加到 JSONL 文件
        with open(self.output_path, "a", encoding="utf-8") as f:
            f.write(json.dumps(competition, ensure_ascii=False) + "\n")
        
        print(f"已添加竞赛: {title}")

    def load_from_kaggle_api(self, competition_name: str):
        """
        从 Kaggle API 加载竞赛信息（需要配置 Kaggle API）
        
        注意：这需要安装 kaggle 包并配置 API credentials
        """
        try:
            from kaggle.api.kaggle_api_extended import KaggleApi
            
            api = KaggleApi()
            api.authenticate()
            
            # 获取竞赛信息
            competition = api.competition_view(competition_name)
            
            # 获取讨论区的解决方案（需要进一步解析）
            # 这里是简化版，实际可能需要爬取 Notebooks 或 Discussion
            description = competition.description
            
            print(f"从 Kaggle 加载竞赛: {competition.title}")
            
            # 注意：Kaggle API 不直接提供 "获奖方案"，需要从 Notebooks 或手动整理
            print("Kaggle API 不直接提供获奖方案，建议手动整理后使用 add_competition_manual")
            
        except ImportError:
            print("请安装 kaggle: pip install kaggle")
        except Exception as e:
            print(f"从 Kaggle API 加载失败: {e}")

    def create_default_corpus(self):
        """创建默认的示例语料库（包含经典竞赛）"""
        competitions = [
            {
                "title": "Titanic - Machine Learning from Disaster",
                "description": "二分类问题：预测泰坦尼克号乘客生存情况。数据特点：表格数据，包含年龄、性别、船舱等级等特征，存在缺失值。",
                "solutions": {
                    "Top Solutions Summary": """
                    1. 特征工程关键技巧：
                       - 从姓名中提取称谓（Mr., Mrs., Miss等）作为新特征
                       - 结合 SibSp 和 Parch 创建家庭人数特征
                       - 对缺失的 Age 用同舱位乘客的中位数填充
                       - 对 Fare 进行分箱处理（binning）
                    
                    2. 模型策略：
                       - 使用 Random Forest 和 XGBoost 的集成
                       - 对类别特征使用 Label Encoding（有序）或 One-Hot（无序）
                       - 交叉验证避免过拟合
                    
                    3. 数据清洗：
                       - 移除异常值（如 Fare=0 的样本）
                       - 统一缺失值标记（空字符串、'?'等转为 NaN）
                    """
                },
                "tags": ["tabular", "binary_classification", "missing_values", "feature_engineering"]
            },
            {
                "title": "House Prices - Advanced Regression Techniques",
                "description": "回归问题：预测房价。数据特点：79个特征（数值+类别），高维度，目标变量右偏。",
                "solutions": {
                    "Top Solutions Summary": """
                    1. 目标变量处理：
                       - 对房价进行 log 变换以处理偏态分布
                       - 预测后再还原（exp）
                    
                    2. 特征工程：
                       - 创建总面积特征（地下室+一楼+二楼）
                       - 房龄特征（建造年份 - 当前年份）
                       - 对高基数类别特征使用 Target Encoding
                       - 多项式特征（PolynomialFeatures）用于数值列
                    
                    3. 数据预处理：
                       - 使用 Box-Cox 变换处理偏态数值特征
                       - 标准化数值特征（StandardScaler）
                       - 基于领域知识移除离群点（如超大面积但低价的异常房屋）
                    
                    4. 模型集成：
                       - Stacking：Ridge, Lasso, ElasticNet, XGBoost 作为基模型
                       - 使用线性回归或 Kernel Ridge 作为 Meta-model
                       - 加权平均多个模型的预测结果
                    """
                },
                "tags": ["tabular", "regression", "high_dimensional", "feature_engineering", "stacking"]
            },
            {
                "title": "Digit Recognizer (MNIST)",
                "description": "图像分类：识别手写数字（0-9）。数据特点：28x28灰度图像，10分类。",
                "solutions": {
                    "Top Solutions Summary": """
                    1. 数据增强（Data Augmentation）：
                       - 随机旋转（rotation_range=10）
                       - 平移（width_shift, height_shift）
                       - 缩放（zoom_range）
                       - 避免过度增强导致失真
                    
                    2. CNN 架构设计：
                       - 典型结构：Conv2D -> BatchNorm -> ReLU -> MaxPool -> Dropout
                       - 使用 3-4 个卷积块逐步增加通道数（32 -> 64 -> 128）
                       - 全连接层前使用 Dropout(0.5) 防止过拟合
                    
                    3. 训练技巧：
                       - 学习率调度（ReduceLROnPlateau 或 Cosine Annealing）
                       - 早停（EarlyStopping）监控验证集准确率
                       - Batch Normalization 加速收敛
                    
                    4. 集成与TTA：
                       - 训练多个不同架构的 CNN 并投票
                       - Test-Time Augmentation：对测试样本进行多次增强并平均预测
                    """
                },
                "tags": ["image", "classification", "cnn", "data_augmentation"]
            },
            {
                "title": "NLP - Sentiment Analysis",
                "description": "文本分类：情感分析（正面/负面）。数据特点：用户评论文本，可能包含噪声、拼写错误。",
                "solutions": {
                    "Top Solutions Summary": """
                    1. 文本预处理：
                       - 去除 HTML 标签、特殊字符
                       - 小写化（lowercasing）
                       - 词干提取（Stemming）或词形还原（Lemmatization）
                       - 去除停用词（但保留否定词如 'not'）
                    
                    2. 特征提取：
                       - TF-IDF：调整 max_features 避免维度爆炸
                       - Word Embeddings：使用预训练的 GloVe 或 Word2Vec
                       - BERT/RoBERTa：微调预训练模型获得更好效果
                    
                    3. 模型选择：
                       - 传统：Logistic Regression + TF-IDF（baseline）
                       - 深度学习：LSTM/GRU + Attention
                       - Transformer：BERT fine-tuning（最佳性能）
                    
                    4. 不平衡数据处理：
                       - 使用 class_weight='balanced' 调整损失函数
                       - SMOTE 对少数类进行过采样（文本需先向量化）
                       - 使用 F1-score 而非准确率作为评估指标
                    """
                },
                "tags": ["nlp", "text", "classification", "bert", "imbalanced"]
            },
            {
                "title": "Time Series Forecasting",
                "description": "时间序列预测：预测未来销量/股价等。数据特点：时间依赖性，可能存在趋势、季节性。",
                "solutions": {
                    "Top Solutions Summary": """
                    1. 时间特征工程：
                       - 提取日期成分：年、月、周几、是否周末、是否节假日
                       - 滞后特征（Lag Features）：前1天、前7天、前30天的值
                       - 滚动统计：过去7天的均值、标准差、最大值
                       - 差分特征（Differencing）去除趋势
                    
                    2. 验证策略：
                       - 禁止使用随机划分（会泄露未来信息）
                       - 使用时间序列交叉验证（TimeSeriesSplit）
                       - 或固定时间点划分训练集/验证集
                    
                    3. 模型选择：
                       - 传统：ARIMA, SARIMA（适合单变量）
                       - 树模型：XGBoost, LightGBM（适合多特征）
                       - 深度学习：LSTM, GRU, Transformer（长序列）
                    
                    4. 处理季节性：
                       - 使用 Fourier 变换提取周期特征
                       - 或在 SARIMA 中显式建模季节性
                       - Prophet 库自动处理趋势+季节性
                    """
                },
                "tags": ["time_series", "forecasting", "lag_features", "seasonality"]
            }
        ]

        # 清空并重新创建文件
        with open(self.output_path, "w", encoding="utf-8") as f:
            for comp in competitions:
                f.write(json.dumps(comp, ensure_ascii=False) + "\n")
        
        print(f"已创建默认语料库（{len(competitions)} 个竞赛）: {self.output_path}")

    def show_stats(self):
        """显示当前语料库的统计信息"""
        if not self.output_path.exists():
            print(f"语料库文件不存在: {self.output_path}")
            return
        
        competitions = []
        with open(self.output_path, "r", encoding="utf-8") as f:
            for line in f:
                competitions.append(json.loads(line))
        
        print(f"语料库路径: {self.output_path}")
        print(f"竞赛总数: {len(competitions)}")
        
        all_tags = set()
        for comp in competitions:
            all_tags.update(comp.get("tags", []))
        
        print(f"标签种类: {len(all_tags)}")
        print(f"所有标签: {', '.join(sorted(all_tags))}")
        
        print("\n竞赛列表:")
        for i, comp in enumerate(competitions, 1):
            print(f"  {i}. {comp['title']} | Tags: {', '.join(comp.get('tags', []))}")


async def test_retrieval():
    """测试知识检索功能"""
    from knowledgeBase.case_retriever import retrieve_kaggle_knowledge
    
    test_tasks = [
        "预测泰坦尼克号乘客生存情况，数据包含年龄、性别、船舱等级等特征",
        "根据房屋的面积、位置、房间数等特征预测房价",
        "识别手写数字图像"
    ]
    
    for task in test_tasks:
        print(f"\n{'='*60}")
        print(f"测试任务: {task}")
        print('='*60)
        
        cases = await retrieve_kaggle_knowledge(task, top_k=2, threshold=0.65)
        print(f"检索结果: {len(cases)} 个相似案例")
        for case in cases:
            print(f"- {case['title']} (相似度: {case['similarity']:.4f})")


def main():
    parser = argparse.ArgumentParser(description="Kaggle 知识库管理工具")
    parser.add_argument(
        "action",
        choices=["init", "stats", "test"],
        help="操作: init-初始化语料库 | stats-查看统计 | test-测试检索"
    )
    parser.add_argument(
        "--corpus",
        default="knowledgeBase/case_library.jsonl",
        help="语料库文件路径"
    )
    
    args = parser.parse_args()
    
    builder = KaggleCorpusBuilder(args.corpus)
    
    if args.action == "init":
        builder.create_default_corpus()
    
    elif args.action == "stats":
        builder.show_stats()
    
    elif args.action == "test":
        asyncio.run(test_retrieval())


if __name__ == "__main__":
    builder = KaggleCorpusBuilder("knowledgeBase/case_library.jsonl")
    builder.show_stats()
