{
  "feedback_items": [
    {
      "task_type": "特征工程层",
      "condition": {
        "scenario": "特征工程阶段",
        "data": "包含具有大量唯一值的类别特征（如 User_ID, Ad_ID, City 等，基数 > 1000）",
        "model_type": "GBDT 或 神经网络"
      },
      "recommendation": "使用 Target Encoding (目标编码) 配合 K-Fold 平滑，或使用 Count Encoding (频数编码)。对于神经网络，建议使用 Learnable Embedding（可学习嵌入层）。",
      "anti_pattern": "直接使用 One-Hot Encoding（独热编码）。会导致特征维度爆炸，造成矩阵极其稀疏，树模型分裂效率极其低下。",
      "rationale": "Target Encoding 能将类别特征转化为与目标变量相关的数值特征，极大地保留了信息密度；K-Fold 策略是为了防止数据泄露（Leakage）导致过拟合。",
      "tags": ["Feature Engineering", "High Cardinality", "Encoding", "Kaggle Trick"]
    },
    {
      "task_type": "特征工程层",
      "condition": {
        "scenario": "同时包含文本、图像和数值特征的任务（如电商商品推荐）",
        "model": "多模态融合模型",
        "issue": "不同模态特征维度差异大，直接拼接（Concat）效果不佳。"
      },
      "recommendation": "使用 Gated Fusion (门控融合) 或 Cross-Attention (交叉注意力) 机制。先将各模态投影到相同维度的 Embedding 空间，再通过注意力机制让文本特征去'查询'相关的图像特征。",
      "anti_pattern": "简单的 Early Concatenation（早期直接拼接），这通常会导致强模态（如图像）主导模型，弱模态特征被忽略。",
      "rationale": "门控或注意力机制允许模型动态地学习不同模态在当前样本下的重要性权重，实现更深层次的语义对齐。",
      "tags": ["Multimodal", "Feature Fusion", "Cross-Attention", "System Design"]
    },
    {
      "task_type": "建模与训练层",
      "condition": {
        "scenario": "图像分类或目标检测",
        "model": "CNN 基骨干网络 (ResNet, EfficientNet)",
        "goal": "在不显著增加计算量的情况下，提升模型对关键区域的关注度。"
      },
      "recommendation": "在卷积块之间插入即插即用的注意力模块，如 CBAM (Convolutional Block Attention Module) 或 SE (Squeeze-and-Excitation) Block。同时包含通道注意力（关注'是什么'）和空间注意力（关注'在哪里'）。",
      "anti_pattern": "盲目增加网络深度或宽度，而不引入关注机制，导致模型在背景噪声大的图片上表现不佳。",
      "rationale": "SE/CBAM 模块通过学习通道间的权重关系，重新校准特征图，能够自适应地增强有用特征并抑制无关特征。",
      "tags": ["Computer Vision", "Attention Mechanism", "Model Modification", "Feature Refinement"]
    },
    {
      "task_type": "建模与训练层",
      "condition": {
        "scenario": "文本分类或回归任务（如情感分析、语义相似度）",
        "model": "BERT/RoBERTa/DeBERTa 等预训练模型",
        "issue": "直接使用最后一层 [CLS] token 的输出效果遇到瓶颈。"
      },
      "recommendation": "使用 Weighted Layer Pooling（加权层池化）或 Attention Pooling（注意力池化）。即不只取最后一层，而是取 Transformer 最后 4 层 Hidden States 的加权平均（权重可学习），或者在序列输出上加一层自定义的 Attention Head。",
      "anti_pattern": "直接使用 pooler_output（BERT 默认池化输出）或仅使用最后一层的 Mean Pooling，这在复杂任务中往往信息丢失较多。",
      "rationale": "Transformer 的不同层捕获不同维度的特征（底层偏句法，高层偏语义）。融合后几层的信息能获得更丰富的文本表示，提高模型的泛化能力。",
      "tags": ["NLP", "Transformer", "Pooling Strategy", "Model Architecture"]
    },
    {
      "task_type": "建模与训练层",
      "condition": {
        "scenario": "结构化（表格）数据的分类或回归",
        "model": "自定义 MLP (多层感知机)",
        "goal": "构建一个能与 GBDT (XGBoost/LightGBM) 性能抗衡或用于模型融合的深度学习模型。"
      },
      "recommendation": "构建带有残差连接（Residual Connections）的 ResNet 风格 MLP，或使用 FT-Transformer 架构。关键结构：Embedding 层（处理类别特征）-> [Linear -> BN -> ReLU -> Dropout -> Skip Connection] x N。",
      "anti_pattern": "简单的堆叠全连接层（Vanilla MLP），随着深度增加会出现梯度消失，且很难捕获特征间的交互信息。",
      "rationale": "残差连接允许构建更深的网络而不退化，帮助梯度流通；Embedding 层将离散特征映射到连续空间，比 One-Hot 更能表达类别间的距离关系。",
      "tags": ["Tabular Data", "Deep Learning", "ResNet", "Architecture Design"]
    }
  ]
}

