"""
verify_path_dependency.py — Path Dependency 消融测试
移植自 verify-path-dependency.ts
验证 CKM 假设是否真正依赖增量知识进化，而非裸机 Batch 可复现
"""
import sys
import re
from datetime import datetime
from dateutil.relativedelta import relativedelta
from pathlib import Path
from openai import OpenAI
from config import config
from tools.arxiv_search import search_arxiv_topic
from core.engines import get_embedding, cosine_similarity

llm_client = OpenAI(
    api_key=config["api"]["llm"]["api_key"],
    base_url=config["api"]["llm"]["base_url"]
)

STEP_MONTHS = 8  # match eval_single.py


def main():
    args = sys.argv[1:]
    topic_keyword = " ".join(args) if args else "AI for software engineering"

    print(f"\n{'=' * 80}")
    print(f"🔍 [Ablation 2] 启动核心路经依赖验证引擎 (Path Dependency Test)")
    print(f"   鉴定基准主题: [{topic_keyword}]")
    print(f"{'=' * 80}\n")

    base_dir = Path(__file__).parent.parent.absolute()
    hyp_dir = base_dir / "metabolism" / "hypotheses"

    if not hyp_dir.exists():
        print("❌ 未发现 hypotheses 文件夹，请先运行正常的 CKM 实盘测算全流程以获取原盘的纯净节点。")
        return

    files = sorted(hyp_dir.glob("*.md"))
    if not files:
        print("❌ hypotheses 文件夹为空，当前主题系统未能孕育出原盘科研猜想，无法建立拦截对比。")
        return

    print(f">>> 正在向 ArXiv 重构历史时间轴论文池，确立绝对客观的平行知识边界...")
    all_papers = search_arxiv_topic(topic_keyword, 80)

    total_tested = 0
    path_dependent_count = 0

    for file_path in files:
        print(f"\n{'-' * 57}")
        print(f"🔬 [靶点锁定] 进入靶标假设: [{file_path.name}] 的平行宇宙")
        content = file_path.read_text(encoding="utf-8")

        match = re.search(r"^hyp-(\d{4}-\d{2})", file_path.name)
        if not match:
            continue

        start_date = datetime.strptime(match.group(1) + "-01", "%Y-%m-%d")
        cutoff_date = start_date + relativedelta(months=STEP_MONTHS)
        cutoff_str = cutoff_date.strftime("%Y-%m-%d")

        print(f"   [时空降维打击] 严格拦截截断位于 {cutoff_str} 前客观发表的所有古早期文献...")

        allowed_papers = [p for p in all_papers if p["published"] < cutoff_str]
        print(f"   -> 为平行宇宙的裸机 Batch大模型 强行装载了仅此 {len(allowed_papers)} 篇早期绝密底料。")

        if not allowed_papers:
            print(f"   -> 早期无文献支持此跳变，跳过极端节点测试...")
            continue

        ckm_vector = get_embedding(content)

        print(
            f"   [Ablation 开始剥离] 物理切断基于 Markdown 的动态记忆连续图谱...\n"
            f"   强制大模型在 {cutoff_date.strftime('%Y-%m')} 历史节点，"
            f"单凭这批海量散卷进行 Batch 裸绞前瞻总结..."
        )

        batch_prompt = (
            f"你是当时处于 {cutoff_date.strftime('%Y-%m')} 的全知全能的顶级学术分析AI。\n"
            f"现在你的内存池中堆放着你所在的那个时代唯一的这 {len(allowed_papers)} 篇前沿核心文献摘要库底料：\n\n"
            + "\n\n".join(
                [f"【文献 {i + 1}】 Published Date: {p['published']}\nTitle: {p['title']}\nAbstract: {p['abstract']}"
                 for i, p in enumerate(allowed_papers)]
            )
            + "\n\n====================\n【极限前沿生成任务】\n"
            "请不要考虑你现代在2025年学习过的内容，请严格基于上述那个古老时代的客观文献为跳板基座。"
            "发挥你身为百亿级大模型的全域归纳跳跃能力。\n"
            "一次性预测并输出在这个狭窄领域，未来注定会爆发和落地的 3 个最顶尖颠覆性的潜在科研假想 (Hypotheses)。"
            "不要生成乱码或者Markdown表格，用一句话扼要且直白地分三点列出你的预测即可。"
        )

        response = llm_client.chat.completions.create(
            model=config["api"]["llm"]["model"],
            messages=[{"role": "user", "content": batch_prompt}],
            temperature=0.1
        )

        batch_summary = response.choices[0].message.content or ""
        print(f"   [向量解耦] 裸机 Batch 成功预测了属于它的假想。正在向高维语义空间中打入撞针，捕捉余弦碰磨距...")

        batch_hypotheses_raw = [l.strip() for l in batch_summary.split("\n") if len(l.strip()) > 10]
        min_distance = 1.0

        for line in batch_hypotheses_raw:
            batch_vec = get_embedding(line)
            dist = 1 - cosine_similarity(ckm_vector, batch_vec)
            if dist < min_distance:
                min_distance = dist

        total_tested += 1
        print(f"   🔗 [碰撞距结果] 平行时空的最强雷同逼近空间距离 (Novelty Delta): {min_distance:.4f}")

        if min_distance > 0.18:
            path_dependent_count += 1
            print(
                "   🎯 [司法级铁证 / 结论] : <<Path Dependent 绝对重度依赖涌现>>！\n"
                "      即便掌握同样的资料源头，传统基线 AI 在失去了 CKM 细分演化的梯子后，"
                "在全参数暴力搜索中发散预言也根本无法进入该高维靶点！"
            )
        else:
            print(
                "   ❌ [参数默写 / 结论] : <<Parametric Recall 模型暴力默写碰巧命中>>...\n"
                "      基线大模型在强语料刺激下，直接就碰巧拼凑出了高度吻合（距离<0.18）的雷同假设，"
                "表明此洞察具备平庸的可替代性，缺乏 CKM 绝对不可取代特征。"
            )

    print(f"\n{'=' * 80}")
    print(f"🏆 [Ablation 2 核心消融报告统算结果]")
    print(f"   共有涵盖全盘的 {total_tested} 个 CKM 原生假想接受了极度残酷破坏的物理时序完全切断打击。")
    pct = f"{(path_dependent_count / total_tested) * 100:.1f}" if total_tested > 0 else "0.0"
    print(f"   🥇 最终定案的 \"Path Dependency 绝对隔离独立涌现占有率\" 高达: 【{pct}%】 ({path_dependent_count}/{total_tested})")
    print(f"{'=' * 80}\n")


if __name__ == "__main__":
    main()
