from __future__ import annotations

from pathlib import Path
import re


def _replace_section(text: str, start_heading: str, end_heading: str, fn) -> str:
    start_idx = text.find(start_heading)
    if start_idx < 0:
        raise ValueError(f"Missing heading: {start_heading!r}")
    end_idx = text.find(end_heading, start_idx)
    if end_idx < 0:
        raise ValueError(f"Missing end heading: {end_heading!r} (after {start_heading!r})")
    before = text[:start_idx]
    section = text[start_idx:end_idx]
    after = text[end_idx:]
    return before + fn(section) + after


def main() -> None:
    path = Path('analysis.md')
    text = path.read_text(encoding='utf-8')

    backup = Path('analysis.md.bak')
    if not backup.exists():
        backup.write_text(text, encoding='utf-8')

    # Normalize non-breaking hyphen to standard hyphen for portability.
    text = text.replace('\u2011', '-')
    # Repair accidental control characters from earlier edits.
    text = text.replace('\x07pprox', '\\approx')
    text = text.replace('\t' + 'ext', '\\text')

    # Notation cleanup.
    text = text.replace('\\delta^{true', '\\delta^{\\mathrm{true}')
    text = text.replace('\\kappa_{pool}', '\\kappa_{\\mathrm{pool}}')
    text = text.replace('\\mathrm{stable\\_rank}', '\\mathrm{stable\\,rank}')
    text = text.replace('\\mathrm{eff\\_rank}', '\\mathrm{eff\\,rank}')
    text = re.sub(r'\bcos_t\b', 'c_t', text)
    text = text.replace('`K_eff`', '$K_{\\mathrm{eff}}$')
    text = re.sub(r'\bK_eff\b', lambda _: '$K_{\\mathrm{eff}}$', text)
    text = text.replace('burn-in', 'burn-in')

    # Fix the probe sweep sentence to reference the right config names.
    text = re.sub(
        r'^probe 中我们扫 .*?\.$',
        lambda _: 'probe 中我们扫 $(\\rho_e,\\ \\kappa_{\\mathrm{pool}})$ 来问：**需要多慢的误差通道、多强的分母稳定，OLL 才能像真梯度？**（probe 配置项 `kappa_pool`；任务脚本里对应 `inhib_kappa_pool`）',
        text,
        flags=re.M,
    )

    # Fix the kappa bullet to include both config keys.
    text = re.sub(
        r'^- \$\\kappa_\{\\mathrm\{pool\}\}\$ 为抑制强度.*$',
        lambda _: '- $\\kappa_{\\mathrm{pool}}$ 为抑制强度（probe: `kappa_pool`；任务脚本: `inhib_kappa_pool`）。',
        text,
        flags=re.M,
    )

    # Add a brief implementation note for Local Rule updates.
    marker = '因此 probe 里对齐 $\\hat{\\delta}$ 与 $\\delta^{\\mathrm{true}}$ 是训练方法是否“有根”的必要证据（不是充分条件）。'
    if marker in text and 'TorchLocalRuleRNN.run_one_cycle_and_update_directly' not in text:
        insert = (
            '\n\n实现细节（见 `Compare_RNN/task/common/sequence_core.py` 的 `TorchLocalRuleRNN.run_one_cycle_and_update_directly`）：\n\n'
            '- 每个时间步都做一次 online 更新：同时更新 $W_{hh},\,W_{xh},\,b_h,\,W_{out},\,b_{out}$（不是只更新 recurrent）。\n'
            '- 分母使用 `denom_floor` 做下界；$\\lambda_t$ 用滑动窗估计并裁剪到 `lam_cap`（另有 safe-cap 防止 $1-\\lambda u$ 过小）。\n'
            '- 若启用 $\\kappa_{\\mathrm{pool}}$，先在低秩基 $V$ 上 pooled EMA，再广播回去做 divisive stabilization。\n'
        )
        text = text.replace(marker, marker + insert)

    # Insert explanation for g scaling and actual frac values in Stage1 definition.
    def add_g_explain(section: str) -> str:
        out = section
        anchor = '4) 再乘 $g=g_{\\mathrm{crit}}(\\mathrm{seed})$ 得 $W_{hh} = g\\,W_{base}$'
        if anchor in out and '为什么要再乘 $g$' not in out:
            explain = (
            '\n\n为什么要再乘 $g$：$W_{base}$ 负责**方向结构**（iid vs coherent 模态），而标量 $g$ 负责**整体增益/谱半径**（从而改变 LLE）。\n'
            '因此我们把“结构”与“临界性”解耦：先固定 $W_{base}$ 的 family，再对每个 seed 扫 $g$ 找 $g_{\\mathrm{crit}}$ 使 $\\mathrm{LLE}\\approx 0$，最后在该 $g$ 下做对齐/相图扫描。\n\n'
            '本报告中：Stage1 threshold sweep 的 `low_rank_frac=0.95`，Stage3 multi-rank 默认也用 `low_rank_frac=0.95`（除非命令行覆盖）。\n'
            )
            out = out.replace(anchor, anchor + explain)

        # Clarify what "low-rank" means vs normal RNN (initialization family vs parametrization).
        if '这不是把 $W_{hh}$ 约束成低秩参数化' not in out:
            out += (
                '\n\n补充澄清（回答“low-rank 和正常 RNN 到底差在哪”）：\n\n'
                '- 这里的 low-rank **不是**把 $W_{hh}$ 参数化成 $UV^\\top$ 并强行保持低秩；它是一个**随机初始化 family**（结构先验）。只要 $\\mathrm{frac}<1$，混合项里仍含 iid 噪声，因此 $W_{hh}$ 依然几乎必然是 full-rank。\n'
                '- Stage1/Stage3 里“对齐突然变好”，来源于我们**显式改变了 backward dynamics 的结构条件**：注入少数 coherent 模态后，回溯算子/有效 resolvent 更可能被少数模态主导，从而让标量分母近似更接近成立。它是一个受控正例（existence proof），不是训练 trick。\n'
                '- 训练更新方式：Stage1/Stage3 属于 probe，不涉及任务训练；在任务代码里我们也只把这件事作为“初始化先验”暴露出来（见 `Compare_RNN/task/common/sequence_core.py` 的 `w_hh_mode`），优化器/更新规则不变。训练后 $W_{hh}$ 一般会逐步变成 full-rank。\n'
                '- 若要“训练过程中始终保持低秩结构”，需要把 $W_{hh}$ 改成受限参数化（例如 $W_{hh}=UV^\\top$ 或 $D+UV^\\top$）并对 $U,V$ 更新；当前任务侧未启用这种约束（避免额外改动/不确定性）。\n'
            )
        return out

    text = _replace_section(text, '### 7.2', '### 7.3', add_g_explain)

    # Clarify that 13/21 is a count (not kappa), and report max needed kappa among min-pairs.
    def add_13_21_note(section: str) -> str:
        if '13/21' not in section or '注：这里的' in section:
            return section
        insert_after = '- 当 $\\rho_y=0.9$：13/21'
        if insert_after not in section:
            return section
        note = (
            '\n\n注：这里的“13/21”表示 **21 个 seed 里有 13 个 seed 存在至少一个可行点**，不是 $\\kappa_{\\mathrm{pool}}$ 的取值。\n'
            '并且在这些 seed 的 `min_pair` 上，绝大多数情况最小门槛都是 $\\kappa_{\\mathrm{pool}}=0$；在本次 sweep 里仅 $\\rho_y=0.995$ 时有 seed 需要到 $\\kappa_{\\mathrm{pool}}=0.004$ 才出现可行点。\n'
        )
        return section.replace(insert_after, insert_after + note)

    text = _replace_section(text, '### 7.4', '\n---\n\n## 8.', add_13_21_note)

    # Add a short “how to read Stage2 plots” paragraph after the three figures.
    stage2_anchor = '![Stage2（probe）：单 seed 的 K=512 相图]'
    if stage2_anchor in text and '怎么读这三张图' not in text:
        text = re.sub(
            r'(\!\[Stage2（probe）：单 seed 的 K=512 相图\]\([^\n]+\)\n)',
            r"\1\n怎么读这三张图（只说图上信息，不做额外推断）：\n\n- `window sweep`：横轴是评估窗口 $K$（只在最后 $K$ 步统计对齐），纵轴两条曲线分别给出达到阈值所需的最小 $\\rho_e$ 与最小 $\\kappa_{\\mathrm{pool}}$（聚合统计）。\n- `TBPTT-K sweep`：把“真梯度”改成 TBPTT(K) 的 $\\delta^{\\mathrm{true},(K)}$，因此随着训练/真值本身截断，门槛会显著降低；它的作用是给任务侧的 $K$ 诊断一个可对照的 probe 参照系。\n- `单 seed 相图`：颜色表示在网格上通过阈值的比例（或通过/失败），图“发白”通常意味着该网格内没有通过点（negative result），不一定是画图 bug。\n\n",
            text,
            count=1,
        )

    # Fix Row-MNIST K≈4 claim: rewrite the conclusion line in 10.2.
    def fix_row_mnist_keff(section: str) -> str:
        # Replace the final conclusion sentence(s) starting with '结论：'
        m = re.search(r'^结论：.*$', section, flags=re.M)
        if not m:
            return section
        new = (
            '结论：TBPTT 随 $K$ 增大能显著提升，但在 **20 seeds 聚合**里 TBPTT-4 仍明显落后 full-BPTT：\n'
            '- $\\mathrm{Acc}_{\\mathrm{BPTT}}=0.9224\,[0.9176,\,0.9268]$\n'
            '- $\\mathrm{Acc}_{\\mathrm{TBPTT}\\text{-}4}=0.8867\,[0.8841,\,0.8896]$\n\n'
            '如果按 `aggregate_tbptt_needk_results.json` 的定义（$\\epsilon=0.01$，即达到 $\\mathrm{Acc}_{\\mathrm{BPTT}}-0.01$），只有 1/20 个 seed 在 $K=4$ 达到阈值；其余 19/20 在我们扫的 $K\in\{1,2,4,8,16\}$ 内都没达到，因此只能给出下界：$K_{\\mathrm{eff}}\in(16,\,28]$。\n'
            '所以更准确的说法是：Row-MNIST 不是“极短 horizon”，而是存在非平凡的中程 credit assignment；后续用对齐曲线解释为什么 OLL 仍能优化。'
        )
        return section[: m.start()] + new + section[m.end() :]

    text = _replace_section(text, '### 10.2', '### 10.3', fix_row_mnist_keff)

    # Fix compute-matched interpretation in 10.4 (time-matched vs update-matched).
    def fix_compute_matched(section: str) -> str:
        line_pat = re.compile(r'^意义：.*$', flags=re.M)
        m = line_pat.search(section)
        if not m:
            return section
        new = (
            '意义（把两张图读法说清楚）：\n\n'
            '- time-matched（按墙钟时间）：在约 58.5s 的预算点，$\\mathrm{Acc}_{\\mathrm{BPTT}}\\approx0.921$，$\\mathrm{Acc}_{\\mathrm{TBPTT}\\text{-}4}\\approx0.871$，$\\mathrm{Acc}_{\\mathrm{Local}}\\approx0.811$。\n'
            '- update-matched（按 batch 更新数）：在约 4690 次更新预算点，$\\mathrm{Acc}_{\\mathrm{BPTT}}\\approx0.922$，$\\mathrm{Acc}_{\\mathrm{TBPTT}\\text{-}4}\\approx0.887$，$\\mathrm{Acc}_{\\mathrm{Local}}\\approx0.890$（与 TBPTT-4 非常接近，CI 重叠）。\n\n'
            '因此：这组实验里 BPTT 仍然最好；TBPTT-4 在 time-matched 明显强于 Local Rule；Local Rule 在 update-matched 维度上与 TBPTT-4 基本打平。\n'
            '证据与 CI 见 `plots/row_sequential_mnist/compute_matched_seed120_139_batch128_scan0/compute_matched_time_results.json` 的 `matched_at_time_max` / `matched_at_update_max`。'
        )
        return section[: m.start()] + new + section[m.end() :]

    text = _replace_section(text, '### 10.4', '### 10.5', fix_compute_matched)

    # Explain effective low-rank / dominant modes more explicitly in 10.5.
    def add_effective_rank_explain(section: str) -> str:
        if 'participation ratio' in section:
            return section
        anchor = '![Row-MNIST：effective rank 随 K 的变化]'
        idx = section.find(anchor)
        if idx < 0:
            return section
        # Insert right after the figure line.
        # Find the end of that markdown image line.
        m = re.search(r'\!\[Row-MNIST：effective rank 随 K 的变化\]\([^\n]+\)\n', section)
        if not m:
            return section
        explain = (
            '\n这里的“dominant 模态 / effective low-rank”指的是：把序列里收集到的向量（例如 $h_t$ 或 $\\delta^{\\mathrm{true}}_t$）做协方差分解，\n'
            '若大部分能量集中在少数特征向量（对应最大特征值）上，则称其在统计意义上“有效低秩”。\n'
            '我们用 participation ratio（又称 effective rank）量化：若协方差特征值为 $\\{\\lambda_i\\}$，则\n'
            '$$\n'
            'r_{\\mathrm{eff}}=\\frac{(\\sum_i \\lambda_i)^2}{\\sum_i \\lambda_i^2}.\n'
            '$$\n'
            '当 $r_{\\mathrm{eff}}$ 很小，意味着向量主要落在少数 dominant 模态里。\n'
        )
        return section[: m.end()] + explain + section[m.end() :]

    text = _replace_section(text, '### 10.5', '\n---\n\n## 11.', add_effective_rank_explain)
    text = re.sub(
        r'(\n这里的“dominant 模态 / effective low-rank”指的是：.*?当 \$r_\{\\mathrm\{eff\}\}\$ 很小，意味着向量主要落在少数 dominant 模态里。\n)(?:\1)+',
        lambda m: m.group(1),
        text,
        flags=re.S,
    )

    # Add a small task-side low-rank initialization pilot for Row-MNIST (does it help?).
    if '### 10.6' not in text:
        insert_point = '\n---\n\n## 11.'
        if insert_point not in text:
            raise ValueError('Could not find insertion point for Section 10.6')
        pilot = (
            '\n\n### 10.6 把 low-rank 当作“任务初始化先验”：Row-MNIST 的小规模试验\n\n'
            '为了回答“能不能直接用 low-rank 训练真实任务、会不会更好”，我们在任务侧加入了 `w_hh_mode`（iid / low-rank / diag-dominant），'
            '并在 Row-MNIST 上做了一个最小量对照（只作为现象记录，不作为论文结论）。\n\n'
            '设置：hidden=64，epochs=5，train/test=5000/1000，gains={0.6,1.0,1.4}（scan-epochs=1），seeds=120..124。\n'
            '证据目录：`plots/row_mnist_lowrank_train_sweep_seed120_124/`（每个 run 都有 `*_summary.json`）。\n\n'
            '读数（test accuracy，均值±std）：\n\n'
            '- iid：Local Rule $0.315\\pm0.065$，BPTT $0.315\\pm0.086$\n'
            '- low-rank（R=4，frac=0.95）：Local Rule $0.227\\pm0.048$，BPTT $0.153\\pm0.032$（明显更差）\n'
            '- low-rank（R=4，frac=0.5，n=2 seeds）：Local Rule $0.362\\pm0.026$，BPTT $0.299\\pm0.025$（对 Local Rule 有利的迹象，但样本太小）\n\n'
            '解释：强 low-rank（frac=0.95）会显著降低网络的有效自由度，使分类任务短程拟合变慢/变差；但适度注入 coherent 模态（例如 frac=0.5）有时能改善 Local Rule（更贴合其近似成立的结构条件）。\n'
            '因此：low-rank 更像“为对齐/近似服务的结构先验”，不是保证提升所有任务性能的通用架构。\n'
        )
        text = text.replace(insert_point, pilot + insert_point)

    # Rewrite Section 11.2 with a clearer explanation of the correlation-decay plots.
    def rewrite_11_2(section: str) -> str:
        heading = '### 11.2 temporal criticality：当前测量路径下更像指数衰减而非幂律'
        if not section.startswith(heading):
            return section
        return (
            heading
            + '\n\n'
            + '这两张图画的是：在 Stage4 的“外部误差信号 + 近临界”设定下，序列向量 $x_t$ 的时间相关如何随 lag $k$ 衰减。\n'
            '我们对两类向量分别计算：\n\n'
            '- $g_t$：外部误差经 readout 投影回隐层的信号（error/feedback channel）\n'
            '- $\\delta^{\\mathrm{true}}_t$：full-BPTT 的真 teaching signal\n\n'
            '相关函数定义为（对 time 与 batch 平均，并按维度归一）：\n'
            '$$\n'
            'C_x(k)\\equiv \\mathbb{E}_t\\,\\frac{\\langle x_t,\\ x_{t+k}\\rangle}{N},\\qquad\n'
            '\\text{图中画 }\\frac{|C_x(k)|}{C_x(0)}.\n'
            '$$\n\n'
            '横轴是 lag $k$（log$_2$ 刻度），纵轴是归一化相关（log 刻度）。直观读法：曲线越“平”，表示相关衰减越慢（更长时间尺度）；曲线越快掉到 0，表示时间相关更短。\n\n'
            '证据文件：\n\n'
            '- `plots/oll_stage4_assumption_low_rank/low_rank_corr_decay.pdf` / `.png`\n'
            '- `plots/oll_stage4_assumption_iid/iid_lowdim_error_corr_decay.pdf` / `.png`\n\n'
            '<object data="plots/oll_stage4_assumption_low_rank/low_rank_corr_decay.pdf" type="application/pdf" width="100%" height="460">\n'
            '  <img src="plots/oll_stage4_assumption_low_rank/low_rank_corr_decay.png" alt="Stage4 low-rank: corr decay"/>\n'
            '</object>\n\n'
            '<object data="plots/oll_stage4_assumption_iid/iid_lowdim_error_corr_decay.pdf" type="application/pdf" width="100%" height="460">\n'
            '  <img src="plots/oll_stage4_assumption_iid/iid_lowdim_error_corr_decay.png" alt="Stage4 iid: corr decay"/>\n'
            '</object>\n\n'
            '我们还在 log-domain 做了两种拟合对照（每个 seed 单独拟合后再取均值）：\n\n'
            '- 指数衰减：$\\log |C(k)| \\approx a + b k$\n'
            '- 幂律衰减：$\\log |C(k)| \\approx a - \\beta \\log k$\n\n'
            '拟合优度（$R^2$，mean over seeds）：\n\n'
            '- low-rank：$g_t$（exp $0.94$ vs power $0.51$），$\\delta^{\\mathrm{true}}$（exp $0.98$ vs power $0.58$）\n'
            '- iid：$g_t$（exp $0.91$ vs power $0.43$），但 $\\delta^{\\mathrm{true}}$ 两种拟合都很差（exp $0.20$ / power $0.16$）\n\n'
            '结论：在当前 `output_mse + AR(1) target + error low-pass` 的测量路径下，相关衰减更像“带特征时间尺度”的指数衰减，而不是尺度自由的幂律。\n'
            '因此我们不主张“临界 $\\Rightarrow$ 幂律时间相关”。若要主张幂律，需要更换测量设定（去掉显式 AR 时间尺度/外部低通），并补充更严格的统计检验。\n\n'
        )

    text = _replace_section(
        text,
        '### 11.2 temporal criticality：当前测量路径下更像指数衰减而非幂律',
        '### 11.3 与论文 Assumption 1/2 的对应',
        rewrite_11_2,
    )

    # Rewrite Section 11.3 to explicitly validate Assumption 1/2 components with diagnostics.
    def rewrite_11_3(section: str) -> str:
        heading = '### 11.3 与论文 Assumption 1/2 的对应'
        if not section.startswith(heading):
            return section
        return (
            heading
            + '\n\n'
            + '对照 `033_criticality_learning_1_19.pdf`，我们把推导里用到的关键假设拆成“能在 fully-connected RNN 上诊断的部分”与“不能直接对应的部分”，并用 Stage4 的新诊断补证据。\n\n'
            '证据（21 seeds，120..140）：\n\n'
            '- low-rank：`plots/oll_stage4_assumption_low_rank/results.json`\n'
            '- iid baseline：`plots/oll_stage4_assumption_iid/results.json`\n\n'
            '**Assumption 1（locality + coherent sources）**\n\n'
            '1) locality（图距离衰减）：fully-connected RNN 没有空间邻域，因此这一条在本架构上没有直接可检验对应物；我们不主张。\n\n'
            '2) coherent / dominant modes：这部分可以用“有效秩/模态压缩”替代表述并直接诊断。\n'
            'Stage4 的读数显示 low-rank 与 iid 在“源项/真梯度的有效低维性”上差异巨大：\n\n'
            '- low-rank：$\\mathrm{eff\\,rank}(g)\\approx 1$，$\\mathrm{eff\\,rank}(\\delta^{\\mathrm{true}})\\approx 1$\n'
            '- iid：$\\mathrm{eff\\,rank}(g)\\approx 5.0$，$\\mathrm{eff\\,rank}(\\delta^{\\mathrm{true}})\\approx 6.6$\n\n'
            '这正是我们把 Stage3 的“显式 low-rank 是充分条件”迁移到真实任务时要抓住的结构点：不是参数矩阵必须低秩，而是训练/信号通道使梯度落在少数 dominant 模态里。\n'
            '（低秩结构化 RNN 的理论分析可参考 Mastrogiuseppe & Ostojic 2018；其核心就是“少数模态支配动力学/计算”。）\n\n'
            '**Assumption 2（temporal smoothness）**\n\n'
            'Assumption 2 包含两类“短时间尺度平滑”假设：\n\n'
            '- 状态近似一阶：$h_{t+1}\\approx \\alpha h_t$\n'
            '- 斜率慢变：$\\phi^{\\prime}(x_{t+1})/\\phi^{\\prime}(x_t)\\approx 1$\n\n'
            '我们做了两条直接可诊断的测量：\n\n'
            '1) 斜率慢变（用 $\\left|\\log|u_{t+1}|-\\log|u_t|\\right|$ 的均值近似）：\n'
            '- low-rank：$5.7\\times 10^{-4}$\n'
            '- iid：$5.1\\times 10^{-2}$\n\n'
            '2) $\\lambda$ 的“标量 loop-gain”拟合是否成立：推导里 $\\lambda$ 来自一个线性回归式（Eq. 30），而实现里用 EWLS/EMA 递推更新（Eq. 31）。\n'
            '我们用相对残差 $\\|B-\\lambda A\\|^2/\\|B\\|^2$ 评估拟合质量：\n'
            '- low-rank：$4.9\\times 10^{-3}$\n'
            '- iid：$6.9\\times 10^{-2}$\n\n'
            '因此“$\\lambda$ 用滑动窗/EMA 更新”不是凭空设定：它等价于对非平稳序列做 exponentially weighted least squares（自适应滤波/递归最小二乘的标准做法），推导与实现是一致的。\n\n'
            '**Rayleigh / 标量化步骤（推导里的关键近似）**\n\n'
            '论文里把 $A^t$ 在 dominant mode 上近似成标量 $\\mu^t$（Rayleigh quotient），本质要求：对某个“源项/主导方向” $q$，有 $A^t q\\approx \\mu q$（残差小）。\n'
            '我们在 fully-connected 全局 setting 下用两种方向做了对应诊断：\n\n'
            '- $q=\\mathrm{mean}_b(u_t\\odot g_t)$（signed source 方向）\n'
            '- $q=\\mathrm{mean}_b(\\delta^{\\mathrm{true}}_t)$（true-delta 方向）\n\n'
            '结果非常区分 PASS/FAIL：\n\n'
            '- low-rank：source 残差 $0.23$、$|\\cos(q,Aq)|\\approx 0.97$；true-delta 残差 $0.09$、$|\\cos|\\approx 0.99$\n'
            '- iid：source 残差 $0.996$、$|\\cos|\\approx 0.076$；true-delta 残差 $0.898$、$|\\cos|\\approx 0.35$\n\n'
            '这提供了一个“推导中最关键一步”的可诊断验证：在 low-rank coherent 条件下，$A^t$ 的作用确实更接近沿主导方向的标量放大；而在 iid full-rank 下这一点明显不成立。\n\n'
            '结论：在 fully-connected RNN 上，我们无法主张 locality；但 coherent modes + temporal smoothness（弱版本）+ 标量 loop-gain/标量化步骤，在 low-rank PASS 与 iid FAIL 的对照里都有可诊断证据支撑。\n'
        )

    text = _replace_section(
        text,
        '### 11.3 与论文 Assumption 1/2 的对应',
        '\n---\n\n## 12.',
        rewrite_11_3,
    )

    # Add rank sweep evidence + explanation after Stage3 rescue conclusion.
    rescue_sentence = '因此“仅对齐 `W` 的 dominant mode”不足以复现 low-rank coherent 的长程稳定 PASS。'
    if rescue_sentence in text and '### 9.3' not in text:
        rank_block = (
            '\n\n### 9.3 额外 rank 扫描（R=1/2/4/8/16）与“full-rank 最差”的原因\n\n'
            '你提出的追问是：既然 low-rank 的 $R$ 越大对齐越好，为什么 full-rank 反而最低？我们补做了三个最小对照（seeds=120..123，$q=8$）：\n\n'
            '1) **low-rank recurrent（增大 $R$）**：$K=512$ 的 best $|c|$（均值）随 $R$ 单调上升并在 $R\ge4$ 饱和：\n'
            '- $R=1$: 0.834\n- $R=2$: 0.930\n- $R=4$: 0.944\n- $R=8$: 0.948\n- $R=16$: 0.949\n\n'
            '2) **iid recurrent + 低维误差（增大误差子空间 rank）**：$K=512$ 的 best $|c|$ 并不提升，反而整体下降：\n'
            '- $R=1$: 0.234\n- $R=2$: 0.181\n- $R=4$: 0.159\n- $R=8$: 0.133\n- $R=16$: 0.151\n\n'
            '3) **full-rank iid + random readout（baseline）**：$K=512$ 的 best $|c|\\approx 0.157$，远低于阈值。\n\n'
            '对应曲线：\n\n'
            '<object data="plots/oll_stage3_multirank_lowrank_rank_sweep/low_rank_gaussian_best_cos_vs_K.pdf" type="application/pdf" width="100%" height="420">\n'
            '  <img src="plots/oll_stage3_multirank_lowrank_rank_sweep/low_rank_gaussian_best_cos_vs_K.png" alt="low-rank rank sweep: best cos vs K"/>\n'
            '</object>\n\n'
            '<object data="plots/oll_stage3_multirank_iid_lowdim_rank_sweep/iid_lowdim_error_gaussian_best_cos_vs_K.pdf" type="application/pdf" width="100%" height="420">\n'
            '  <img src="plots/oll_stage3_multirank_iid_lowdim_rank_sweep/iid_lowdim_error_gaussian_best_cos_vs_K.png" alt="iid low-dim rank sweep: best cos vs K"/>\n'
            '</object>\n\n'
            '<object data="plots/oll_stage3_multirank_fullrank_test/iid_random_gaussian_best_cos_vs_K.pdf" type="application/pdf" width="100%" height="420">\n'
            '  <img src="plots/oll_stage3_multirank_fullrank_test/iid_random_gaussian_best_cos_vs_K.png" alt="full-rank baseline: best cos vs K"/>\n'
            '</object>\n\n'
            '解释（核心差异不是“误差子空间 rank”，而是 backward dynamics 是否被少数 coherent 模态主导）：\n\n'
            '- 在 low-rank recurrent 中，回溯算子/有效 resolvent 更容易由少数模态主导，闭式分母近似更接近“标量化”；增大 $R$ 等价于让更多稳定的主导模态参与，因而长窗对齐更鲁棒。\n'
            '- 在 full-rank iid 临界附近，存在大量竞争模态与强 mixing；resolvent 不是单一模态主导，逐元素标量分母近似难成立。此时把误差子空间维度增大，更多是在把 $g_t$ 分散到更多方向，并不能制造 coherent 主导模态，甚至会进一步稀释对齐（因此 iid_lowdim_error 的 rank sweep 反而更差）。\n'
        )
        text = text.replace(rescue_sentence, rescue_sentence + rank_block)

    # Replace the 'not tested' disclaimer in Section 12 and add quick sanity evidence.
    text = text.replace(
        '这里我只给**不越界**的解释框架（没测就不硬说）：',
        '这里给一个**不越界**的解释框架，并补上我们做的最小量 sanity check（只证明“能跑起来”，不作为论文结论）：',
    )

    if '### 12.4' not in text:
        insert_point = '\n---\n\n## 13.'
        if insert_point not in text:
            raise ValueError('Could not find insertion point for Section 12.4')
        sanity = (
            '\n\n### 12.4 最小量 sanity check（Add/Lorenz/CNN）\n\n'
            '**Adding Task（3 epochs，小数据）**：teacher-forcing 测试 MSE：\n'
            '- Local Rule: 0.120\n- BPTT: 0.272\n- TBPTT-1: 0.200\n\n'
            '证据：`plots/adding_task_quick/quick_summary.json`（以及 `plots/adding_task_quick/quick_curve.png`）。\n\n'
            '**Lorenz Attractor（3 epochs，小数据，teacher-forcing）**：测试 MSE：\n'
            '- Local Rule: 36.19\n- BPTT(TBPTT-50): 259.49\n\n'
            '证据：`plots/lorenz_attractor_quick/quick_summary.json`（以及 `plots/lorenz_attractor_quick/quick_curve.png`）。\n\n'
            '**CNN pipeline（MNIST Pixel Alias，1 epoch，小数据）**：脚本与训练/评估/绘图链路可运行（accuracy 仍很低，主要因为训练太短）。\n'
            '证据：`plots/pixel_mnist/quick_cnn_seed120_summary.json`。\n'
        )
        text = text.replace(insert_point, sanity + insert_point)

    # Add Assumption mapping section before Section 12.
    if '### 11.3' not in text:
        anchor = '\n---\n\n## 12.'
        if anchor not in text:
            raise ValueError('Could not find insertion anchor for Section 11.3')
        assumptions = (
            '\n\n### 11.3 与论文 Assumption 1/2 的对应（我们能支持到什么程度）\n\n'
            '**Assumption 1（locality + coherent modes）**：\n'
            '- “locality/图距离衰减”在 fully-connected RNN 上没有直接对应物（没有空间邻域），因此我们不主张这一部分。\n'
            '- “少数 coherent 模态主导”这一部分是可检验的：Stage3 low-rank family 的 rank sweep 显示长窗对齐随 $R$ 系统性提升；Row-MNIST 的 $\\delta^{\\mathrm{true}}$ effective rank 随 $K$ 增大显著下降，也符合“梯度被少数模态压缩”的现象。\n\n'
            '**Assumption 2（temporal smoothness）**：\n'
            '- 在我们的测量路径（AR(1) target + error low-pass）下，Stage4 的相关函数呈现可解释的衰减，并且 low-rank PASS 与 iid FAIL 的 $\\lambda$ 统计显著不同，支持“短时间尺度内用标量 loop-gain 描述”这一弱版本。\n'
            '- 但我们没有直接验证 $\phi^{\prime}(x_{t+1})/\phi^{\prime}(x_t)\\approx1$、也没有计算 Rayleigh 残差 $r_i^t$ 或 $\sigma_{\min}(I-A^t)$ 等更强诊断，因此不能把完整 Assumption 2 当作已证真。\n\n'
            '结论：目前证据更支持“coherent modes + 近临界稳定”的叙事；locality 需要换成与 fully-connected 架构一致的可检验表述（例如有效模态/有效秩），而 temporal smoothness 只能主张到保守版本。\n'
        )
        text = text.replace(anchor, assumptions + anchor)

    # Fix a garbled arrow if present.
    text = text.replace('临界 ? 幂律时间相关', '临界 $\\Rightarrow$ 幂律时间相关')

    # Update Section 13 bullet list to use math for K_eff.
    text = text.replace('（定义 $K_{\\mathrm{eff}}$）', '（定义 $K_{\\mathrm{eff}}$）')

    path.write_text(text, encoding='utf-8')


if __name__ == '__main__':
    main()
