
# Paper Submission

### 文章主题和问题

文章主要研究如何增强大模型的逐步推理能力以更可靠和高效地解决复杂问题，例如困难的数学问题。根据最新的研究，在大模型推理过程中花费越多的时间，效果就越好。进而，目前的一个主流方法是在大模型生成每一个推理步骤之前都额外加入计划（plan）--- 如何进行下一步推理的文字指导，例如：将等号两边的y约去并对计算积分。现有工作证明在plan的指导下，大模型生成的推理步骤能更加准确和有效。因此，这个方向的主要研究问题是如何生成可靠的、有效的、准确的plan。


### 现有算法分析

为实现这个目标，最新的算法主要采用两种方式。其一，利用大模型的内在知识，很多算法在推理的过程中提示大模型先生成plan然后以此为指导生成推理步骤。但是由于大模型固有的幻觉问题，其生成的这些plan往往存在错误进而导致无效推理。其二，近期的工作着重于先合成plan数据以专门训练一个plan生成器来提升问题解决时所生成plan的可靠性。但是，由于问题的多样性，plan生成器的训练往往难以收敛且训练后的模型仍无法保证得到的plan的准确性，即难以为具体问题生成合适且有效的plan。


### 文章思路

在指导学生解决问题时，有经验的人类老师会回忆相似问题以采用近似的推理方法。更重要的是，其会为学生准确提供高层和高度概括的plan，例如使用Bayes' theorem来建模问题，而不是问题相关的特定但可能错误的plan，例如具体的计算步骤。我们在math数据集上的实验进一步验证了这些假设。具体而言，其一，当两个问题越相似，他们的答案以及推理的每一步都更相近。其二，从每一个推理步骤提取的高层次plan不但保留了这样的正相关性且在不同问题间存在泛化性---即对不同问题推理可以采取类似的plan。

受此启发，本文我们提出潜在plan蒸馏(LPD)，其从已有问题答案的每一个推理步骤中蒸馏其相应的高度概括的plan并可以为大模型在新问题解决的每一步提供准确和有效的plan，从而强化了大模型的推理能力。LDP从两个方面定义“潜在”：1). plan是高层次、高概括和问题内容无关的,i.e.latent plan，以及2). plan被表征为潜在特征从而存在于连续空间而不是一串离散地存在于语言空间的文本。为实现基于潜在plan的强化推理，LDP包含数据合成和一个plan生成器(vPG)。

具体而言，我们首先从逐步推理答案的每一步提取latent plan并以格式（问题，已有推理步骤，下一步的latent plan）构建新的数据集。除了直接从现有答案蒸馏，从基于MCTS创造的推理过程中提取可以进一步增加数据量和多样性。vPG是一个包含K个可学习的记忆tokens的decoder-only transformer，其以(问题，已有推理步骤和K个tokens)为输入，生成相应的K个输出 来 构建latent space of plans。进行采样来表达continuous plans。我们设计多目标优化函数，包含语义对齐和推理驱动。
-- Waiting to be determined based on the future experiments.



### 实验设计


#### 前期实验 --- 用于验证前文所述的motivation的正确性
前期实验主要基于lighteval/MATH数据集。

1. 用大模型对问题答案进行分步然后summarize latent plans。利用all-MiniLM-L6-v2提取所有问题的、答案、推理步骤和latent plans的encodings。利用各类图形展示他们的聚集性和他们之间的相关性。
    - 基于通义千问Qwen2.5-14B-Instruct 
    - 基于GPT-4o

2. 不提取latent plans，而是提取一般的和问题相关的 explicit plans，并绘制同样的

#### 前中期实验 --- 用于测试各类baseline

1. 使用大模型(GPT-4o)提取latent plans，然后构建数据集(RDLab/math-direct-plan)以finetune大模型来基于(问题，当前步骤)预测下一步所需的latent plan。已完成的finetuning:
    - 实验设备：RTX3090。Llama3-2-1B-Instruct, Llama3-2-3B-Instruct, Qwen2.5-0.5B-Instruct, Qwen2.5-1.5B-Instruct, Qwen2.5-3B-Instruct, Qwen2.5-7B-Instruct。存在问题：Qwen2.5-14B-Instruct使用RTX3090显存不足，使用A100没法连接外网

2. 使用大模型(GPT-4o) 提取explicit plans，然后构建和1中一致的数据集以及finetune方法来优化大模型。


#### 中期实验 --- 用于测试各类模型结构来确定最优的模式
待定


#### 实验主要问题
1. 实验设备：A100 存在问题：A100没法连接外网，环境安装以及模型安装需要时间

