# 附录用斜体
# 少用加粗
# 小公式行内显示
# R2表格改为行

> 请你帮我修缮文本，使用更加科学和精炼的表述，同时我的数学符号表达式有些欠缺，你需要帮我完善

## Knowledge-Driven

为了在广阔的化学反应参数空间中高效地精确聚焦于高潜力（high-potential）的热点区域，一个由大型语言模型（LLM）驱动的子空间蒙特卡洛树搜索（Subspace Monte Carlo Tree Search）模块通过两个步骤构建。

第一个步骤中，定义一个包含 $n$ 类化学物质的变量组 $\mathcal{X} = \{C_i\}_{i=1}^n$，其中每个 $C_i = \{x_{i,1}, \dots, x_{i,k_i}\}$ 代表一类候选化学品。我们采用一个混合信息检索（Hybrid RAG）系统，该系统整合了科学文献、化学数据库及网络搜索的多源信息，以辅助LLM进行决策。LLM首先评估各类变量 $C_i$ 对当前化学反应体系的相对重要性，生成一个排序后的索引序列 $\mathcal{O} = (o_1, \dots, o_n)$。与此同时，对于每个变量类别 $C_i$，LLM会识别出一个关键的物理化学属性 $p_i$。随后，基于从Hybrid RAG检索到的各候选物质的具体属性值$v_{p_i,j}$, LLM对每个类别 $C_i$ 内部的元素进行聚类。此过程最终将每个离散的变量空间 $C_i$ 划分为一个由 $q_i$ 个不相交子集构成的划分 $\Pi_i = \{S_{i,1}, \dots, S_{i,q_i}\}$，其中每个子集 $S_{i,l}$ 包含了具有相似属性的化学物质，$\bigcup_{l=1}^{q_i} S_{i,l} = C_i$ 且对于任意 $l \neq l'$, $S_{i,l} \cap S_{i,l'} = \emptyset$

在第二步中，我们基于第一步生成的信息构建一个分层的蒙特卡洛树（Hierarchical Monte Carlo Tree），用以指导后续的搜索过程。该树的结构与变量的重要性排序 $\mathcal{O} = (o_1, o_2, \dots, o_n)$ 紧密耦合。树的第 $l$ 层由变量 $C_{o_l}$ 的聚类划分 $\Pi_{o_l} = \{S_{o_l, 1}, \dots, S_{o_l, q_{o_l}}\}$ 中的元素作为节点。因此，树中任意一条从根到叶的路径都精确地定义了一个由 $n$ 个聚类子集构成的笛卡尔积，形成一个紧凑的搜索子空间。整个结构将原始搜索空间划分为 $\prod_{i=1}^n q_i$ 个独立的子空间。采用基于上置信界（UCB）的MCTS策略来管理对这些子空间的搜索，其探索参数设为 $\kappa=20$。在初始阶段，树中所有节点的价值均由Data-Driven模块中LLM预测的伪标签进行初始化，以引入先验知识。在与贝叶斯优化（BO）的耦合迭代中，每一轮首先通过MCTS的UCB策略在树中选择一条最优路径，从而确定一个高潜力的搜索子空间。随后，BO仅在该子空间内执行优化。该轮优化的结果将作为回报信号，沿着所选路径反向传播，递归地更新路径上所有节点的UCB统计值（访问次数和平均回报），从而动态地指导后续迭代的搜索方向。

每一个从根节点到叶节点的路径都构成了一个完整的搜索子空间，总计$\prod_{i=1}^n q_i$个子空间，即$\prod_{i=1}^n q_i$个搜索路径，组成了全变量空间

每一个从根节点到叶节点的路径都精确地对应一个由n个聚类构成的搜索子空间。整个蒙特卡洛树便将原始搜索空间划分为了$\prod_{i=1}^n q_i$个互不重叠的紧凑子空间。

# 实验

## 数据集介绍

在模型的预训练阶段，我们使用了Pistachio数据集中的一部分。具体来说，我们使用了给出化学反应物和生成物，预测化学反应条件的问答对部分，大约5万条。进入微调阶段，模型则基于Suzuki、Arylation和Buchwald三个数据集进行优化。为了后续的贝叶斯优化（Bayesian Optimization）研究，必须确保优化空间中产物的一致性，因此我们对Buchwald数据集进行了预处理。首先，我们将该数据集根据产物结构的不同划分为五个组。鉴于这些组别虽源于同一反应体系，但在底物范围和数据分布上表现出明显的两极分化趋势。于是，我们筛选出其中最具代表性的两组，并将其命名为Buchwald$_{\text{sub-1}}$和Buchwald$_{\text{sub-2}}$。最终，本次研究共建立了四个基准数据集，分别为：Suzuki、Arylation、Buchwald$_{\text{sub-1}}$和Buchwald$_{\text{sub-2}}$。这些数据集的详细统计信息与构建方法详见附录。

fine-tune和BO阶段，我们使用了Suzuki, Arylation, Buchwald三个数据集。具体来说，微调时使用了随机选取的1%的数据，将反应变量设计为prompt作为LLM输入，产率作为标签。此外，在Bayes阶段，buchwald被划分为了五个子集，以保证子集涉及的反应产物一致。我们观察到这些子集在数据分布上表现出明显的两极分化趋势，于是，我们筛选出其中最具代表性的两组，并将其命名为Buchwald$_{\text{sub-1}}$和Buchwald$_{\text{sub-2}}$

## 参数设置

好的，遵照您的要求，以下是针对ICLR等专业计算机会议风格，对数据分析和结论进行的完善。



其次，微调后的开源通用模型与科学预训练模型之间的比较揭示了架构基础的重要性。尽管Galactica和MolT5等模型经过了科学语料的预训练，但在下游任务中的表现却不稳定。例如，Galactica-1.3B在Suzuki数据集上取得了最高的$\text{R}^\text{2}$分数（0.28），但在Arylation和Buchwald数据集上的性能急剧下降，$\text{R}^\text{2}$分别为-0.05和-0.15，暴露了其泛化能力的严重不足。与此形成鲜明对比的是，仅经过监督微调（fine-tune）的现代通用模型，特别是GLM4-9B和LLaMa-3.1-8B，展现出更强的稳定性和更高的平均性能。

这一观察结果直接引出了我们选择LLaMa-3.1作为ChemBOMAS基础架构的动机。在仅进行fine-tune的模型中，LLaMa-3.1-8B表现出卓越的潜力。尽管其在Suzuki数据集上的$\text{R}^\text{2}$分数 0.13 略逊于GLM4-9B 0.25 ，差距微小，但其在Arylation数据集上的$\text{R}^\text{2}$分数 0.09 比GLM4-9B 0.01 高出近一个数量级，并在Buchwald数据集上同样取得了正值。这表明LLaMa-3.1的架构为定量化学预测提供了一个更鲁棒、更具泛化能力的基础。

基于LLaMa-3.1的强大潜力，我们通过结合scientific pre-train和fine-tune，开发了ChemBOMAS。实验结果验证了这一策略的优越性。ChemBOMAS在Arylation和Buchwald两个数据集的所有评估指标上均达到了最优性能。特别是在Buchwald数据集上，其$\text{R}^\text{2}$分数高达0.20，MSE和MAE分别为593.76和18.52，全面超越了包括其基础模型LLaMa-3.1在内的所有其他模型。这一显著提升证明，在一个强大的通用模型架构之上，进行领域知识的深度注入和任务对齐，是实现最先进性能的有效途径。

综上所述，本研究的结论如下：
1.  对于专业的定量化学回归任务，特定领域的微调是不可或缺的步骤。
2.  相较于使用现有的科学预训练模型，对最先进的开源通用大模型进行微调，能获得更稳定且泛化能力更强的结果。
3.  我们提出的ChemBOMAS，通过在LLaMa-3.1这一卓越的基座模型上实施“持续预训练+监督微调”策略，在多个化学反应预测基准上确立了新的性能标杆，验证了该技术路线的有效性和先进性。


# Done
BO 表格增加上下箭头

base model : 增加行分割说明：分子预训练+微调
第二好的下划线

diff cluster:
BO -Expert-Embed-CHemBOMAS
最好的用灰色底色，正文


书过来
bo
expert
CHembomas - dd
            kd

所有的MCTS

datascale 加上 0%
说明没有使用mcts

ab消融r2，灰色底色，第二好的下划线
ab bo, 第二好的下划线
图+雷达图

- appendix
data scale  首次全部不为0， 加上灰色底色
Prior Data BO增加 0%-baseline，去掉Initial Value 和 Iteration of Best
改为R2格式




