专栏名称: 智药邦
人工智能在药物研发领域的进展、探索与实践。
目录
相关文章推荐
汇易咨询  ·  印度工厂火灾触发烟酰胺底部回升 ... ·  2 天前  
51好读  ›  专栏  ›  智药邦

北大来鲁华/裴剑锋团队: GNN+模板+聚类→反应条件预测强大新工具

智药邦  · 公众号  ·  · 2025-02-14 08:00

正文

近年来,计算机辅助合成路线规划 (CASP) 已经成为药物合成和天然产物合成领域的有力工具。 而作为化学反应中不可或缺的组成部分,反应条件(包括催化剂,溶剂,试剂等)的准确预测愈发重要,因为相同的反应物在不同条件下可能会产生完全不同的产物。 对反应条件的预测有助于在 CASP 中更好地选择可行的路线。

目前化学反应条件领域还存在很多有待解决的挑战。首先,一个好的预测模型提供的反应条件应满足化学合理性,能考虑不同组分(催化剂、溶剂和试剂)之间的兼容性。其次,由于将反应物转化为产物的可行反应条件通常不是唯一的,好的预测模型应该能推荐尽可能多的可行反应条件,而这在以前的研究中被忽略了。
针对上述问题,北京大学来鲁华/裴剑锋团队开发了一种 全新的反应条件预测方法 Reacon (Figure 1), 该方法结合了图神经网络 (D-MPNN)、反应模板和聚类算法,为反应条件预测提供了更全面的解决方案。

Figure1. Reacon框架的预测流程

该工作于2024年11月27日以 “Reacon: a template- and cluster-based framework for reaction condition prediction” (《Reacon:一种基于模板与聚类的GNN反应条件预测模型》) 为题发表在英国皇家化学会的旗舰期刊Chemical Science上。来鲁华教授和裴剑锋研究员为论文的通讯作者,化学与分子工程学院本科生王梓涵和博士后林康杰为论文共同第一作者。

作者在USPTO反应条件数据集上对于模型进行了训练。测试结果表明Reacon在Top-3预测中以63.48%的概率成功预测出与文献记录一致的反应条件,并以85.65%的概率预测出同类型的反应条件。作者还测试了模型在近期发表的12条在研药物合成路线上的表现,Reacon在Top-3预测中以85%的概率成功预测出了与文献同类型的条件,显示出其在实际应用中的潜力。

反应条件数据收集


作者将反应条件分为催化剂(catalyst)、溶剂(solvent)和试剂(reagent)三部分。从原始USPTO专利数据中剔除了含有出现频次低于5次的催化剂、溶剂或试剂的反应数据。同时,每条反应条件最多包含1个催化剂、2个溶剂和3个试剂

条件预测模型


对于每一个反应条件组分,研究团队使用D-MPNN模型进行编码。模型的输入为反应物的分子图和反应物与产物的差异图,模型的输出为候选条件的使用概率。D-MPNN表现明显优于其它模型(包括基于普遍性的模型和基于 MLP 的 RCR 模型等)。在催化剂、溶剂1、溶剂2、试剂1、试剂2 、试剂3上分别达93.12%、61.93%、86.61%、68.23%、80.44%和96.05%的准确率。

模板-条件库


为了解决模型预测的反应组分可能存在不兼容的问题,作者提出了一种基于模板的策略。考虑到具有相同反应模板的反应往往具有相似的反应机制和反应条件,因此利用训练数据构建了模板-条件库,并提取了三种不同类型的反应模板:r1、r0和r0*。r1和r0是通过RDChiral工具以不同半径提取的模板;r0*则是从r0模板中仅保留原子和键得到的最简形式。最终,研究团队构建了包含26,228个r1模板、9,755个r0模板和7,106个r0*模板的模板-条件库。其中r1模板最为具体,而r0和r0*则有更高的泛化能力。在预测过程中,模型会依照r1,r0,r0*的顺序从模板-条件库中搜索与输入反应模板相同的记录条件,作为候选条件。

条件聚类算法


为提升预测结果的多样性,研究团队设计了一种基于分子特征的聚类算法。该算法通过提取31个常见分子标签(如醇、醚、氧化剂、离子化合物等)对每种反应条件组分进行特征描述,并定义具有相同催化剂标签且共享两个以上相同溶剂和试剂标签的反应为相似反应。从Figure 2中的例子可以看出,添加聚类算法后,预测结果的多样性显著提升。

Figure 2. 使用聚类算法前后的预测结果案例

Figure 3.LNP1892的合成路线及预测的反应条件

结合D-MPNN模型、模板-条件库和聚类算法,作者发展了Reacon方法。 该方法在USPTO测试集上的Top-3预测准确率达到63.48%,同类型条件预测准确率达到85.65%。







请到「今天看啥」查看全文