大家好,今天给大家分享一篇近期发表在
Nat. Commun.
上
的研究进展,题
为:
An automatic end-to-end chemical synthesis development platform powered by large language models
。
该工作的通讯作者是来自
浙江大学的莫一鸣副教授。
合成反应设计是药物发现和工艺开发中的核心任务,通常依赖经验丰富的研究者。由于设计空间庞大且需实验验证,合成反应设计面临效率、成本、安全性等复杂挑战,难以完全自动化。机器学习(
ML
)技术,尤其是深度学习和自然语言处理(
NLP
),在加速合成设计中展现了潜力,如快速识别合成路线和优化反应条件。但现有
ML
方法仍局限于单一任务,尚未实现完全自主的端到端设计。
2022
年,
OpenAI
发布的
ChatGPT
及其他先进大型语言模型(
LLM
)具备强大的知识处理能力,已在化学研究中得到广泛应用。尽管如此,现有
LLM
代理在化学合成开发中尚未实现
其全部潜力
。
本文
提出了一个集成的
LLM-based
反应开发框架(
LLM-RDF
),展示了
LLM-based
代理在整个化学合成反应开发过程中的多功能性和性能。
作者
选择
醇
氧化
制
醛的合成方法作为示范,展示了
LLM
代理如何促进端到端的合成开发。
同时作者还研究
了
LLM-RDF
在与化学合成开发相关的三种不同场景中的适用性。
图
1
.
LLM-based
自动化端到端化学合成开发平台
作者在
LLM-RDF
中开发了一组基于
GPT-4
模型构建的
LLM
智能代理来处理完成
开发步骤所需的基本任务,包括文献搜索器、实验设计器、硬件执行器、频谱分析仪、分离指导器和结果解释器。并且利用上面开发的基于
LLM
的代理集创建了一个
Web
应用程序,用户可以使用自然语言集中访问它们。代理收到用户描述化学任务的提示和相关参考文档后,将分析请求并通过上下文学习和检索增强生成
(RAG)
推断出适当的响应或解决方案。
可以使用
外部工具如
Python
解释器、学术数据库搜索和自驱动反应优化算法来增强响
应能力。
(图
1
)
图
2.
LLM-based
文献检索和信息提取
作者展示了
LLM-RDF
在指导铜
/TEMPO
催化醇氧化
制
醛反应的端到端合成开发过程
。直接将请求输入到
Literature Scouter
中,利用向量搜索技术,
文献搜索器
自动筛选了包含
2000
多万篇学术文献的
Semantic Scholar
数据库,确保了化学细节的准确性和适当的参考文献。文献搜索推荐了
Stahl
团队最近开发的
Cu/TEMPO
双催化体系
。
(图
2
)
图
3.
LLM-based
底物范围和条件筛选
随后,作者设计了自动化高通量筛选(
HTS
)
底物范围研究,包括
HTS
实验设计、自动化
HTS
实验、气相色谱
(GC)
分析和结果分析。在
HTS
实验设计中,
实验设计器
将自然语言描述的
HTS
实验任务解析为可在
Web
应用程序上显示的标准化
JavaScript
对象表示法
(JSON)
实验程序和设计空间,
Opentrons
液体处理器
(OT-2)
作为自动化反应筛选平台,
OT-2
液体处理器具有编写良好的
Python API
文档,
硬件执行器
可以在此基础上编写液体处理器运行代码。因此,
硬件执行器
将自然语言描述的
HTS
实验任务转换为
OT-2
执行代码开展实验程序。
HTS
实验结束后,采用
平行
火焰离子化检测器和质谱仪
(GC-FID-MS)
对产物进行表征,结果可以使用
光谱分析器
程序自动化实现。最后,利用结果解释器总结
HTS
结果。(图
3
)
图
4.
HTS
实验
作者进行了两轮
HTS
实验,每轮都包含六种底物
、
四种铜催化剂
、两种碱
。并利用结果解释器代理总结
HTS
结果,并根据基础化学知识解释观察到的反应模式。结果解释器得出结论与化学原理一致
。
(图
4
)
图
5.
反应动力学研究
在
HTS
实验中使用的
DMSO
溶剂相比于文献中使用的
MeCN
溶剂
表现更优
,
实验设计
器
代理建议对不同溶剂进行氧化动力学研究
。实验设计器规划数据收集的采样时间表。随后,硬件执行器根据实验设计器提出的设计生成
OT-2
运行代码。将
1H
NMR
光谱和底物、产物和副产物(过氧化产物)中特征氢原子的近似化学位移提供给图谱分析器,它会自动分析
NMR
数据。将得到的动力学实验结果提供给结果解释器,其将时间过程数据拟合到动力学模型方程,并且计算了相应的反应速率常数,提出的动力学模型与实验数据很好地吻合。
(图
5
)
图
6.
自驱动反应条件优化
开发的
Web
应用程序中使用实验设计器和硬件执行器作为反应优化模块的后端,以便用户可以通过自然语言与反应优化硬件系统交互。该硬件系统是一个能够执行端到端反应和分析的机器人平台,闭环反应优化由贝叶斯优化
(
BO
)
算法驱动。具体而言,自动合成设备进行化学反应,然后通过高效液相色谱
(HPLC)
进行分析,将结果反馈给
BO
,以建议下一轮反应候选物。
(图
6
)
图
7.
反应放大和产品纯化
为了展示
LLM
促进反应放大的能力,
实验设计器
提出了两阶段放大策略:首先放大到
1g
以验证反应的重现性和稳定性,然后放大到
100g
以评估工业生产的可行性。反应条件的选择是基于对高产品产率、短反应时间和低催化剂和试剂成本的偏好。为了实现自动识别最佳洗脱液组成,研究实施了分离指导器来代替化学家在迭代薄层色谱实验期间做出洗脱液组成决策,随后以最优洗脱液组成在自动化制备柱层析系统中成功分离产品。
(图
7
)
图
8.
LLM-RDF
协同工作
平台的应用
最后,作者进一步探索了其在实际化学合成开发任务中的应用,包括:(
1
)亲核芳香取代(
SNAr
)反应的反应动力学研究,(
2
)光氧还原
C-C
交叉偶联反应的反应条件优化,以及(
3
)异质光电化学反应器的放大设计。
(图
8
)
综上,
LM-RDF
展示了一种变革性的化学合成方法,整合了化学家用户、基于
LLM
的代理和自动化实验平台,简化了传统的专家驱动和劳动密集型的反应开发工作流程。尽管
LLM
技术在化学应用中仍处于起步阶段,存在一些局限性:例如基于
LLM
的代理可能会提供不正确的响应、
GPT-4
的代理缺乏
专业
化学知识、长期可重复性差、缺乏透明度以及对数据隐私的保护等,但是随着
LLM
的不断发展,它们作为基础模型的能力预计将随着时间的推移逐渐提高,这项工作为未来
LLM
技术在反应开发和相关领域的更深入
参与提供了一条可行的途径。
作者:
ZXY
审校:
ZHR
D
OI
:
10.1038/s41467-024-54457-x
Link:
https://doi.org/10.1038/s41467-024-54457-x
上一篇