网状化学是一门通过强键连接分子构建单元以制造晶体扩展结构的科学,这些结构包括金属-有机框架(MOFs)、共价有机框架(COFs)、咪唑类沸石框架(ZIFs)等。每年有数千种网状化合物被合成和研究,但这一领域的设计空间几乎是无限的,目前的研究仅触及表面。传统的试错法依赖于领域特定的知识,缺乏操作的可扩展性,因此需要借助生成型人工智能系统来加速这一领域的发现。LLMs因其在自然语言处理、化学知识整合和工具利用方面的独特能力而受到化学和材料界的关注。
2025年2月1日,Nature Reviews Materials上发表文章Large language models for reticular chemistry。
本文探讨了大型语言模型(LLMs)在网状化学(reticular chemistry)中的应用。
网状化学涉及将分子构建单元通过强键连接成晶体扩展结构,如金属-有机框架(MOFs)和共价有机框架(COFs)。LLMs作为一种生成型人工智能系统,能够帮助科学家从文献中提取知识、设计材料、收集和解释实验数据,从而加速科学发现。文章介绍了LLMs的基本原理、优化方法(如提示工程、知识增强和微调)以及它们在网状化学中的实际应用场景,包括数据挖掘、材料设计和合成自动化。
图1:网状化学三十年来的进展
内容描述:图1展示了网状化学在过去三十年中的发展,包括MOFs、COFs和ZIFs的出版物数量和晶体结构沉积数量。图中还标注了关键里程碑,如第一种MOF、COF和ZIF的合成,以及在设计原则、合成方法、数据库和应用方面的进展。
时间线:从1995年第一种MOF的合成到2024年开放空气中的二氧化碳捕获,图中展示了网状化学领域的重要事件。
数据展示:左侧为MOFs、COFs和ZIFs的出版物数量(以千计),右侧为MOF结构的数量(以千计)。可以看到,自2005年以来,MOFs的出版物数量和结构数量显著增加,表明这一领域的快速发展。
里程碑:图中标注了如MOF-5的永久孔隙性、超大比表面积、大规模计算筛选、编织COFs、数字网状化学等重要进展,这些事件推动了网状化学的发展。
图2:利用大型语言模型的关键概念。展示了LLMs在网状化学中的应用,包括其架构、多模态能力、提示工程、知识增强和微调。
a部分:展示了基于Transformer架构的LLMs,包括编码器、解码器和多层Transformer结构。这种架构可以是自编码(仅编码器)、自回归(仅解码器)或序列到序列(编码器-解码器结合)。
b部分:介绍了多模态LLMs,这些模型能够处理不同类型的数据,如文本、图像、音频和代码。图中展示了如何通过单独的编码器处理不同模态的数据。
c部分:描述了提示工程,通过优化用户提示(输入指令)来获得高质量的响应。图中展示了如何通过提示让LLM总结合成条件、分类段落和生成实验代码。
d部分:展示了外部数据和工具增强,通过访问外部数据库和工具来扩展LLMs的能力。图中展示了如何通过检索增强生成(RAG)和工具调用来增强LLMs的知识和功能。
e部分:介绍了微调,通过在特定数据集上重新训练基础模型来调整其性能以适应特定任务或领域。
图3:从科学文献中数据挖掘的关键步骤。概述了从科学文献中提取知识的步骤,包括定义研究范围、识别相关论文、关联化合物和数据、检查准确性和完整性。步骤1:定义研究范围,确定需要提取的合成条件变量,如金属、连接体、溶剂、反应时间和温度。步骤2:使用LLM选择相关论文,通过检查标题和摘要来识别符合用户定义标准的论文。步骤3:将每篇论文输入模型,提取用户所需的特定参数,并将输出格式指定为表格、JSON字典或分类标签。步骤4:将不同部分的数据(如缩写、一般程序、参考代码)同步,以确保信息的完整性。步骤5:评估LLM的性能,通过与真实数据比较来验证提取数据的准确性和完整性。
图4:从文献中提取的MOF合成参数示例。展示了从文献中提取的MOF合成参数的示例,包括化合物名称、金属、连接体、溶剂、温度和时间以及观察结果。提取的数据以表格形式呈现,每行对应一个MOF的合成条件。列出了不同MOFs的名称,如Al-fum、CAU-10、MOF-808等。详细列出了每种MOF的合成条件,包括金属源、连接体、溶剂、反应温度和时间。描述了合成过程中观察到的现象,如沉淀物的颜色和形态。
图5:使用微调的大型语言模型生成分子构建块结构。展示了通过微调LLMs生成分子构建块结构的过程,包括功能化、插入和杂原子引入等分子编辑技术。展示了几种基础分子的结构,如苯-1,3-二羧酸、吡啶-3,5-二羧酸等。
图6:LLMs在网状框架数据驱动选择过程中的角色。图6展示了LLMs在网状框架数据驱动选择过程中的角色,包括准备结构数据、确定计算方法、使用机器学习模型评估性能等。LLMs帮助准备包括假设和实验的MOF、COF或ZIF结构的结构数据。LLMs帮助确定关键描述符,并使用预测模型评估这些框架结构的性能。通过计算分析工具,如决策树、支持向量机、神经网络等,识别有前途的框架。通过实验验证计算选择的MOFs,确认其预测的性能和应用。
本文详细探讨了LLMs在网状化学中的应用,展示了其在数据挖掘、材料设计和合成自动化方面的潜力。尽管LLMs在网状化学中表现出色,但仍需进一步改进,特别是在数据质量和广度方面。此外,开发高质量的基准数据集对于评估和比较LLMs的性能至关重要。随着LLMs的不断发展,它们有望成为网状化学研究中的重要工具,推动该领域从经验科学向数据驱动科学的转变。
参考资料:
Zheng, Z., Rampal, N., Inizan, T.J. et al. Large language models for reticular chemistry. Nat Rev Mater (2025).
https://doi.org/10.1038/s41578-025-00772-8