专栏名称: 络绎科学
专业的科创成果产业化社区,与青年科学家同行。
目录
相关文章推荐
春城晚报  ·  刚刚,知名景区道歉! ·  昨天  
918云南交通台  ·  199元起入手999足金生肖手链,专柜礼盒, ... ·  2 天前  
英国大家谈  ·  英国大家谈商务合作及转载须知 ·  3 天前  
51好读  ›  专栏  ›  络绎科学

中科院重磅发布:材料科学AI大模型GPTFF,从原子尺度模拟一切

络绎科学  · 公众号  ·  · 2024-03-29 11:26

正文


“The total number of minds in the universe is one.”

--Erwin Schrödinger


物质科学的核心问题之一是理解原子间的相互作用。 如果我们能建立一个原子尺度的通用力场,便可创造一个原子尺度的求解器,从而模拟一切物质科学问题。


物理学家们发明的密度泛函理论(Density Functional Theory)通过求解薛定谔方程(Schrödinger equation)造就了一个模拟物质科学的大一统方法。通过密度泛函理论,人们可以精确求解任意化合物体系中原子间相互作用,较为完美的解决了这个问题。但是密度泛函理论需要庞大的算力,无法适用于大体系。

人工智能(AI)为解决这个问题带来了曙光!近日,中国科学院物理所 刘淼 / 孟胜 团队提出一种基于图结构的预训练 transformer 力场(GPTFF),它具备出色的精度和泛化能力,能够精准模拟任意无机化合物,并用于大体系的分子动力学模拟。通过充分利用海量数据和 transformer 算法的注意力机制,GPTFF 能够实现对原子间相互作用的精确预测,原子间能量、受力以及应力的预测精度分别达到 MAE=32meV/ 原子、71 meV/Å 和 0.365 GPa。

世界范围内,目前只有 Materials Project 团队的 m3gnet 和 CHGNET 模型具有同等能力,但是 GPTFF 的精度和泛化能力更优秀。此类模型将变革性的改变材料科学、化学和生物学等领域的计算模拟方式。

该研究以“ GPTFF:A high-accuracy out-of-the-box universal AI force field for arbitrary inorganic materials ”为题发布在 arxiv 平台上:https://arxiv.org/abs/2402.19327




模型架构:基于图神经网络的晶体结构表示与能量预测

为构建强大的预测模型, 刘淼 / 孟胜 团队引入了图神经网络(GNNs)来精准地表示晶体结构。相较于传统力场,GNNs 不仅简化了原子坐标描述符的构建过程,还自然地满足了旋转、平移和置换对称性的要求。每个原子根据其元素特性映射至高维空间,形成独特的嵌入向量。而原子间的几何关系,如键长,则以 GNN 中的边向量形式精确刻画。这些边向量由参与连接的原子节点向量以及它们之间的距离信息向量共同构成。

不仅如此,为了更全面地捕捉原子间的相互作用,他们还将键角这一三体相互作用的关键信息纳入模型。通过拼接形成特定键角的原子节点和边向量,模型能够更深入地学习不同原子节点和边向量间的复杂关系,从而极大提升了预测的准确性。在键角的高维表示中,他们巧妙地运用神经网络,将一维的键角余弦值映射至高维空间。


在模型的预测和推理阶段,GNN 将原子截断半径内的信息转化为原子能量的形式。通过累加所有原子的能量,便可得到整个系统的总能量。这一流程不仅高效,而且能够准确反映晶体结构的物理特性,为后续的模拟和分析提供了坚实的基础。




模型的训练

训练数据集由 Atomly.net 团队提供,包含 2,234,767 个晶体结构经 DFT 优化的轨迹。采用一致计算参数生成高质量数据集,如 GGA-PBE 伪势和 520eV 截断能。数据集包含 3780 万个单点能量、117 亿个原子力向量和 3.4 亿个应力值。


数据集被划分为训练集、验证集和测试集,旨在确保模型的有效性与泛化能力。鉴于数据集的庞大规模,验证集和测试集中各挑选了 10 万个数据点,以加速验证过程。测试集中的晶体结构被严格控制在训练集和验证集之外,以保证模型评估的公正性与准确性。

模型训练环节则选用了 AdamW 优化算法,并结合采样学习方法。此方法在每个训练周期中随机抽取约 100 万个数据点进行模型训练,共计 500 个周期。为突破图神经网络(GNNs)的局限,该研究创新性地将 Transformer 模块融入模型中,显著增加了参数数量,使模型能够更深入地挖掘数据中的潜在信息。

目前,该模型拥有 502,465 个参数,并具备扩展至更大规模的能力,如拥有超过百万参数的模型。鉴于 Transformer 模块在训练过程中对学习率的特殊要求,初始学习率被设定为 2x10 -4 ,并在训练过程中逐步调整至 5x10 -6 ,以确保训练的稳定性和模型性能的最优化。这一策略有效避免了过拟合现象,保证了模型输出的稳健与可靠。



精准预测原子构型能量、力与应力

在测试数据集上,GPTFF 展现出了优越的性能,其能量误差仅为 32 meV/atom,力误差为 71 meV/Å,系统应力误差控制在 0.365 GPa 以内。相较于 M3GNet(MAE=35 meV/atom)和 CHGNet(MAE=33 meV/atom,不包括磁矩),GPTFF 的优越表现得益于其基于庞大数据集构建的 AI 力场,显著提升了模型的泛化能力。

为了进一步验证 GPTFF 的性能,研究团队利用一个包含 16,653 个全新结构的小测试数据集进行了额外测试,这些结构在 Materials Project 和之前的训练数据集中均不存在。测试结果表明,CHGNet 的原子力预测精度下降至 87 meV/Å,而 GPTFF则展现出更高的预测精度,达到了 66 meV/Å。这一结果再次证明了 GPTFF 在预测原子构型性质方面的卓越性能。




用于结构优化

通用力场的核心应用之一在于其能够快速优化任意晶体结构,从而使其成为快速筛选和松弛未知结构的理想选择。在科研中经常通过替换元素来创造新的结构。然而,由于不同原子种类的尺寸差异,这种替换往往会在系统中引入应变,导致新生成的结构并非处于稳定状态。此时便需要进行结构优化过程。GPTFF 模型在这一方面展现出了显著的优势,它能够高效地优化这些结构。

为了验证 GPTFF 的性能,团队采用 DFT 和 GPTFF 两种方法对 39 种结构进行了状态方程的计算。这些结构涵盖了离子化合物和合金等多种类型。结果表明GPTFF不仅能够精确地计算出这些系统的状态方程,还能准确地找到平衡体积( R 2 =0.996)。 这充分证明了GPTFF 模型的高精度和广泛适用性,使其能够应用于各种系统,以预测平衡结构和能量。




用于分子动力学模拟

接下来,团队利用 GPTFF 模型对金属和离子化合物进行了分子动力学模拟,特别关注了钛的相变过程和离子化合物的电导率。在钛的模拟中,他们观察到在特定方向拉伸作用下,钛从密排六方(HCP)结构转变为面心立方(FCC)结构的相变过程,这一过程通过 GPTFF 模型得以准确捕捉。而对于离子化合物 Li3YCl6,他们计算了其 Li 阳离子的离子电导率,这一数据对于理解该材料作为固态电解质在锂离子电池中的应用具有重要意义。

传统的经验嵌入原子势在区分 HCP 和 FCC 结构时存在显著困难,因为它们的能量表现相近且第一壳层配位数相同。尽管已有改进版本尝试解决这一问题,但它们仍无法达到接近密度泛函理论(DFT)的精度水平,从而无法准确预测相变能量。GPTFF 模型则以其高精度和广泛的适用性脱颖而出,有望为金属和离子化合物的性质研究提供更准确、更深入的理解。

GPTFF 模型成功模拟了钛从 HCP 到 FCC 的相变过程,系统包含 1008 个原子,在约 100K 低温下进行 NVT 模拟以避免热扰动。同时,他们还针对 Li 3 YCl 6 系统进行了 300K 至 700K 温度范围内的分子动力学模拟,并计算了离子电导率,考虑到体积膨胀和相变影响,采用 NPT 集成方法和 optB88 校正的 DFT 获得约 2000 个快照数据以微调 GPTFF。

通过微调预训练模型并添加少量数据,其在 Li 3






请到「今天看啥」查看全文