第一作者:Claudio Zeni, Robert Pinsler, Daniel Zügner, Andrew Fowler, Matthew
Horton, Ryota Tomioka and Tian Xie
通讯作者:Ryota Tomioka & Tian Xie
通讯单位: 微软研究院
DOI:https://doi.org/10.1038/s41586-025-08628-5
设计具有所需性能的功能材料对于推动能源储存、催化和碳捕获等领域的技术进步至关重要。生成模型为材料设计提供了一种新的范式,通过直接生成符合所需性能约束的新颖材料,但当前的方法在提出稳定的晶体结构或仅能满足有限的性能约束方面成功率较低。本文介绍了MatterGen,这是一个能够生成整个周期表中稳定且多样的无机材料的模型,并且可以进一步微调以引导生成符合广泛性能约束的材料。与之前的生成模型相比,MatterGen生成的结构更有可能新颖且稳定,可能性是之前的两倍多,并且更接近局部能量最小值十倍以上。经过微调后,MatterGen成功生成了具有所需化学性质、对称性以及机械、电子和磁性能的稳定新材料。作为概念验证,本文合成了其中一个生成的结构,并测量其性能值在目标值的20%以内。本研究认为,生成材料的质量以及MatterGen功能的广度代表了朝着创建材料设计基础生成模型迈出的重要进展。1.MatterGen是一种扩散模型,专门用于设计周期表中的晶体材料(图1(a))。扩散模型通过一个学习的分数网络来反转固定的腐蚀过程,从而生成样本。图像的腐蚀过程通常添加高斯噪声,但晶体材料具有独特的周期性结构和对称性,这需要定制的扩散过程。本文通过其重复单元定义晶体材料,即其晶胞,包括原子类型A(即化学元素)、坐标X和周期性晶格L。对于每个组成部分,本文定义了一个腐蚀过程,该过程考虑了其特定的几何形状,并具有物理驱动的限制噪声分布。坐标扩散通过包装正态分布尊重周期性边界,并在噪声极限处接近均匀分布。本文通过相应地缩放噪声幅度来调整晶胞大小对笛卡尔空间中分数坐标扩散的影响。本文的晶格扩散采用对称形式,并接近于一个分布,其平均值是来自训练数据的具有平均原子密度的立方晶格。原子类型在分类空间中进行扩散,其中单个原子被腐蚀成掩码状态。为了反转腐蚀过程,本文学习了一个分数网络,该网络为原子类型、坐标和晶格输出等变分数,消除了从数据中学习对称性的需要。2.为了设计具有期望性能约束的材料,本文引入了适配器模块,以便在具有性能标签的附加数据集上微调分数模型(图1(b))。适配器模块是可调节的组件,被注入基础模型的每一层,以根据给定的性能标签改变其输出。微调是有吸引力的,因为即使与无标签的结构数据集相比,有标签的数据集很小,它仍然能很好地工作,由于计算属性的高计算成本,这种情况经常发生。微调后的模型与无分类器指导结合使用,以引导生成过程朝向目标性能约束。本文将这种方法应用于多种类型的约束,产生了一组微调后的模型,这些模型可以生成具有目标化学组成、对称性或标量性能(如磁密度)的材料(图1(c))。这些广泛的条件设定能力与扩散过程相比以往工作的改进相结合,是解决广泛逆向设计问题的关键。1.图2(a)展示了由MatterGen生成的几个随机样本,这些样本展示了无机材料的典型配位环境。为了评估稳定性,本文对1024个生成的结构进行了密度泛函理论(DFT)计算。图2(b)显示,78%的生成结构低于MP凸包的0.1 eV/原子阈值(其中13%低于0.0
eV/原子),而75%的结构低于AlexMP-ICSD联合凸包的0.1 eV/原子阈值(其中3%低于0.0
eV/原子)。此外,95%的生成结构与其DFT弛豫结构的均方根偏差(RMSD)低于0.076 Å(图2(c)),这几乎比氢原子的半径(0.53 Å)小一个数量级。这些结果表明,MatterGen生成的大多数结构是稳定的,并且非常接近DFT局部能量最小值。2.本文进一步研究MatterGen是否能生成大量独特且新颖的材料。本文发现,在生成1000个结构时,独特结构的百分比为100%,而在生成一千万结构后仅下降到52%,同时61%的生成结构是新颖的(图2(d))。这表明MatterGen能够在大规模下生成多样化的结构而不发生显著饱和,并且这些结构中的大多数相对于Alex-MPICSD来说是新颖的。值得注意的是,本文还发现MatterGen重新发现了超过2000种在训练期间未见过的、来自ICSD的实验验证结构,显示出其生成可合成材料的能力。1.MatterGen在每一种系统类型和每一种化学复杂性下生成的S.U.N.结构百分比最高(图3(a-b))。此外,MatterGen在组合凸包上发现了数量最多的独特结构,在(1)“部分探索”的系统中,训练时提供了凸包附近的现有已知结构;以及在(2)“充分探索”的系统中,虽然知道凸包附近的结构但在训练时未提供(图3(c))。虽然替换方法在三元和四元系统的凸包结构生成上提供了相当或更高效的方法,但MatterGen在五元系统上表现更佳(图3(d))。值得注意的是,MatterGen在五元系统上的强劲表现仅通过生成10,240个样本就实现了,相比之下,替换方法需要约70,000个样本,而随机结构搜索(RSS)则需要600,000个样本。这强调了通过提出更好的初始候选者,生成式模型可以实现的巨大效率提升。最后,本文展示了MatterGen在V-Sr-O(一个充分探索的三元系统示例)的组合凸包上发现了三个新颖的结构(总共四个),而替换方法发现了三个(总共五个),RSS只发现了一个(总共两个)(图3(e))。由MatterGen发现的结构如图3(f-i)所示。1.在图4(a-c)中,本文观察到由MatterGen生成的S.U.N.样本的属性值分布向期望目标显著转移,即使这些目标处于数据分布的尾部。对于可用于微调模型的DFT标签数量远小于未标记训练数据大小的属性,这一情况仍然成立。在图4(d-f)中,本文展示了MatterGen为每个任务生成的具有最佳预测属性值的S.U.N.结构,并在补充资料D.8.2中提供了额外分析。2.此外,本文评估了在给定有限的DFT属性计算预算下,MatterGen能够找到多少满足极端属性约束的S.U.N.结构。作为基线,本文计算了标记微调数据集中标满足约束条件材料的数量。本文还与一种筛选方法进行了比较,该方法扫描以前未标记的材料以寻找有前景的候选者。与之前的实验不同,当数据集未完全标记时,使用机器学习属性预测器(与筛选基线相同的)预测的标签来微调MatterGen。MatterGen仅使用180次DFT属性计算,就能找到多达18种磁密度高于0.2Å−3的S.U.N.结构(图4(g))。3.由于数据集是完全标记的,因此没有可用的筛选基线。MatterGen还发现了比筛选方法多得多的高体积模量S.U.N.材料(图4(h))。虽然随着预算的增加,筛选方法找到的结构数量趋于饱和,但MatterGen却能以几乎恒定的速度持续发现S.U.N.结构。在180次DFT属性计算的预算内,本文找到了106种S.U.N.结构(95种不同的成分),这是筛选方法找到数量(40种,28种不同成分)的两倍多。相比之下,在标记微调数据集中只有两种材料的体积模量值如此之高。请注意,MatterGen和筛选方法都为每个化学系统产生了多个结构,这些结构根据我们的定义是独特的,但它们可能是不同化学计量比的合金。1.在图5(a)中,本文观察到MatterGen生成的S.U.N.结构紧密分布在目标值周围,尽管该区域的有标签微调数据极为稀缺。与只关注高磁密度值的模型(单一)相比,同时关注两个性能(联合)的模型将HHI分数的分布更推向期望的目标值,同时保持高的磁密度值。由于HHI分数较低,通常在磁铁中找到的、但供应链有问题的元素,例如钴(Co)和钆(Gd),几乎完全从联合微调模型生成的结构中消失了(图5(b))。本文在图5(c)中展示了其中一些结构,本文发现MatterGen重新发现了67种之前从ICSD合成的无序结构,这些结构在训练期间未被看到,其中许多与已知的永磁体材料相似。1.作为概念验证,本文实验性地合成了一种由MatterGen设计的材料,并展示了实验测量的属性与我们的设计目标相近。使用在体积模量上微调的模型为四个目标体积模量值(50、100、150和200 GPa)每个值生成了8192个候选者。本文根据以下条件进行了多轮筛选:(1)独特性和新颖性;(2)来自MatterSim
[45]和DFT的凸包稳定性以上的能量;(3)来自MatterSim的声子稳定性;(4)材料是否含有氧(补充资料D.10.3)。2.筛选将候选者数量减少到75个,经过专家检查后,本文从中选择了四个进行实验合成。四个候选者中有一个合成成功。根据Rietveld精修分析,合成的材料是TaCr2O6,这是MatterGen预测的有序结构的成分无序版本(图6(a-c))。这种结构是通过将体积模量值目标设定为200 GPa而生成的;本文使用DFT预测MatterGen生成的有序TaCr2O6结构的体积模量为222 GPa,对于同一无序结构对应的另外两个有序近似结构的体积模量值相似(219
GPa)(图6(c))。本文还通过纳米压痕实验测量了样品的杨氏模量,并使用DFT计算的泊松比0.30来估计其体积模量。经过四次测量后,估计的体积模量最高可达169 GPa(158±11 GPa),其中四次测量中的最大值为我们的最优估计值,因为实验粉末样品可能不紧实。3.通过检查为每个目标值生成的原始8192个样本,本文发现MatterGen重新发现了不在我们训练集中的实验验证的ICSD化合物。根据有序无序结构匹配器,本文确定了101个匹配项,并成功计算了其中95个的DFT体积模量值(图6(d))。DFT计算的值与用于条件生成的目标值吻合良好,平均绝对误差为23 GPa,均方根误差为32 GPa。生成模型在解决逆向设计任务方面很有前景,因为它们可以有效地探索具有所需性能的新颖结构。然而,生成稳定晶体材料的三维结构颇具挑战,原因在于其周期性以及原子类型、坐标和晶格之间的相互作用。MatterGen通过引入一种针对原子类型、坐标和晶格的联合扩散过程,克服了以往方法的局限性。该过程与大幅扩展的训练数据集相结合,显著提高了生成材料的稳定性、独特性和新颖性。MatterGen可以经过微调,以生成满足广泛性能范围内目标约束条件的S.U.N.结构,其性能优于诸如MLFF辅助的RSS和替换等广泛应用的方法,以及ML辅助筛选。本文通过实验合成一个采样结构并重新发现模型未见过的先前合成材料,验证了MatterGen能够生成可合成的结构。
业务介绍
研理云,研之成理旗下专门针对科学计算领域的高性能计算解决方案提供者。我们提供服务器硬件销售与集群系统搭建与维护服务。 ● 配置多样(单台塔式、两台塔式、多台机架式),按需定制,质量可靠,性价比高。
● 目前已经为全国 100 多个课题组提供过服务器软硬件服务(可提供相同高校或临近高校往期案例咨询)。 ● 公司服务器应用工程师具有量子化学、第一性原理、分子动力学等相关学科研究背景。 ● 公司与多位化学、材料领域理论计算方向专家长期合作,一起探索最优服务器软硬件配置和部署。
● 定制化硬件配置:提供售前实例测试,为您提供最合适的硬件配置方案。 ● 一体化软件服务:根据需求,发货前,完成系统、环境、队列、计算软件等所有内容的安装与配置,让您实现开机即用。 ● 完善的售后服务:为每位客户建立专属服务群,遇到问题及时解决。大大降低使用学生使用门槛和缓解老师压力。三年硬件质保 + 三年免费软件技术支持。 ● 已购买客户咨询:我们已有超过100位已购买客户,可以给您提供相同城市或者临近城市已购买客户的联系方式,以提供真实案例咨询。 ● 赠送课程学习机会:可选课程包括量子化学(Gaussian),第一性原理,(Vasp),分子动力学模拟(Lammps、Grommacs),钙钛矿计算模拟(Vasp)等。具体赠送方案以沟通结果为准。
扫码添加客服微信
更多科研作图、软件使用、表征分析、SCI 写作、名师介绍等干货知识请进入后台自主查询。