聚合物的正向筛选和逆向设计对于加速聚合物从实验室研究到市场应用的进程至关重要。但由于大规模聚合物数据集的稀缺,通过材料信息学发现满足需求的聚合物特别具有挑战性。尽管如此,聚合物材料领域的科学家们结合各种创新性方法,使用小型聚合物数据集开发了多种描述聚合物结构-性能关系的机器学习模型,从而推进了聚合物的正向筛选过程。其中包括长春应用化学研究所孙昭艳研究员课题组建立的一系列聚合物构效关系模型(Polymer, 2022, 256, 125216; J. Mater. Chem. C, 2023, 11(8), 2930-294; Chem. Sci. 2024, 15, 534; Macromolecules, 2024, 57, 3515; Compos. Commun. 2024, 51, 102072; CJPS, 2024, 42, 1-10等)。但这种正向筛选方法的成功最终取决于候选数据库的多样性,而通过人类的想象详尽地列举所有可能的聚合物结构是不切实际的。因此,实现聚合物的按需逆向设计至关重要。
在最近的几年间,包括佐治亚理工学院的Rampi Ramprasad团队在内的科学家围绕聚合物玻璃化转变温度和带隙开发了一系列聚合物生成模型(Chem. Mater. 2020, 32, 24, 10489–10500; Chem. Mater. 2021, 33, 17, 7008–7016; ACS Polym. Au 2023, 3, 4, 318–330; J. Chem. Inf. Model. 2023, 63, 24, 7669–7675),可在部分下游任务中获得应用。然而,这些模型主要基于无监督预训练范式,所采用的聚合物数据集缺乏性质标签,模型不易充分学习到聚合物的结构-性质关系。因此,基于上述模型生成的聚合物化学有效性较低(详见表1),难以实现大范围的推广与应用。为了解决聚合物生成模型化学有效性低的问题,孙昭艳研究员团队根据聚合物知识归纳了一个包含近 100 万条聚合物结构-性质对的数据库,帮助模型更充分地学习聚合物的构效关系。利用这个数据集,他们采用监督式预训练范式,提出了一个用于聚合物按需逆向生成的预训练模型(PolyTAO)。该模型在 top-1 生成模式下具有 99.27% 化学有效性(共生成近20万个聚合物),这在所有已报道的聚合物生成模型中具有最高的成功率,同时他们所采用的也是迄今为止报道的最大测试集。更为重要的是,所生成的聚合物的15类性质与其预期值之间的平均R2为0.96(图1和图2),这表明模型已经充分学习到聚合物的内在结构-性质关系,凸显了PolyTAO强大的按需生成能力。图2. 模型几乎适用所有聚合物中常见的化学元素(并可根据后续任务补充缺失指定化学元素相关的数据)为了进一步评估该预训练模型在其他聚合物性质上的表现,孙昭艳团队使用半模板和无模板生成范式在三个公开可用的小型聚合物数据集上进行了微调实验。结果表明,无论是在半模板生成还是更具挑战性的无模板生成场景中(图3和图4),PolyTAO及其微调版本都能够实现具有目标性质聚合物的按需逆向设计。值得一提的是,之前报道的聚合物生成模型均需预先指定满足性能需求的聚合物作为模板,并在模板分子基础上进行生成。而孙昭艳研究员团队发展的PolyTAO对生成范式进行了变革性的探索,实现了从全模板生成到半模板生成再到无模板生成的新突破。图3. PolyTAO利用半模板方式生成具备指定原子化能的聚合物图4. PolyTAO通过无模板方式生成具备指定带隙的聚合物作为聚合物材料按需设计的引擎,PolyTAO生成模型为科学研究者和工程技术人员提供了十分便捷的工具。其可在实验设计、模拟计算或者高通量机器学习筛选之前,根据需求直接给出一批有望满足目标性能需求的候选聚合物结构,使研究者可以直接基于这些候选结构进行实验、模拟和数据分析,从而加速聚合物材料的开发进程。孙昭艳研究员团队热情欢迎各位老师和同学进一步使用和测试PolyTAO,并提出宝贵意见。如果您有以下需求,欢迎您随时与孙昭艳研究员团队取得联系。1.需要设计满足目标性能(力学性能、热学性能、光学性能、电学性能等)的聚合物结构,可利用PolyTAO进行指定性能的聚合物结构生成;2.在目标性质上已经积累了小批量数据,需要构建指定材料的结构-性能关系,可基于该数据集对PolyTAO进行微调;3.有其他与聚合物材料设计和优化相关的需求,可对PolyTAO进行功能拓展。以上研究发表在npj Computational Materials上。长春应用化学研究所博士生仇浩科为论文第一作者,孙昭艳研究员为论文通讯作者。论文链接:
https://www.nature.com/articles/s41524-024-01466-5声明:仅代表作者个人观点,作者水平有限,如有不科学之处,请在下方留言指正!