专栏名称: 环境人Environmentor
热爱我环境,光大我事业!
目录
相关文章推荐
PChouse家居APP  ·  被crush一万遍的绝美中古风,这电影感我真 ... ·  17 小时前  
PChouse家居APP  ·  白墙+原木,法式自热风美到我不敢认! ·  2 天前  
清单  ·  可以不用,但必须要有的人生物品 ·  3 天前  
51好读  ›  专栏  ›  环境人Environmentor

湖南大学周石庆团队ACS ES&T Engg.封面:集成自监督预训练的图神经网络用于HO• AOP中微污染物可处理性的可解释预测

环境人Environmentor  · 公众号  ·  · 2024-10-06 15:56

正文

英文原题: Graph neural network integrating self-supervised pre-training for precise and interpretable prediction of micropollutant treatability by HO based advanced oxidation processes

通讯作者 :周石庆,湖南大学;卜令君,湖南大学

作者 :Jingyi Zhu, Yuanxi Huang, Lingjun Bu*, Yangtao Wu, Shiqing Zhou*




近日, 湖南大学周石庆 教授团队开发了一种结合自监督预训练的图神经网络模型,用于预测羟基自由基与微污染物的反应活性。该模型具有显著的迁移学习能力,在扩散控制极限数据上的表现优于传统机器学习方法,并通过分子图挖掘机制知识。


联合国可持续发展目标提出确保到2030年人人都能享用到安全且负担得起的饮用水。然而,随着微污染物(MPs)的日益增多,传统水处理系统面临严峻挑战。由多种瞬态活性物种参与的高级氧化工艺(AOPs)是去除MPs的有效方法。羟基自由基(HO )是常见的活性物种,其反应动力学对评估MPs的可处理性至关重要。然而,逐一分析数千种自由基的反应并不切实际,因此,开发覆盖所有MPs的反应动力学预测模型成为迫切需求。


尽管定量构效关系(QSAR)模型在预测 k 值方面取得了进展,但其适用性有限,且需要较大的数据集和精确的反应机理。近年来,机器学习(ML)的引入极大改善了QSAR模型的表现,尤其是以分子指纹(MFs)为输入,反映了MPs的分子结构,减少了对机理知识的依赖。然而,对于HO 参与的反应,由于 k 值多接近扩散控制极限,现有的基于MFs的ML模型难以有效预测其 k 值。鉴于化学活性是由分子内在结构决定,因此,在预测HO k 值时,需采用更全面的分子表示方法。


为了解决上述问题, 湖南大学周石庆 教授团队开发了一种结合自监督预训练的图神经网络(GNN)模型。本研究通过引入分子图(MGs)表示分子结构,直接反应分子的拓扑结构;通过在大规模无标签的数据(约1000万个分子)上的自监督预训练,防止GNN模型在小数据的过拟合;利用GNN倒数第二层将 k 值预测外推至机理阐释,对机理路径进行自动分类。本研究结果表明,结合预训练的GNN是优化基于HO 的AOPs的有力工具。


图1. 本研究的工作流程。


图2. GNN模型预训练前后的预测性能。


经过100次训练后,未预训练的GNN模型达到了收敛,训练集、测试集和验证集的R²(RMSE)值为0.687(0.324)、0.685(0.317)和0.623(0.349)(图2a)。然而,受限于数据集的大小,模型表现并不理想。为进一步挖掘隐藏的化学知识,我们使用自监督学习模型对1000万无标签的数据进行预训练,经过预训练的GNN模型在 k HO 值预测更准确,训练集、测试集和验证集的R²(RMSE)分别为0.849(0.224)、0.741(0.287)和0.742(0.288)(图2b)。模型性能的提升表明预训练后的GNN模型优势明显,并证明了预训练过程中学习到的信息可以在不同数据集间迁移。


图3. GNN模型与其他基于MF的模型的性能比较。


为进一步说明预训练后GNN模型的优越效果,对比了使用ECFP或MACCS为输入的ML模型。总体而言,模型表现依次为GNN模型>基于MACCS的模型>基于ECFP的模型(图3)。考虑到模型的效果、是否过拟合和泛化能力,认为预训练GNN模型、未预训练GNN模型以及基于SVM算法的MACCS模型可用于 k HO 值的预测。其中,预训练GNN模型(下称GNN模型)在 k HO 值预测任务中表现最佳。随后,将GNN模型与其他先前的预测模型进行了比较,结果显示,GNN模型的预测效果、解释性和泛化能力方面远优于ML模型。


图4. GNN模型在扩散控制区域的表现。


MPs与HO 的反应在接近扩散控制极限时活化能极低, k 值主要取决于反应物通过溶剂的扩散过程,与取代基几乎无关。本研究重点关注扩散控制极限区域(log k 值大于9.5)的 k 值。在扩散控制极限区域的预测结果与全数据集的RMSE相当(图4a)。继续选择ML模型和未预训练GNN模型进行对比,结果表明,预训练GNN模型在扩散控制极限区域表现最为稳健(图4b-c)。log k 与哈米特常数(σ+)的R²值仅为0.1411,而在扩散控制极限区域R²值更低至0.0591(图4d)。这表明分子指纹(如ECFP)无法很好地反映 k 值,而分子图包含超越取代基的更多结构信息。


图5. 不同模型的输入特征比较。


为了探索MGs的更多化学意义,进行了 t -SNE分析。二维 t -SNE可以根据MGs对分子进行清晰的分类(图5a)。未预训练的GNN模型,尽管有一定的分类,但不同颜色的点存在广泛的重叠(图5b)。随后,MACCS和ECFP的结果显示出极为不规则的聚类(图5c-d),这表明MGs中嵌入的化学知识对 k HO 值预测非常有帮助。


GNN模型学习了分子结构与 k 值之间的关系,结构相似的化合物聚集在一起。另一方面,一些结构完全不同的化学物质也聚集在同一区域,且具有相似的 k 值。这表明聚类标准不只是分子结构。尽管这一现象尚不明确,我们推测该聚类标准与 k 值密切相关。因此,进一步降低维度,并通过 t -SNE可视化GNN模型的倒数第二层,以探究预训练GNN模型的预测机制。


图6. GNN倒数第二层的聚类分析。


HO 与MPs的反应 k 值直接由主要反应路径的活化能决定。HO 引发的反应通常通过抽氢(HAA)、自由基加成(RAF)和单电子转移(SET)等路径进行,其中前两者在与MPs的反应中最为常见。我们认为模型捕捉了大量与 k 值相关的知识,例如反应路径。为验证这一假设,可视化了GNN模型的倒数第二层(图6),该层应显示与 k 值最相关的信息。将通过HAA路径的反应用红色标记,通过RAF路径的反应用蓝色标记,结果显示,以HAA为主的化合物集中在右侧,而以RAF为主的化合物则分布在左侧。因此,我们将这些区域定义为“HAA”和“RAF”,并认为通过特定路径反应的化学物质会落入相应区域。为了验证GNN模型能够根据反应路径对化学物质进行聚类,在RAF区域中,随机选择了五种化学物质(蓝星标记),在这些化合物中,HO 主要攻击不饱和键,均通过RAF路径反应。同时,我们在HAA区域中标记了五种结构不同的化学物质,这些化合物与HO 反应时,氢抽取主要发生在甲基上。因此,我们得出结论,GNN模型能够在倒数第二层有效地根据反应路径对化学物质进行聚类。


综上所述,本研究开发了一种新型图神经网络模型,用于预测HO 与MPs反应的 k 值。通过引入分子图作为输入,模型能够捕捉比传统机器学习模型更多的化学知识。此外,为提高GNN算法在小数据集上的稳健性,使用了约1000万化学物质的无标签数据进行预训练。该模型不仅在整体性能上优于以往模型,还成功解决了 k 值接近扩散控制极限时的预测难题,克服了许多QSAR和ML模型的局限性。通过动力学数据,模型还能自动分类反应路径,展示了其在机理解析中的潜力。该模型基于HO 的AOPs提供了新的思路,在新兴环境问题方面具有重要应用前景。


相关论文发表在 ACS ES&T Engineering 上,湖南大学博士研究生朱静怡为文章的第一作者, 周石庆 教授和 卜令君 副教授为通讯作者。



来源: ACS美国化学会 投稿、合作 、转载、进群,请添加小编微信Environmentor2020!环境人Environmentor是环境领 最大的学术公号 ,拥有 20W+活跃读者 。由于微 信修改了推送规则,请大家将环境人Environmentor加为 星标 ,或每次看完后点击页面下端的 “在看” ,这样可以第一时间收到我们每日的推文! 环境人Environmentor现有综合群、 期刊投稿群、基金申请群、留学申请群、各研究领域群等共20余个,欢迎大家加小编微信Environmentor2020,我们会尽快拉您进入对应的群



往期推荐


年度热点文章Top10(2023年)
哈工大任南琪院士团队谢国俊课题组、重庆大学陈一课题组合作ES&T封面:亚硝酸盐依赖型厌氧甲烷氧化细菌的生态位分化机制
见证一个新领域的崛起——密苏里大学肖峰团队/北京师范大学李阳团队一篇承上启下的ES&T
ES&T社论:ES&T对材料类稿件的基本期望以及此类稿件应该如何体现其环境相关性
哈尔滨工业大学马军院士团队孙志强副教授ES&T、WR等:非自由基高级氧化净水技术系列研究成果
同济大学关小红团队ES&T封面:电化学氧化生成的Fe(IV)/Fe(V)可在近中性条件下选择性去除水中的有机污染物
同济大学关小红团队ES&T:一种可以轻松区分SO4•-与HO•并实时量化高级氧化技术中的SO4•-的新方法
哈工大任南琪院士团队贺诗欣课题组Nature Water:集太阳能脱盐、发电和作物灌溉功能于一体的综合系统
哈工大(深圳)任南琪院士团队路璐、深圳先进院高翔Nat. Sustain. :工业废水中多污染物协同原位生物转化合成高值化学品
中科院生态环境研究中心曲久辉院士团队Science Advances:揭示脱水合在离子选择性膜分离中的作用机制
可持续视野SH|哈尔滨工业大学任南琪院士团队:海绵城市建设方案的评估与优化
学术招聘
美国范德堡大学环境工程研究生项目招生 (博士硕士)
加州大学河滨分校化学与环境工程系门玉洁课题组招收博士生(或博士后)






请到「今天看啥」查看全文