湖南大学周石庆团队ACS ES&T Engg.封面：集成自监督预训练的图神经网络用于HO• AOP中微污染物可处理性的可解释预测

环境人Environmentor · 公众号 · · 2024-10-06 15:56

正文

英文原题： Graph neural network integrating self-supervised pre-training for precise and interpretable prediction of micropollutant treatability by HO ^• based advanced oxidation processes

通讯作者 ：周石庆，湖南大学；卜令君，湖南大学

作者：Jingyi Zhu, Yuanxi Huang, Lingjun Bu*, Yangtao Wu, Shiqing Zhou*

近日， 湖南大学周石庆 教授团队开发了一种结合自监督预训练的图神经网络模型，用于预测羟基自由基与微污染物的反应活性。该模型具有显著的迁移学习能力，在扩散控制极限数据上的表现优于传统机器学习方法，并通过分子图挖掘机制知识。

联合国可持续发展目标提出确保到2030年人人都能享用到安全且负担得起的饮用水。然而，随着微污染物（MPs）的日益增多，传统水处理系统面临严峻挑战。由多种瞬态活性物种参与的高级氧化工艺（AOPs）是去除MPs的有效方法。羟基自由基（HO ^• ）是常见的活性物种，其反应动力学对评估MPs的可处理性至关重要。然而，逐一分析数千种自由基的反应并不切实际，因此，开发覆盖所有MPs的反应动力学预测模型成为迫切需求。

尽管定量构效关系（QSAR）模型在预测 k 值方面取得了进展，但其适用性有限，且需要较大的数据集和精确的反应机理。近年来，机器学习（ML）的引入极大改善了QSAR模型的表现，尤其是以分子指纹（MFs）为输入，反映了MPs的分子结构，减少了对机理知识的依赖。然而，对于HO ^• 参与的反应，由于 k 值多接近扩散控制极限，现有的基于MFs的ML模型难以有效预测其 k 值。鉴于化学活性是由分子内在结构决定，因此，在预测HO ^• 的 k 值时，需采用更全面的分子表示方法。

为了解决上述问题， 湖南大学周石庆 教授团队开发了一种结合自监督预训练的图神经网络（GNN）模型。本研究通过引入分子图（MGs）表示分子结构，直接反应分子的拓扑结构；通过在大规模无标签的数据（约1000万个分子）上的自监督预训练，防止GNN模型在小数据的过拟合；利用GNN倒数第二层将 k 值预测外推至机理阐释，对机理路径进行自动分类。本研究结果表明，结合预训练的GNN是优化基于HO ^• 的AOPs的有力工具。

图1. 本研究的工作流程。

图2. GNN模型预训练前后的预测性能。

经过100次训练后，未预训练的GNN模型达到了收敛，训练集、测试集和验证集的R²（RMSE）值为0.687（0.324）、0.685（0.317）和0.623（0.349）（图2a）。然而，受限于数据集的大小，模型表现并不理想。为进一步挖掘隐藏的化学知识，我们使用自监督学习模型对1000万无标签的数据进行预训练，经过预训练的GNN模型在 k _HO 值预测更准确，训练集、测试集和验证集的R²（RMSE）分别为0.849（0.224）、0.741（0.287）和0.742（0.288）（图2b）。模型性能的提升表明预训练后的GNN模型优势明显，并证明了预训练过程中学习到的信息可以在不同数据集间迁移。

图3. GNN模型与其他基于MF的模型的性能比较。

为进一步说明预训练后GNN模型的优越效果，对比了使用ECFP或MACCS为输入的ML模型。总体而言，模型表现依次为GNN模型＞基于MACCS的模型＞基于ECFP的模型（图3）。考虑到模型的效果、是否过拟合和泛化能力，认为预训练GNN模型、未预训练GNN模型以及基于SVM算法的MACCS模型可用于 k _HO 值的预测。其中，预训练GNN模型（下称GNN模型）在 k _HO 值预测任务中表现最佳。随后，将GNN模型与其他先前的预测模型进行了比较，结果显示，GNN模型的预测效果、解释性和泛化能力方面远优于ML模型。

图4. GNN模型在扩散控制区域的表现。

MPs与HO ^• 的反应在接近扩散控制极限时活化能极低， k 值主要取决于反应物通过溶剂的扩散过程，与取代基几乎无关。本研究重点关注扩散控制极限区域（log k 值大于9.5）的 k 值。在扩散控制极限区域的预测结果与全数据集的RMSE相当（图4a）。继续选择ML模型和未预训练GNN模型进行对比，结果表明，预训练GNN模型在扩散控制极限区域表现最为稳健（图4b-c）。log k 与哈米特常数（σ+）的R²值仅为0.1411，而在扩散控制极限区域R²值更低至0.0591（图4d）。这表明分子指纹（如ECFP）无法很好地反映 k 值，而分子图包含超越取代基的更多结构信息。

图5. 不同模型的输入特征比较。

为了探索MGs的更多化学意义，进行了 t -SNE分析。二维 t -SNE可以根据MGs对分子进行清晰的分类（图5a）。未预训练的GNN模型，尽管有一定的分类，但不同颜色的点存在广泛的重叠（图5b）。随后，MACCS和ECFP的结果显示出极为不规则的聚类（图5c-d），这表明MGs中嵌入的化学知识对 k _HO 值预测非常有帮助。

GNN模型学习了分子结构与 k 值之间的关系，结构相似的化合物聚集在一起。另一方面，一些结构完全不同的化学物质也聚集在同一区域，且具有相似的 k 值。这表明聚类标准不只是分子结构。尽管这一现象尚不明确，我们推测该聚类标准与 k 值密切相关。因此，进一步降低维度，并通过 t -SNE可视化GNN模型的倒数第二层，以探究预训练GNN模型的预测机制。

图6. GNN倒数第二层的聚类分析。

HO ^• 与MPs的反应 k 值直接由主要反应路径的活化能决定。HO ^• 引发的反应通常通过抽氢（HAA）、自由基加成（RAF）和单电子转移（SET）等路径进行，其中前两者在与MPs的反应中最为常见。我们认为模型捕捉了大量与 k 值相关的知识，例如反应路径。为验证这一假设，可视化了GNN模型的倒数第二层（图6），该层应显示与 k 值最相关的信息。将通过HAA路径的反应用红色标记，通过RAF路径的反应用蓝色标记，结果显示，以HAA为主的化合物集中在右侧，而以RAF为主的化合物则分布在左侧。因此，我们将这些区域定义为“HAA”和“RAF”，并认为通过特定路径反应的化学物质会落入相应区域。为了验证GNN模型能够根据反应路径对化学物质进行聚类，在RAF区域中，随机选择了五种化学物质（蓝星标记），在这些化合物中，HO ^• 主要攻击不饱和键，均通过RAF路径反应。同时，我们在HAA区域中标记了五种结构不同的化学物质,这些化合物与HO ^• 反应时，氢抽取主要发生在甲基上。因此，我们得出结论，GNN模型能够在倒数第二层有效地根据反应路径对化学物质进行聚类。

综上所述，本研究开发了一种新型图神经网络模型，用于预测HO ^• 与MPs反应的 k 值。通过引入分子图作为输入，模型能够捕捉比传统机器学习模型更多的化学知识。此外，为提高GNN算法在小数据集上的稳健性，使用了约1000万化学物质的无标签数据进行预训练。该模型不仅在整体性能上优于以往模型，还成功解决了 k 值接近扩散控制极限时的预测难题，克服了许多QSAR和ML模型的局限性。通过动力学数据，模型还能自动分类反应路径，展示了其在机理解析中的潜力。该模型基于HO ^• 的AOPs提供了新的思路，在新兴环境问题方面具有重要应用前景。

相关论文发表在 ACS ES&T Engineering 上，湖南大学博士研究生朱静怡为文章的第一作者， 周石庆 教授和 卜令君 副教授为通讯作者。

来源： ACS美国化学会。投稿、合作、转载、进群，请添加小编微信Environmentor2020！环境人Environmentor是环境领域 最大的学术公号 ，拥有 20W+活跃读者 。由于微信修改了推送规则，请大家将环境人Environmentor加为星标，或每次看完后点击页面下端的 “在看” ，这样可以第一时间收到我们每日的推文！环境人Environmentor现有综合群、期刊投稿群、基金申请群、留学申请群、各研究领域群等共20余个，欢迎大家加小编微信Environmentor2020，我们会尽快拉您进入对应的群。

往期推荐

年度热点文章Top10（2023年）

哈工大任南琪院士团队谢国俊课题组、重庆大学陈一课题组合作ES&T封面：亚硝酸盐依赖型厌氧甲烷氧化细菌的生态位分化机制

见证一个新领域的崛起——密苏里大学肖峰团队/北京师范大学李阳团队一篇承上启下的ES&T

ES&T社论：ES&T对材料类稿件的基本期望以及此类稿件应该如何体现其环境相关性

哈尔滨工业大学马军院士团队孙志强副教授ES&T、WR等：非自由基高级氧化净水技术系列研究成果

同济大学关小红团队ES&T封面：电化学氧化生成的Fe(IV)/Fe(V)可在近中性条件下选择性去除水中的有机污染物

同济大学关小红团队ES&T：一种可以轻松区分SO4•-与HO•并实时量化高级氧化技术中的SO4•-的新方法

哈工大任南琪院士团队贺诗欣课题组Nature Water：集太阳能脱盐、发电和作物灌溉功能于一体的综合系统

哈工大（深圳）任南琪院士团队路璐、深圳先进院高翔Nat. Sustain. ：工业废水中多污染物协同原位生物转化合成高值化学品

中科院生态环境研究中心曲久辉院士团队Science Advances：揭示脱水合在离子选择性膜分离中的作用机制

可持续视野SH｜哈尔滨工业大学任南琪院士团队：海绵城市建设方案的评估与优化

学术招聘

美国范德堡大学环境工程研究生项目招生（博士硕士）

加州大学河滨分校化学与环境工程系门玉洁课题组招收博士生（或博士后）

湖南大学周石庆团队ACS ES&T Engg.封面：集成自监督预训练的图神经网络用于HO• AOP中微污染物可处理性的可解释预测

正文

请到「今天看啥」查看全文