英文原题:
Graph neural network integrating self-supervised pre-training for precise and interpretable prediction of micropollutant treatability by HO
•
based advanced oxidation processes
通讯作者
:周石庆,湖南大学;卜令君,湖南大学
作者
:Jingyi Zhu, Yuanxi Huang, Lingjun Bu*, Yangtao Wu, Shiqing Zhou*
近日,
湖南大学周石庆
教授团队开发了一种结合自监督预训练的图神经网络模型,用于预测羟基自由基与微污染物的反应活性。该模型具有显著的迁移学习能力,在扩散控制极限数据上的表现优于传统机器学习方法,并通过分子图挖掘机制知识。
联合国可持续发展目标提出确保到2030年人人都能享用到安全且负担得起的饮用水。然而,随着微污染物(MPs)的日益增多,传统水处理系统面临严峻挑战。由多种瞬态活性物种参与的高级氧化工艺(AOPs)是去除MPs的有效方法。羟基自由基(HO
•
)是常见的活性物种,其反应动力学对评估MPs的可处理性至关重要。然而,逐一分析数千种自由基的反应并不切实际,因此,开发覆盖所有MPs的反应动力学预测模型成为迫切需求。
尽管定量构效关系(QSAR)模型在预测
k
值方面取得了进展,但其适用性有限,且需要较大的数据集和精确的反应机理。近年来,机器学习(ML)的引入极大改善了QSAR模型的表现,尤其是以分子指纹(MFs)为输入,反映了MPs的分子结构,减少了对机理知识的依赖。然而,对于HO
•
参与的反应,由于
k
值多接近扩散控制极限,现有的基于MFs的ML模型难以有效预测其
k
值。鉴于化学活性是由分子内在结构决定,因此,在预测HO
•
的
k
值时,需采用更全面的分子表示方法。
为了解决上述问题,
湖南大学周石庆
教授团队开发了一种结合自监督预训练的图神经网络(GNN)模型。本研究通过引入分子图(MGs)表示分子结构,直接反应分子的拓扑结构;通过在大规模无标签的数据(约1000万个分子)上的自监督预训练,防止GNN模型在小数据的过拟合;利用GNN倒数第二层将
k
值预测外推至机理阐释,对机理路径进行自动分类。本研究结果表明,结合预训练的GNN是优化基于HO
•
的AOPs的有力工具。
经过100次训练后,未预训练的GNN模型达到了收敛,训练集、测试集和验证集的R²(RMSE)值为0.687(0.324)、0.685(0.317)和0.623(0.349)(图2a)。然而,受限于数据集的大小,模型表现并不理想。为进一步挖掘隐藏的化学知识,我们使用自监督学习模型对1000万无标签的数据进行预训练,经过预训练的GNN模型在
k
HO
值预测更准确,训练集、测试集和验证集的R²(RMSE)分别为0.849(0.224)、0.741(0.287)和0.742(0.288)(图2b)。模型性能的提升表明预训练后的GNN模型优势明显,并证明了预训练过程中学习到的信息可以在不同数据集间迁移。
图3. GNN模型与其他基于MF的模型的性能比较。
为进一步说明预训练后GNN模型的优越效果,对比了使用ECFP或MACCS为输入的ML模型。总体而言,模型表现依次为GNN模型>基于MACCS的模型>基于ECFP的模型(图3)。考虑到模型的效果、是否过拟合和泛化能力,认为预训练GNN模型、未预训练GNN模型以及基于SVM算法的MACCS模型可用于
k
HO
值的预测。其中,预训练GNN模型(下称GNN模型)在
k
HO
值预测任务中表现最佳。随后,将GNN模型与其他先前的预测模型进行了比较,结果显示,GNN模型的预测效果、解释性和泛化能力方面远优于ML模型。
MPs与HO
•
的反应在接近扩散控制极限时活化能极低,
k
值主要取决于反应物通过溶剂的扩散过程,与取代基几乎无关。本研究重点关注扩散控制极限区域(log
k
值大于9.5)的
k
值。在扩散控制极限区域的预测结果与全数据集的RMSE相当(图4a)。继续选择ML模型和未预训练GNN模型进行对比,结果表明,预训练GNN模型在扩散控制极限区域表现最为稳健(图4b-c)。log
k
与哈米特常数(σ+)的R²值仅为0.1411,而在扩散控制极限区域R²值更低至0.0591(图4d)。这表明分子指纹(如ECFP)无法很好地反映
k
值,而分子图包含超越取代基的更多结构信息。
为了探索MGs的更多化学意义,进行了
t
-SNE分析。二维
t
-SNE可以根据MGs对分子进行清晰的分类(图5a)。未预训练的GNN模型,尽管有一定的分类,但不同颜色的点存在广泛的重叠(图5b)。随后,MACCS和ECFP的结果显示出极为不规则的聚类(图5c-d),这表明MGs中嵌入的化学知识对
k
HO
值预测非常有帮助。
GNN模型学习了分子结构与
k
值之间的关系,结构相似的化合物聚集在一起。另一方面,一些结构完全不同的化学物质也聚集在同一区域,且具有相似的
k
值。这表明聚类标准不只是分子结构。尽管这一现象尚不明确,我们推测该聚类标准与
k
值密切相关。因此,进一步降低维度,并通过
t
-SNE可视化GNN模型的倒数第二层,以探究预训练GNN模型的预测机制。
HO
•
与MPs的反应
k
值直接由主要反应路径的活化能决定。HO
•
引发的反应通常通过抽氢(HAA)、自由基加成(RAF)和单电子转移(SET)等路径进行,其中前两者在与MPs的反应中最为常见。我们认为模型捕捉了大量与
k
值相关的知识,例如反应路径。为验证这一假设,可视化了GNN模型的倒数第二层(图6),该层应显示与
k
值最相关的信息。将通过HAA路径的反应用红色标记,通过RAF路径的反应用蓝色标记,结果显示,以HAA为主的化合物集中在右侧,而以RAF为主的化合物则分布在左侧。因此,我们将这些区域定义为“HAA”和“RAF”,并认为通过特定路径反应的化学物质会落入相应区域。为了验证GNN模型能够根据反应路径对化学物质进行聚类,在RAF区域中,随机选择了五种化学物质(蓝星标记),在这些化合物中,HO
•
主要攻击不饱和键,均通过RAF路径反应。同时,我们在HAA区域中标记了五种结构不同的化学物质,这些化合物与HO
•
反应时,氢抽取主要发生在甲基上。因此,我们得出结论,GNN模型能够在倒数第二层有效地根据反应路径对化学物质进行聚类。
综上所述,本研究开发了一种新型图神经网络模型,用于预测HO
•
与MPs反应的
k
值。通过引入分子图作为输入,模型能够捕捉比传统机器学习模型更多的化学知识。此外,为提高GNN算法在小数据集上的稳健性,使用了约1000万化学物质的无标签数据进行预训练。该模型不仅在整体性能上优于以往模型,还成功解决了
k
值接近扩散控制极限时的预测难题,克服了许多QSAR和ML模型的局限性。通过动力学数据,模型还能自动分类反应路径,展示了其在机理解析中的潜力。该模型基于HO
•
的AOPs提供了新的思路,在新兴环境问题方面具有重要应用前景。
相关论文发表在
ACS ES&T Engineering
上,湖南大学博士研究生朱静怡为文章的第一作者,
周石庆
教授和
卜令君
副教授为通讯作者。
来源:
ACS美国化学会
。
投稿、合作
、转载、进群,请添加小编微信Environmentor2020!环境人Environmentor是环境领
域
最大的学术公号
,拥有
20W+活跃读者
。由于微
信修改了推送规则,请大家将环境人Environmentor加为
星标
,或每次看完后点击页面下端的
“在看”
,这样可以第一时间收到我们每日的推文!
环境人Environmentor现有综合群、
期刊投稿群、基金申请群、留学申请群、各研究领域群等共20余个,欢迎大家加小编微信Environmentor2020,我们会尽快拉您进入对应的群
。