通讯作者:隋铭皓 教授(同济大学)、赵肖 博士生(复旦大学)
论文DOI: 10.1016/j.watres.2024.122521
近日,同济大学隋铭皓课题组在Water Research上发表了题为“Task decomposition strategy
based on machine learning for boosting performance and identifying mechanisms
in heterogeneous activation of peracetic acid process”的研究论文(DOI: 10.1016/j.watres.2024.122521),在本研究中,通过结合催化剂和反应条件优化机器学习(CRCO-ML)模型和机理识别机器学习(MI-ML)模型,采用了任务分解策略来解决催化剂选择、反应条件优化和机理鉴定问题。分类提升(CatBoost)模型被确定为数据集(1024 组和 7122 个数据点)中表现最好的模型,实现了 R
2
为 0.92,RMSE 为 1.28。在 CRCO-ML 模型中,通过 SHAP 分析,催化剂组成、PAA 用量和催化剂用量被确定为最重要的 3 个特征。HCO
3
–
被认为是影响
k
值的最有影响力的水基质。所有逆向实验结果与 CRCO-ML 和 MI-ML 模型的预测值之间的误差分别为 <10 % 和 15 %。这项跨学科工作为 PAA 过程异质活化的设计和应用提供了新的见解,为该技术的快速发展做出了重大贡献
。
过氧乙酸的异相活化过程是去除水中有机污染物的一种很有前途的方法。然而,这个过程受到几个复杂因素的限制,例如催化剂的选择、反应条件的优化和机理的确定。本研究首次采用任务分解策略,将催化剂和反应条件优化机器学习(CRCO-ML)模型和机理识别机器学习(MI-ML)模型集成到 PAA 过程的非均相活化中。收集了 1024 组数据来训练 CRCO-ML 模型,CatBoost 模型(R2 = 0.92)是八个 ML 模型(CatBoost、XGBoost、LGBM、RF、Bagging、SVM、ANN 和 GP)中最适合该数据集的 ML 模型。对于 MI-ML 模型,采用了一种噪声增强学习方法来减轻有限数据集的影响。催化剂组成、PAA 用量和催化剂用量被确定为对 k 值影响最显著的 3 个特征。此外,HCO
3
–
被确定为最具影响力的水基质。模型的物理和化学可解释性以及 ML 模型指导的逆向实验的准确性都表明,经过训练的 CRCO-ML 和 MI-ML 模型是可靠的。
过氧乙酸被认为是一种很有前途的氧化剂,并因其卓越的消毒效率、高氧化还原电位(1.06-1.96 V)、实施简单和有毒副产物的产生少而受到水处理领域的广泛关注。与水处理中使用的 H
2
O
2
(231 kJ mol
-1
)和 PMS (317 kJ mol
-1
)等典型过氧化物相比,PAA 由于其较低的 O-O 键能(159 kJ mol
-1
)而更容易被激活。近年来,各种激活 PAA 的方法已被证明可有效去除水中的微污染物,包括辐照(热、紫外线、超声波)、均相催化剂和非均相催化剂。值得注意的是,PAA 工艺的非均相活化更具吸引力,因为它不需要额外的设备或能源消耗,并且催化剂是可回收的,不受金属离子污染。然而,寻找高效催化剂和优化反应条件是两项复杂的工作,需要大量的时间、劳动力和材料资源。此外,确定可能的反应机制也是一项重要而繁杂的任务。因此,开发更好的性能优化和机制识别策略对 PAA 过程的异质激活非常有益。
机器学习(ML)技术可以通过分析大量数据来识别隐藏在数据背后的复杂关系,以更好地了解现象的本质并提供新的见解和解决方案。对于PAA 过程,ML 技术已被用于预测和优化消毒能力。例如,Newhart 等人。采用人工神经网络和递归神经网络来预测消毒罐中的 PAA、CT(活性浓度和接触时间的函数)以及消毒前后的大肠杆菌浓度。Cui et al. 使用 LightGBM (LGBM)模型有效预测 PAA 的杀菌性能,以实现对洗涤水卫生的快速验证。然而,据我们所知,尚未报道使用 ML 技术优化基于 PAA 的 AOP 的研究。影响 PAA 工艺非均相活化的主要因素是催化剂性质、操作参数和水基质。对这些因子进行归一化会导致数据集中出现大量 null 值。因此,选择合适的数据预处理方法和 ML 模型对于同时优化性能和识别机制至关重要。
数据预处理
&
模型构建
Fig. 1.
Architecture diagram of the task decomposition
strategy (a) and the Spearman's rank correlation coefficient (b). The numbers
in the square grid represent the Spearman correlation coefficient between the
two features corresponding to the horizontal and vertical directions
.
为了确定最适合 CRCO-ML 模型数据集的 ML 模型,我们评估了五种类型的 ML 模型的性能:(1)基于 Boosting 算法的 ML 模型,包括 eXtreme Gradient Boosting (XGBoost)和 Light Gradient Boosting
Machine (LGBM);(2)基于 Bagging 算法的 ML 模型,例如随机森林(RF)和通用 Bagging 模型;(3)支持向量机(SVM);(4)人工神经网络(ANN);(5)贝叶斯非参数模型,高斯过程(GP)。催化剂特性、操作参数、水质指标和污染物的量子化学描述符被用作 ML 模型的输入,相应的
k
值作为输出目标。为了防止数据泄露,数据集以 9:1 的比例精心拆分为训练集和外部测试集,以训练每个 ML 模型。
MI-ML 模型的数据集较小,可能会导致泛化能力差和过拟合。因此,采用噪声增强学习来构建 MI-ML 模型,以增强数据并将信息从 CRCO-ML 模型传输到 MI-ML 模型。混合数据集是通过从 CRCO-ML 模型的数据集中随机选择 30 个数据样本到 MI-ML 模型的数据集中获得的,并用于训练 MI-ML 模型。此外,MI-ML 模型的目标输出为
k
t
/
k
0
。
k
t
是添加了特定淬灭剂的速率常数,
k
0
是未添加任何淬灭剂的速率常数。
为了充分利用所有可用数据并确保对 ML 模型进行可靠和全面的评估,采用了十重交叉验证方法来评估每个模型的性能和泛化能力。决定系数(R
2
)和均方根误差(RMSE)是评估回归任务准确性的常用指标,它们用于评估每个模型的性能。
模型评估
Fig.
2.
Regression performance analysis for CatBoost (a), LGBM (b), XGBoost (c),
Bagging (d), RF (e), SVM (f), ANN (g), and GP (h) in CRCO-ML model. The blue
line, which is a straight line defined by the equation
y
=
x
,
represents the optimal regression line
.
Fig.
3.
Accuracy analysis of each ML model based on R
2
, RMSE (a), and
absolute error-cumulative probability curve (b) in CRCO-ML model. Regression
analysis between experimental values and predicted values (c) and accuracy
analysis (d) of the CatBoost model in the MI-ML model. The errors caused by
randomly generating 10 label codes on R
2
and RMSE were also included
in the error interval
.
图 2显示了每个模型的预测数据与原始实验数据之间的关系。基于Boost和Bagging算法的 ML 模型的数据点更接近最优回归线,表明这两种类型的模型可能更适合本研究中的数据集。SVM 和 ANN 模型在非常分散的数据点上表现不佳。特别是,训练集数据几乎完全落在最优回归线上,表明 GP 模型过度拟合,不适合处理该数据集
。
在 CatBoost 模型中观察到最高的 R
2
(0.92)和最低的 RMSE(1.28),表明 CatBoost 模型是八个 ML 模型中的最佳模型。基于 Boosting 和 Bagging 算法的 ML 模型的性能明显优于 ANN、SVM 和 GP 模型,表明它们更适合 CRCO-ML 模型的数据集。这种现象是可以解释的。基于 Boosting 算法的 ML 模型通过迭代训练模型来逐步提高性能。他们可以识别数据集中最有效的特征,从而减少维度的影响。此外,用于处理缺失值的内置策略可以自动学习处理缺失值的最佳方法。对于基于 Bagging 算法的 ML 模型,通过从原始数据集中随机抽取多个子样本,增加了多样性并降低了过拟合的风险。Bagging 方法中的子模型(如决策树)通常可以有效地处理缺失值。因此,基于Boosting和Bagging算法的ML模型更适合于本研究中的高维和多空值数据集。相比之下,GP 模型的 R
2
training
高达 0.99,而 R
2
test
极低(0.23),表明它严重过拟合。在高维数的情况下,GP 模型倾向于捕获数据中的每一个微小波动和异常值,从而导致新数据的性能不佳。每个模型的误差累积概率曲线进一步支持了这些结论(图 3b)。最靠近y 轴的CatBoost 模型曲线表明它在 8 个模型中具有最高的准确性。绝对误差为 <1 (the expected value
of magnitude 10
1
)的累积概率达到 97.94 %,表明 CatBoost 模型取得了令人满意的准确率。值得注意的是,CatBoost 模型采用一种称为目标统计的技术来处理分类特征,而无需在数据预处理阶段将分类数据转换为数值数据。这有效地避免了标签编码过程中可能出现的人为排序问题。有趣的是,没有标签编码的 CatBoost 模型仍然在这个数据集上实现了最佳性能。因此,无标签编码的 CatBoost 模型已被选为 CRCO-ML 模型的最佳 ML 模型。此外,在 8 个回归模型中,CatBoost 对 kt/k0 的预测准确性最高(表 S5)。CatBoost 模型的预测结果显示与实验数据存在合理的回归(图 3c)。高 R2 值(0.81)和低 RMSE (1.92)表明构建的 MI-ML 模型的准确性令人满意(图 3d)。
特征重要性识别
Fig.
4.
Feature importance analysis based on prediction results of CRCO-ML model (a)
and positive and negative effects of features on the CRCO-ML model based on
SHAP analysis (b)
.
图 4a 显示了基于平均 SHAP 值的全局特征重要性排名,将催化剂组成确定为 CRCO-ML 模型中最重要的特征。显然,催化剂组成直接决定了催化剂的物理和化学性质,从而影响反应机理和性能。PAA 用量、催化剂用量和搅拌速度是最重要的显著特征。此外,它们的低特征值(蓝点)在负轴上累积,而正轴最远的地方是高特征值红点),表明它们对 k 值有很强的积极影响(图 4b)。PAA 用量、催化剂用量和搅拌速度都会对反应物和催化剂之间的传质过程产生积极影响。众所周知,反应物与催化剂上的活性位点之间接触的可能性增加与非均相催化过程中反应速率的加快相关。相反,污染物的浓度会对反应速率产生不利影响(图 4a)。催化剂上的活性位点可能被过高浓度的污染物或中间体占据,从而降低了污染物分子向活性位点的扩散能力。初始 pH 值也被确定为一个重要的操作参数(图 4a)。整个阳性和阴性范围内的红色和蓝色特征值表明,初始 pH 值不会单调地影响反应速率,但具有极值。总体而言,污染物的量子化学参数对 k 值的影响通常弱于催化剂和操作参数的影响。催化剂、反应条件和污染物描述符对 k 值影响的物理和化学可解释性强调了经过训练的 CRCO-ML 模型的令人满意的可靠性
。
ML
模型指导的逆实验
Fig.
5.
The
k
value optimization for RhB (a) and SMX (b) with CuO/CNTs based
on the trained CRCO-ML model and the DE optimization algorithm in the
heterogeneous activation of PAA process. Regression relationship between
experimental and predicted
k
values for RhB (c) and SMX (d). The
k
values obtained from quenching experiments and MI-ML model (e) and
identification of ROS by EPR (f)
.
在这里,选择了原始数据集中不存在的可合成复合材料 CuO/CNTs 作为目标材料。CuO/CNTs 的最佳参数和相应的反应条件由训练好的 CRCO-ML 模型和 DE 算法确定(图 5a 和 5b)。CuO 与 CNT 的预测最佳质量比为 1.00:8.26,以最佳 k 值(6.26 × 10
–3
s
–1
)去除 RhB。对于SMX的去除,预测最佳催化剂比例为1.00:7.73,最佳k值为1.95 × 10
–2
s
–1
。SMX 的预测最佳 k 值超过了先前报道的(5.29 × 10
–3
s
–1
),表明优化结果是可靠的。图 5c 和 5d 分别说明了5 种不同配比的 CuO/CNTs 复合材料在激活 PAA 以去除 RhB 和 SMX 方面的性能。CuO/CNTs-4 是最好的催化剂,这与训练后的 CRCO-ML 模型的预测结果一致。图 5e 表明所有淬灭实验数据与 MI-ML 模型的预测值之间的误差为 <15 %。EPR的检测结果(图 5f)与MI-ML的预测结果吻合,表明MI-ML模型是可靠的。
近年来,PAA 过程的异质激活引起了广泛关注。本研究首次采用任务分解策略,将催化剂和反应条件优化机器学习(CRCO-ML)模型和机理识别机器学习(MI-ML)模型集成到 PAA 过程的非均相活化中。使用 ML 方法优化催化剂和反应条件可以更灵活、更准确地预测和控制这一过程。特别是,使用 ML 方法预测反应机制有助于我们在复杂系统中发现更多模式。ML 技术可以帮助我们从复杂系统中理解更多反应机制的原理。然而,文献中提供的数据极其有限。尽管我们尝试了数据优化策略并构建了 MI-ML 模型,但较小的数据集仍然可能导致过拟合和泛化能力差。在未来的工作中,需要构建更系统和丰富的实验数据库,以满足构建高性能 ML 模型的要求。此外,需要开发针对基于 PAA 的 AOP 特征的具有更强物理和化学意义的人工智能模型,以促进基于 PAA 的 AOP 的快速发展
。
庄玮:
博士生,现就读于同济大学环境科学与工程学院。主要从事高级氧化技术及人工智能技术在水处理中的应用。以第一作者或者通讯作者身份在Water Research, Nano Energy, Chemical Engineering Journal等期刊上发表SCI论文6篇
。
赵肖:
博士生,现就读于复旦大学工程与应用技术研究院。主要从事计算机视觉及其在自动驾驶领域的应用。以第一作者或者通讯作者身份在IEEE
T-its,IEEE RAL,ACM
MM等国际期刊会议发表论文9篇。
隋铭皓:
教授、博士生导师,现任职于同济大学环境科学与工程学院。主要研究领域为高级氧化去除水中有机污染物及新型水处理消毒技术。主持国家自然科学基金、国家重点研发课题、“863”计划课题、水专项任务、上海市自然国家科学基金等多项国家、省部级项目;以第一作者或通讯作者身份发表SCI论文 100余篇。曾获得国家技术发明奖二等奖、上海市科学进步二等奖等奖励。
Task
decomposition strategy based on machine learning for boosting performance and
identifying mechanisms in heterogeneous activation of peracetic acid process. Copyright
2024, Elsevier Inc
W. Zhuang, et al, Task decomposition strategy based on
machine learning for boosting performance and identifying mechanisms in heterogeneous
activation of peracetic acid process, Water Research, 2024, 267: 122521
https://www.sciencedirect.com/science/article/pii/S0043135424014209#sec0001
投稿
:
同济大学隋铭皓课题组
;
排版来源:
Environmental Advances
。
投稿、合作
、转载、进群,请添加小编微信Environmentor2020!环境人Environmentor是环境领
域
最大的学术公号
,拥有
20W+活跃读者
。由于微
信修改了推送规则,请大家将环境人Environmentor加为
星标
,或每次看完后点击页面下端的
“在看”
,这样可以第一时间收到我们每日的推文!
环境人Environmentor现有综合群、
期刊投稿群、基金申请群、留学申请群、各研究领域群等共20余个,欢迎大家加小编微信Environmentor2020,我们会尽快拉您进入对应的群
。