近日,中国科学院成都生物研究所在环境领域著名学术期刊
Environmental
Science & Technology
上发表了题为
“Selectively Quantify Toxic
Pollutants in Water by Machine Learning Empowered Electrochemical Biosensor”
的研究论文。
该论文第一作者
/
通讯作者为中科院成都生物研究所青年研究员汪婧婷,共同通讯作者为丹麦技术大学
Yifeng
Zhang
教授。合作作者包括还包括四川农业大学沈飞教授、中国科学院成都生物研究所博士生郑德聪、中国科学院成都山地灾害与环境研究所博士生黄迪文等。
文中提出了一种机器学习驱动的电化学生物生物膜传感器用以选择性定量监测复杂水体中的目标毒性物质。基于四种目标毒物(
Cd
2+
、
Cr
6+
、
TCAA
、
TCS
)的电化学响应数据构建的
OMEA-ANN
模型能够精准识别复杂水体中四种目标毒物的类型及其浓度。本文解决了传统电化学生物膜传感器的局限性,扩大了电化学生物膜传感器对水中多种有毒物质检测的适用性,为污水的智能管理提供了有价值的见解
。
水质监测是环境保护的重要组成部分。电活性生物膜(
EAB
)传感器因其具有高灵敏度、快速响应和成本低而被广泛应用于水污染监测。
EAB
传感器可以根据电活性生物膜产生的各种电信号(如电流、电位、电导率、阻抗等)快速准确地检测污染物。然而,
EAB
传感器输出的电信号是一个综合响应结果,因此传统
EAB
传感器难以同时检测复杂水体中的多种目标毒物。近年来,随着计算机科学的进步,机器学习(
ML
)已被广泛应用于环境污染评价、废水管理、环境分析等环境领域,为水中有毒物质的检测提供了启示。因此,本研究中首先开发了基于生物毒性传感的
EAB
传感器,以获取各种单一和复杂毒物的电化学特征响应数据,并提取关键参数。然后,将思维进化算法与人工神经网络相结合构建了毒物预测模型(
MEA-ANN
),通过
MEA-ANN
对提取的特征参数进行分析,评估了模型对水中复杂毒物的预测性能。进一步采用平均影响值算法对提取的特征参数进行筛选,提高了
MEA-ANN
模型的预测精度。利用不同的实际水样(包括河水、地下水和垃圾渗滤液等)验证了模型的可行性
。
图文导读
电化学响应特征参数的选择
图
1
:基于循环伏安曲线的电化学响应参数选择示意图。
为了全面描述毒性冲击后
EAB
传感器电化学响应特性的变化,基于不同毒性冲击后的循环伏安曲线,提取了
11
个描述性参数和
10
个响应参数作为预测模型数据集的输入参数
。
图
2
:本研究的工作流程示意图。
本研究利用思维进化算法(
MEA
)来设置初始化人工神经网络(
ANN
)结构的超参数(例如权值和阈值),从而构建
MEA-ANN
模型。
ANN
模型包括三层:
(i)
具有
10
个响应参数的输入层,(
ii
)用于非线性数据转换的隐藏层,(
iii
)使用
4
位数的二进制代码代表毒物类型识别的输出层。基于自定义代码符号设置,通过二进制代码来建立模型的预测毒药类型和实际毒物类型
。
EAB
传感器对混合毒物的电化学响应
图
3
:混合毒物毒性冲击后生物传感器输出电信号的变化。横坐标表示有毒物质的种类和浓度。
A:
TCAA + Cr
6+
和
TCS + Cr
6+
;
B: TCAA + Cd
2+
;
C: TCS + Cd
2+
、
TCS + TCAA
;
D: Cd
2+
+ Cr
6+
和
Cd
2+
+ Cr
6+
+ TCAA
。
利用构建的稳定的
EAB
传感器对混合污染物进行检测。电化学响应结果如图
3
所示。通过建立基于污染物浓度和相应的
I
shock
变化的线性相关性,我们证明了
I
shock
变化的大小确实可以用于污染物浓度的定量测定。但是,这种方法只适用于存在单一污染物的情况,而实际水体通常含有多种污染物。利用
I
shock -tail
作为新的响应指标,我们观察到
I
shock
-tail
随污染物浓度的增加而减小,但减小的程度与
I
shock
的减小程度不一致。这表明,无论指标是
I
shock
还是
I
shock -tail
,仅依靠单一的响应指标都不足以建立输出电信号与污染物之间全面、准确的相关性
。
MEA-ANN
训练模型成功预测毒物
图
4: MEA-ANN
、
SVM
、
RF
和
KNN
模型对
Cd
2+
(A)
、
Cr
6+
(B)
、
TCS (C)
和
TCAA (D)
的预测结果。
在复合毒物污染系统中,使用单一反应指标的传统方法在实现多毒物感知方面面临挑战。为了实现对混合系统中每种毒物的精确定性和定量识别,我们采用
MEA-ANN
模型对从
93
个数据集提取的多个反应指标进行训练和分析,每个数据集代表不同的毒物类型和浓度组合,从而建立了多毒物预测模型。
MEA-ANN
预测结果能够准确识别多毒物系统中的不同毒物类型,其中
Cd
2+
、
Cr
6+
、
TCS
和
TCAA
的预测准确率分别达到
100%
、
97.8%
、
92.5%
和
86.07%
,毒物类型的总体预测准确率达到
90.32%
。在成功识别混合毒物中各种毒物的类型后,我们进一步探究了
MEA-ANN
模型预测其浓度的准确性。图
4
比较了三种常见
ML
算法(
RF
、
KNN
和
SVM
)预测混合毒物中各种毒物浓度的预测结果。在多毒物系统中,
MEA-ANN
模型对
4
种毒物的浓度预测效果较好(
R
2
= 0.903 ~ 0.975
)。与其他模型(
RF
、
KNN
和
SVM
)相比,
MEA-ANN
模型具有显著的优势,这表明
MEA-ANN
模型可以成功预测这四种混合毒物中每种毒物的浓度。
MEA-ANN
模型对四种毒物的整体预测能力明显优于其他三种模型。本研究采用结合迭代误差统计的
MEA-ANN
系统模型确定隐层神经元的最优数量,并通过交叉验证评估泛化误差,实现了对混合毒素中各毒素浓度的稳定、准确预测。与先前的研究相比,该方法显示出更好的预测性能。综上所述,本研究建立的
MEA-ANN
模型有效地实现了多毒物系统中各毒物的定性识别和定量检测
。
通过对特征响应参数筛选以提高
MEA-ANN
模型的预测性能和效率
图
5
:不同输入特征参数对不同毒物
(Cd
2+
(A)
、
Cr
6+
(B)
、
TCS
(
C)
、
TCAA (D)
)预测结果的相对贡献,以及模型优化评价后各毒物
(Cd
2+
(E)
、
Cr
6+
(F)
、
TCS
(
G)
、
TCAA (H)
)的预测效果。
为了进一步简化预测模型,提高其稳定性和预测性能,我们采用平均响应值算法(
MIV
)筛选来简化输入特征参数。该方法旨在提高模型的计算效率,并在确保预测准确性的同时开发更快,更节能的
ML
算法。
MIV
反映了各个特征参数对预测结果的影响,输入参数与输出结果之间的相关性由
MIV
的绝对值来评价。图
5
说明了
10
个输入特征参数对各种毒物输出结果的相对贡献。
MIV
的绝对值表明不同输入参数对多种毒物的预测有不同程度的贡献和正相关或负相关。这些差异主要是由于毒物的不同生物毒性机制所致。在
10
个输入特征参数中,
k
0.550V
和
k
0.525V
对
4
种毒物的预测贡献较小(
<0.008
)。预测精度的下降表明该方法没有达到模型优化的目的,导致该方法被放弃。预测精度的降低表明该方法没有达到模型优化的目标,导致该方法被放弃。此外,由于
k
0.525V
对预测四种毒物的贡献很小,我们试图通过删除该参数并重新优化该模型(
OMEA-ANN
)。重新优化后,该模型对毒物类型的总体预测准确率为
92.68%
。
Cd
2+
、
Cr
6+
、
TCS
和
TCAA
的定性预测准确率分别提高到
100%
、
97.8%
、
95.6%
和
96.77%
。与优化前相比,该模型对
TCS
浓度的预测略有下降,对所有其他毒素的预测均有所改善(图
5
)。
Cd
2+
、
Cr
6+
、
TCS
和
TCAA
浓度预测的
R
2
值分别为
0.994
、
0.970
、
0.920
和
0.968
。此外,
RSME
和
MAE
值最小,表明该模型在浓度预测方面具有良好的性能。该模型在保留完整信息的同时降低了原始数据集的维数。在保证预测精度的同时,将模型的训练时间额外减少了
17%
,提高了计算效率,达到了模型优化的目的。使用
MIV
过滤特征输入参数以提高
ML
计算效率对于智能水毒性预警系统至关重要,特别是在处理大量数据集时
。
OMEA-ANN
模型具有良好的抗干扰性和预测性能
图
6
:在类似毒物存在体系中,
OMEA-ANN
模型的抗干扰能力
(A)
,以及对目标毒物
(Cd
2+
(B)
、
Cr
6+
(C)
、
TCS
(
D)
、
TCAA (E)
)的预测性能评价。
真实的水环境除了目标毒物外,通常还含有各种污染物,不可避免地会对目标毒物预测产生干扰。为了评价
OMEA-ANN
模型对类似污染物的抗干扰性能,我们对数据集的电化学响应参数进行了分析,得到了该模型的预测结果(图
6
)。结果表明,当检测系统中只存在干扰毒物
Zn
2+
、
DCAA
和
Cu
2+
且不存在目标毒物时,
OMEA-ANN
模型对
Zn
2+
、
DCAA
和
Cu
2+
的抗干扰率分别为
100%
、
100%
和
80%
(图
6A
)。这表明,在检测过程中,
OMEA-ANN
模型能够有效地消除
Zn
2+
和
DCAA
的干扰。然而,当输入
10
次
Cu
2+
的特征响应参数时,
OMEA-ANN
模型将
Cu
2+
误识别为
Cd
2+
两次。这种误差可能是由于
Cu
2+
在这两种浓度下的特征输入参数与
Cd
2+
的特征输入参数非常相似
。
此外,我们评估了不同浓度的干扰毒物与不同浓度的目标毒物混合时
OMEA-ANN
模型的预测精度(图
6A
)。当组合中含有
Zn
2+
+Cd
2+
、
Cu
2+
+Cr
6+
和
Zn
2+
+TCS
时,
OMEA-ANN
模型能
100%
有效地消除其他毒物的干扰,仅准确识别目标毒物
Cd
2+
、
Cr
6+
和
TCS
。对
Cd
2+
、
Cr
6+
和
TCS
预测的
R
2
值(
0.9680,0.9602,0.9087
)、
MAE
值(
0.001±0.007,0.001±0.0004,0.025±0.095
)和
RMSE
值(
0.007±0.032,0.003±0.009,0.045
±
0.151
)结果均表明该模型具有较高的准确性。因此,即使存在类似干扰元素的情况下,
OMEA-ANN
模型也能准确识别目标毒物类型并保持精确的定量能力。在含有
TCAA
和
DCAA
的混合物的情况下,
OMEA-ANN
模型有
20%
的概率将
TCAA
误识别为
Cr
6+
,同时以
80%
的概率保持对目标毒物的非常准确的定量能力。尽管存在干扰毒物时对四种毒物的预测性能有所下降,但
R
2
值仍保持在
0.9
以上,表明该模型具有显著的抗干扰能力
。
OMEA-ANN
模型对实际水体和加标样品中的目标毒物具有优异的预测性能
图
7
:利用各种真实水样和加标天然水样验证了
OMEA-ANN
模型的实用性。
A
:给出了
7
个实际水样的实测值和预测值(归一化),其中灰色为观测值,红色为预测值,重叠表示相似。这些样品(
1-7
)分别对应地下水
1
、地下水
2
、地表水、矿山景观池、污水处理厂进水、初级沉淀池出水和垃圾填埋场渗滤液。天然水加标样品包括单一毒物(
B. Cd
2+
,
C. Cr
6+
,
D. TCS
,
E. TCAA
),两种毒物混合物(
F. TCAA + Cd
2+
,
G. TCAA + Cr
6+
,
H. TCAA + TCS
)和三种毒物组合(
I. TCAA + Cd
2+
+ TCS
)。
基于上述结果,我们探索了其在实际水环境中的应用潜力。我们初步调查了
7
种含有目标毒物的真实水样,包括地表水、地下水、污水处理厂进水、初沉池出水、矿山景观池、垃圾填埋场渗滤液等。首先通过传统物理化学方法分析七个真实水样中的四种目标毒物浓度,
Cd
2+
、
Cr
6+
、
TCS
和
TCAA
的浓度分别为
0.36 ~
0.54
、
0.57 ~ 10.80
、
3.98 ~ 4.28
和
62.25 ~ 78.64 μg/L
。随后,我们使用
OMEA-ANN
模型和生物传感器来预测七个实际水样中四种目标毒物的浓度。
TCS
(稀释
5
倍)和
TCAA
的预测值与观测值基本一致(图
7A
),但样品
6
中
Cd
2+
的预测结果略有差异,这可能是由于初沉池中干扰因素太多造成的。
OMEA-ANN
模型在预测低浓度(
<1.0μg/L
)下的
Cr
6+
时存在显著误差,这可能是因为训练数据集没有包含该浓度范围。为了尽可能模拟真实的水环境,拓展模型的应用场景,我们利用天然水样模拟具体场景,进一步验证了
OMEA-ANN
对目标毒物的预测性能。水质背景调查结果显示,嘉陵江天然水样中
Cd
2+
、
Cr
6+
、
TCS
和
TCAA
浓度均低于检测限。在加标的天然水样中评估了
OMEA-ANN
模型对单一毒物、两种毒物混合物和三种毒物组合的检测性能(图
7B-I
)。通过建立预测值和实测值之间的线性关系,揭示了
OMEA-ANN
对加标样品中目标毒物具有良好的预测性能。单一毒物、两种毒物混合物和三种毒物组合预测的
R
2
值分别为
0.9205 ~ 0.9835
、
0.9092 ~ 0.9995
和
0.9062 ~ 0.9954
。通过实际水和加标样品验证了该模型的应用潜力,该技术可以作为传统检测方法的补充,提高定量分析的时效性和准确性
。