专栏名称: 生态修复网
中国生态修复网致力于发展成为中国生态修复产业最具影响力和公信力的网络媒体,为中国的生态修复产业提供科研、技术、政策、市场、投融资、管理等全方位的资讯服务,以期推动中国生态修复产业化的可持续发展,做中国生态修复产业化的创导者和践行者!
目录
相关文章推荐
人民日报  ·  【夜读】新年开工第一天,布局你的2025 ·  22 小时前  
新闻在线  ·  全网关注的“白衣小哥”,获表彰! ·  4 天前  
新闻在线  ·  全网关注的“白衣小哥”,获表彰! ·  4 天前  
环球人物  ·  催婚又催生,日本未来天皇一样也躲不过 ·  5 天前  
51好读  ›  专栏  ›  生态修复网

【专家视角】李国锋, 于金秋,等 | 基于机器学习的重金属毒性及生态风险预测

生态修复网  · 公众号  ·  · 2025-01-19 06:00

正文

基于机器学习的重金属毒性及生态风险预测

李国锋 1,2,于金秋 1,2,王 宏 1,池海峰 1,2,林姗娜 1,蔡 超 1* 

(1.中国科学院城市环境研究所,城市环境与健康重点实验

室,福建 厦门 361021;2.中国科学院大学,北京 100049)

摘要:以土壤典型重金属镉(Cd),铜(Cu),铅(Pb)和锌(Zn)为研究对象,蚯蚓为土壤模式生物,采用文献法搜集已发表论文中重金属对蚯蚓繁殖的半数有效浓度(EC50

)与所对应的土壤理化性质数据共113组,分析不同数据间关联性,揭示土壤理化因子对重金属生物毒性的影响规律.利用随机森林(RF),梯度提升决策树(GBDT),极限梯度提升(XGBoost),K 近临(KNN)和支持向量机(SVR)5 种机器学习算法构建机器学习模型,研选最佳模型并开展我国土壤重金属潜在生态风险阈值预测.结果表明,重金属在不同类型土壤中毒性存在显著差异,重金属对蚯蚓的繁殖毒性强弱趋势表现为 Cd>Cu>Pb≈Zn.不同土壤理化性质对重金属生物毒性的影响规律不同,其中土壤 pH 值是影响重金属 Pb 和 Cd 的主要因素,对重金属蚯蚓繁殖毒性变化的贡献率分别为 57.2%和69.0%;阳离子交换量和有机质含量则分别是重金属 Cu 和 Zn 生物毒性的主要影响因子.从模型拟合优度和预测精度对比分析基于土壤理化因子构建的重金属生物毒性机器预测模型的性能,XGBoost 模型对 Cd,Cu 和 Zn 的生物毒性预测表现较好,而 RF 模型对 Pb 的生物毒性预测更准确,训练集和测试集的 R2分别达 0.939 和 0.886.利用研选的重金属生物毒性预测模型开展我国 34 省土壤中重金属生态风险阈值预测,结果发现不同区域土壤潜在生态风险存在明显差异.研究结果可为基于土壤理化性状的重金属生态毒性和潜在生态风险的准确预测与合理评估提供了新的策略.

关键词:机器学习;土壤;重金属;理化性质;生物毒性;生态风险评价

土壤重金属污染风险已成为我国生态环境领域关注的重大问题[1].土壤中镉(Cd),铜(Cu),铅(Pb)和锌(Zn)等典型重金属生态风险的精准评估有赖于合适的评估指标和方法.蚯蚓作为土壤污染的敏感指示生物和土壤生态毒理研究的模式生物,其生存和繁殖状况等能有效反映重金属污染对土壤生态系统的影响程度[2].传统的蚯蚓生物毒性实验可直接测定污染物毒性,但由于不同土壤中污染物的生物有效性不同造成其生物毒性存在显著差异,污染物毒性测试通常需要重复开展,大幅增加了研究时间和经济成本.在过去几十年中,科研人员通过在实验室内开展生物毒性测试工作,累积了大量土壤重金属的毒性研究数据.如何利用已有的毒性数据实现污染物的生物毒性预测是解决上述问题的重要途径,是目前生态毒理学领域的研究热点和难点之一.
土壤理化性质与重金属生物有效性和毒性密切相关,其中土壤 pH 值,有机质(OM)含量,阳离子交换量(CEC)和粘粒(Clay)含量是影响重金属生物毒性的关键因素.土壤 OM 含量和重金属 Cu,Zn,Pb 和Cd 的生物毒性呈极显著负相关关系(P<0.01)[3];Zn的生物毒性则受土壤 pH 值和 OM 含量共同影响[4];研究发现,土壤中 Pb 对大麦的毒性效应与土壤 pH值,OM 呈极显著正相关(P<0.01),与 CEC 含量呈显著负相关关系(P<0.05)[5].有研究报道采用传统多元回归方法构建了污染物毒性预测模型,但模型预测的精度,普适性等还有待进一步提高[6-7].
近年来,机器学习(ML)在环境领域的应用受到了广泛关注.作为一种揭示复杂系统中隐性关系的有效工具,ML 具备实用性,高效性和鲁棒性等优点,已成为诸多环境学科预测建模的主要方法[8].在污染物毒性预测方面,ML 算法具有良好的泛化能力,可弥补传统多元回归方法在预测模型构建中潜在的过拟合问题[9].常用的ML算法包括K近临(KNN),随机森林(RF),支持向量机(SVR),极限梯度提升法(XGBoost)和梯度提升决策树(GBDT)等,可用于不同场景污染物生物毒性预测.研究发现,SVR 模型相比种间相关评估模型对内分泌干扰物繁殖毒性的预测结果更加准确[10],弹性网络回归法在有机化学品对稀有鮈鲫的急性毒性预测中表现出较好的准确性,稳健性和预测能力[11],而 XGBoost 模型算法相比 RF 和 SVR 模型算法能较好地预测沉积物中重金属(Cr,Cu,Pb和Zn)的生物毒性[12].目前ML方法已成功用于部分污染物的水生生物毒性预测模型构建,但在土壤污染物生态毒性预测的应用和适用性仍有待进一步研究.
本研究选择土壤模式生物蚯蚓作为研究对象,搜集整理文献报道的不同性质土壤中重金属生物毒性研究数据,统计分析不同重金属的生物毒性差异,探讨土壤理化因子对重金属生物毒性的影响规律;对比分析多种机器学习算法在重金属生物毒性预测方面的应用效果,研选重金属生物毒性预测的最优拟合模型,并对我国各省市土壤重金属生物毒性进行预测并评估潜在生态风险,以期为土壤重金属生态毒性准确预测和生态风险合理评估提供新的策略.



1. 材料与方法




1.1 数据获取,筛选与处理

采用 Web of Science 文献数据库开展文献检索,检索关键词如下:TS=[(soil) AND (earthworm) AND(heavy metal OR metals OR lead OR Cadmium ORCopper OR Nickel OR Zinc OR Pb OR Cd OR Cu ORNi OR Zn) AND (toxicity)].设置的检索时间限定为1980~2024 年,所有文献的检索日期为 2024 年 5 月 1日,选定文献类型为 Article.通过检索,对获取到的1846 篇文献进行筛选,查找文献中报道的重金属(Cd,Cu,Pb 和 Zn)对蚯蚓繁殖的半数有效浓度(EC50)和对应的土壤性质[土壤 pH 值,有机质(OM)含量,阳离子交换量(CEC)和粘粒(Clay)含量]数据;删去非自然土壤数据(即人工配置土壤),共筛选出 23 篇文献,113 组毒性测试规范且信息较全面的数据,采用取对数的方法对获取的数据进行标准化处理,以便后续开展比较分析和模型构建.
1.2 机器学习方法
以土壤环境因子(pH 值,OM,CEC 和 Clay)的对数值作为自变量,土壤中重金属 lgEC50 作为因变量,根据不同的重金属,将数据集分成 Cd,Cu,Pb 和 Zn 4个子集,每个子集按照 7:3 的比例随机划分训练集和测 试 集 . 采 用 RF[13],GBDT[14],XGBoost,KNN[15] 和SVR[16]5 种机器学习算法开展基于土壤物理化学性质的重金属生物毒性预测分析,建立污染物生物毒性预测模型.
获取的机器学习回归模型采用拟合优度法进行检验,统计学指标为决定系数(R2)和均方根误差(RMSE) [17].决定系数的计算公式如下:

1.3 我国土壤重金属潜在生态风险阈值预测

从文献收集我国 34 省级行政区典型土壤理化性质数据,包括土壤 pH 值,OM,CEC 和 Clay 含量.利用优选的机器学习模型开展重金属生物毒性预测分析,确定各地区土壤中重金属 EC50值.基于对生态系统持续性和稳定性考虑,选择污染物的预测无效应浓度(PNEC)作为污染物生态风险阈值,用于污染物生态风险评价.PNEC 值采用评价因子外推法推导 [19],计算公式如下:

1.4 数据分析 

采用 SPSS 25.0 软件对土壤重金属对蚯蚓繁殖 的半数有效浓度及其对应土壤性质数据进行统计 分析,包括描述性分析,正态分布检验和 Spearman 相 关分析.使用R v4.2.2和R-Studio对重金属生物毒性 数据进行相对重要性分析,预测模型构建和重金属对蚯蚓毒性阈值预测.数据可视化在 ORIGIN 2024 中实现.



2.结果与讨论




2.1 土壤重金属生物毒性数据特征分析

对文献法获取的有效数据进行整理分析,最终筛选到 113 组自然土壤性质及重金属对蚯蚓繁殖毒性数据.自然土壤物理化学性质相关的指标包括 pH值,OM, CEC和Clay含量,数据基本情况如表1所示.研究人员在 pH 值范围为 3.0~8.9 的土壤中以蚯蚓作为模式生物开展了重金属慢性毒性试验,其中50.4%为酸性土壤(pH<6.5),中性土壤(pH=6.5~7.5)和碱性土壤(pH>7.5)分别占所有土壤的 31.9%和17.7%,在受试土壤 pH 值范围内,蚯蚓可以较好的生长,发育和繁殖[21].土壤有机质含量变化较大,最高值可达 20%,该土壤样本采集于林地,林地枯落物是土壤有机质的主要来源.土壤阳离子交换量为 0.60~75.80cmol/kg;受试土壤中粘壤土(Clay>25%)类型最多,占总样本数的 42.5%,砂壤土(Clay<15%)和粘壤土(Clay=15~25%)的样本数分别占 33.6%和 23.9%.

不同类型土壤中重金属的生物毒性存在显著差异,重金属 Cd,Cu,Pb 和 Zn 对蚯蚓繁殖的半数有效浓度(EC50)分布如图 1 所示.重金属 Cd 和 Cu 在不同类型土壤中毒性变化较小,其 EC50 变化范围为66.52~263.48mg/kg 和 27.7~778mg/kg;而 Pb 和 Zn在土壤介质中对蚯蚓的毒性变化较为显著,其中重金属 Pb 的 EC50最大值和最小值差异达 48 倍以上,因此采用实验室经单一介质获取的污染物毒性参数难以准确评估实际土壤的生态风险.此外,不同重金属对蚯蚓的繁殖毒性也存在显著差异.显著性差异分析表明,Cd 的 EC50显著低于 Cu (p<0.05),而 Cu的毒性则显著低于 Pb 和 Zn (p<0.05),重金属对蚯蚓毒性影响表现为 Cd>Cu>Pb≈Zn,这可能是不同重金属对蚯蚓的毒性作用机理不同导致.室内模拟实验结果也表明 Cd 对蚯蚓的急性和慢性毒性显著高于Pb[7].此外,Cd 和 Cu 的高毒性可能是其易于生物富集的特性导致,相比 Pb 和 Zn,污染土壤中蚯蚓对 Cd和 Cu 有明显的富集效果[45];同时有研究发现,蚯蚓(Eisenia fetida和Allolobophora parva)对重金属的累积效应表现为 Cd>Pb>Zn[46].

2.2 土壤理化性质对重金属生物毒性影响 

土壤理化性质是影响重金属生物毒性的关键 因素[47],Spearman 相关分析发现土壤重金属对蚯蚓 繁殖的半数有效浓度与多种土壤性质间存在显著 相关关系(图 2).分析结果显示 pH 值是影响土壤中 Cd和Pb生物毒性的主要因素,与重金属对蚯蚓繁殖 的 EC50 呈极显著正相关关系(R2 =0.77 和 0.73,  p<0.01),这与其他学者的研究结果相符[9,22].此外,土 壤 OM 含量与重金属 Zn 和 Cu 的 EC50分别呈极显 著正相关关系(R2 =0.63,p<0.01)和显著正相关关系 (R2 =0.33,p<0.05);土壤 CEC 含量与 Cu 的 EC50呈极 显著正相关关系(R2 =0.40,p<0.01),该结论与 Criel 等 [27]的研究结果一致,高 CEC 土壤可通过离子交换 作用吸附游离的 Cu2+,降低其生物有效性及毒性[48].  Owojori 等[49]研究发现重金属 Cu 的毒性随土壤粘 粒含量的增加而降低,然而在本研究中 Clay 含量与 重金属生物毒性没有呈现显著相关关系,这种差异 可能与土壤类型数量有关.
为深入了解不同类型土壤的重金属毒性变化规律,应用随机森林算法对影响重金属生物毒性的土壤理化因子的相对重要性进行分析排序,结果如图 3 所示.
4种土壤理化因子中,土壤pH值是影响重金属Cd和 Pb 毒性的主要因素,与 Lanno 等[9]的研究结果一致,土壤 pH 值对不同土壤中 Cd 和 Pb 生物毒性变化解释的贡献率分别为 57.2%和 69%,其它因素贡献率均低于 20%.Spurgeon 等[50]研究发现,随着土壤 pH 值的升高,Cd对蚯蚓繁殖毒性下降,这是因为重金属的生物有效性降低所致.重金属Cu对蚯蚓的毒性主要受土壤中CEC 和 pH 值影响,两种理化因子对 Cu 毒性变化解释的贡献率为 64.8%;土壤 OM 和 Clay 作为次要影响因素,它们的贡献率为35.2%.土壤OM是重金属Zn生物毒性的主要影响因素[4],对 Zn 毒性变化解释的贡献率 为 40.4%.小分子有机酸,胡敏素等土壤有机质组分中 存在大量活性氧官能团,可以通过金属螯合作用与金 属离子形成络合物沉淀产生固定作用[51],降低重金属的生物有效性及其毒性.总体而言,土壤中重金属的生物毒性与土壤理化性质密切相关,土壤性质差异会导致重金属生物毒性出现显著变化.

2.3 基于机器学习算法的重金属生物毒性预测模型

为了构建基于土壤理化因子的重金属生物毒性预测模型,将数据集按照 7:3 的比例随机划分为训练集和测试集,分别采用 5 种机器学习算法建立预测模型,并对不同模型进行评估,拟合结果如表 2所示.一般认为模型的 R2>0.5,且 RMSE 接近 0 时,模型具有较好的拟合效果和稳健性[52].据表 2 结果,GBDT 与 XGBoost 对 Cd,Cu,Pb 和 Zn 的生物毒性预测表现优异(训练集 R2>0.9,RMSE<0.1;测试集R2>0.5,RMSE<0.27),说明梯度提升算法对基于土壤性质的重金属生物毒性预测具有较好的适用性.此外,RF 算法在重金属生物毒性预测方面也表现出良好潜力,训练集和测试集 R2 分别为 0.792~0.939 (RMSE<0.15) 和 0.543~0.886(RMSE<0.25).RF 算法具有较强的非线性处理能力,开展 RF 模型不需对数据的正态分布和独立性等进行检验,也没有变量共线性问题[53],因此在处理重金属生物毒性与土壤理化因子之间的复杂非线性关系时能取得较好的效果.RF 模型已在重金属生物富集系数预测中得到了应用[54].而 KNN 模型在 4 种重金属生物毒性预测中决定系数 R2均小于 0.5,表明 KNN 算法在基于土壤理化性质的重金属毒性预测中表现较差.尽管 SVR 模型在 Cd 的毒性预测中表现出一定潜力(训练集 R2>0.5),但对多数重金属的毒性预测效果较差.
基于 5 种机器学习算法的最优训练模型,对数据集进行预测,同时评估模型预测效果.不同重金属生物毒性预测值和实测值的拟合效果见图 4,对应的评估指标见表 3.RF,GBDT 和 XGBoost 是基于决策树的集成模型,具有预测效率高且抗过拟合等优势 [12].研究结果表明RF,GBDT和XGBoost算法训练的预测模型均能较好地确定土壤理化因子和重金属生物毒性的性能关系(R2>0.75),其中 XGBoost 模型对重金属 Cd,Cu 和 Zn 的毒性预测表现最佳;而在Pb 蚯蚓毒性的预测中,RF 模型的表现最佳,能更准确的预测重金属生物毒性(R2=0.929).KNN 和 SVR算法可以较好的解决非线性,高维数据等分类和回归的实际问题,然而模型的预测精度往往受噪声影响较大[16].相较于 RF,GBDT 和 XGBoost 模型, KNN和 SVR 算法训练的预测模型对重金属生物毒性预测的表现较差(R2<0.5).综合分析各种利用机器学习算法构建的基于土壤理化因子的重金属生物毒性预测模型,本研究选择 Cd,Cu 和 Zn 的 XGBoost 模型和 Pb 的 RF 模型为重金属毒性预测最优模型,开展后续毒性预测.

2.4 我国不同区域土壤重金属潜在生态风险预测

采用文献法收集我国 34 个省级行政区的自然土壤理化性质数据,结果如表 4 所示.其中 pH 值范围在 5.2~8.6 之间,主要为酸性(41.2%)和碱性土壤(38.2%),呈“南酸北碱”的空间分布特征;土壤有机质含量为 0.72%~3.73%,中部地区土壤有机质含量最低,而西南和东北地区较高;我国东北地区土壤CEC 含量较高,南部沿海地区较低;土壤样本粘粒含量占比为 14.44%~55.5%,主要为粘壤土和粘土,其中高粘粒含量土壤主要分布在我国西部和中部地区.我国各地区性质差异明显的土壤导致不同区域的重金属毒性差异,但各行政区土壤的生物毒性阈值尚不明确[55].基于研选的最优预测模型开展我国不同区域土壤重金属生物毒性预测,结果如表 4 所示.受土壤物理化学性质影响,重金属在不同土壤中对蚯蚓繁殖的半数有效浓度存在显著差异.重金属 Cd的生物毒性受土壤性质影响较小,其 EC50 预测值为78.16~159.36mg/kg.而 Cu,Pb 和 Zn 的生物毒性效应在不同土壤中表现出较大差异,EC50 预测值分别106.56~617.53mg/kg,285.14~1110.37mg/kg 和 317.64~1588.52mg/kg.不同重金属对蚯蚓的生态毒性表现为 Cd>Cu>Pb≈Zn (p<0.05).
蚯蚓作为土壤污染的“检测员”,对土壤环境变 化十分敏感,因此常被用作监测和指示土壤污染的 优选模式生物,污染物对蚯蚓繁殖的 PNEC 作为毒 性阈值常被用于评估土壤潜在生态风险,毒性阈值 越小,该地区潜在生态风险越强.利用研选的重金属 生物毒性的机器学习预测模型,开展我国各省市自 然土壤生态风险阈值预测,结果如图 5 所示.考虑到 评估因子法获取的预测无效应浓度存在一定的保守性[19],本研究中重金属的生态风险阈值仅用于趋势和定性分析.研究结果显示,我国各省级行政区的土壤重金属潜在风险存在显著差异.土壤重金属 Cd和 Pb 在我国北部地区的潜在生态风险阈值显著低于南部地区,这与前人[60-61]开展的研究结果一致,这主要是由于我国北方土壤 pH 值显著高于南方土壤.重金属 Cu 的高潜在风险区域主要为我国中部地区,特别是宁夏和河南地区,然而在北部和西南地区重金属 Cu 的潜在生态风险显著降低,这可能由于这些地区土壤中大量有机质吸附土壤中 Cu,使其有效态含量及毒性下降.Duan 等[25]通过生物毒性试验对比了我国不同地区土壤中 Cu 的生物毒性,结果也表明Cu在河南省土壤中对蚯蚓的毒性效应浓度(EC10)显著低于北方的黑龙江和吉林省,说明该地区有更高的潜在生态风险.陕西省则需要更多关注重金属 Zn带来的生态风险,王巍然等[4]的研究也提出了相似的分析结果.不同土壤类型中,重金属的生态风险阈值存在显著差异,利用土壤理化因子数据开展重金属生物毒性和生态风险阈值预测,有助于科学评估各地区的生态风险.




3. 结论








请到「今天看啥」查看全文