转
自:新污染物筛查与评估
题目:Statistical Mapping of PFOA and PFOS in Groundwater throughout the Contiguous United States
全氟和多氟烷基物质(PFAS)是合成化学品,近年来在地下水中被检测出的频率日益增加。人类接触PFAS会对健康造成负面影响,因此量化地下水系统中PFAS的分布十分必要。绘制PFAS分布图尤其具有挑战性,因为收集全国范围内的监测和报告文件需求会引起数据量少以及空间偏差等问题。在本文中,采用非齐次泊松过程(IPP)建模方法,从生态统计学角度整体绘制了美国地区地下水中PFAS的分布,该模型是根据8910个地下水PFAS测量值组成的独特数据集训练的。使用两种PFAS分析物的组合浓度,将IPP模型的预测结果与随机森林模型的结果进行比较,以突出该统计建模方法应用于数据量较少的数据集时的稳定性。该分析不仅为地下水中PFAS的污染分布绘制提供了新的方法,而且还为今后的采样工作提供了参考。
全氟和多氟烷基物质(PFAS)在环境中广泛存在并对生态系统和人类健康构成风险,近年来日益受到关注。这些合成化学品,其中许多表现出耐热、耐水和耐油的特性,已被广泛应用于各种工业和消费品中。各种日常用品中均含有PFAS,如不粘炊具,消防泡沫,防水服装和食品包装。随着PFAS的使用越来越普遍,人们对其持久性、迁移性和对健康的不良影响关注也越来越多。由于饮用水是健康影响的主要载体,了解和预测地下水中PFAS的分布对于减轻负面健康影响至关重要。
绘制和监测地下水中的PFAS污染是确保地下水管理决策能够减轻人类暴露的关键。然而,全国范围的地下水采样和数据收集仍然是一个挑战。PFAS化合物来源于各种各样的点源和非点源污染。点源包括消防泡沫、工业排放废物和垃圾填埋等污染,而非点源包括生物固体扩散和湿沉积等污染。由于PFAS进入环境的途径众多,很难确定PFAS的唯一污染来源;对水中低至万亿分之一(ppt)浓度的PFAS进行广泛采样和分析量化成本高昂且技术需求高,这些都限制了对PFAS的全面评估。
这些挑战在美国现有的监测框架中被进一步放大。在美国,PFAS的监测和管理主要由州级环境和自然资源机构监督,这导致采样和数据可用性的明显差异。这些监测和采样差异导致数据量较少、采样偏差和区域失衡,阻碍了成功绘制综合的全国PFAS风险图。
对于一些较小的区域研究,最广泛的方法是利用随机森林模型(RFs),这是一种结合了多个决策树的机器学习方法。RFs在地区尺度上对水资源和生态系统的PFAS具有较高的预测精度,但在国家尺度上,数据量少和采样偏差会给这些模型带来挑战。具体来说,RFs的设计并不是为了处理训练数据抽样的异质性;RFs通常假设每个数据都是来自相同的基础人群的独立提取,以证明RFs中的引导聚集过程是合理的。
在本研究中,受生态统计中植物和动物物种绘图模型的启发,开发了一种新的方法来模拟全国范围内地下水中的PFAS风险。PFAS数据量少和随机抽样问题与生态统计领域有很强的相似之处。例如,在构建特定鸟类的空间分布模型时,很难在一个区域内进行细致的网格搜索。因此,模型必须不规则地分散在感兴趣区域的观测位置。这些模型的开发是为了处理固有的抽样偏差,因为物种更有可能在有更多潜在观察者的地方被观察到,比如人口密度较高的地区或野生动物保护区。这种随机数据被称为“仅存在”数据,因为它只是从一个物种可以被目击的部分中收集的。与之对应的“存在-缺失”数据是通过对每个空间单元进行彻底的网格搜索,以检查生物体的存在和不存在而编制的。在使用“仅存在”和“存在-缺失”数据创建物种分布图时,生态统计学家会采用各种调整方法。本研究采用了一种这样的方法来绘制地下水中全氟辛酸(PFOA)和全氟辛烷磺酸(PFOS)的分布。
具体的生态统计模型称为非齐次泊松过程(IPP)模型。IPP模型由强度函数λ(p)控制,其中p表示区域内的空间观测或事件集。该强度函数表示在一个点周围小区域内的期望观测数。或者,它可以被解释为在一个给定点与另一个点相比观察到事件的相对概率。例如,如果一个点的强度是另一个点的两倍,那么在该点观察到事件的可能性是另一个点的两倍。基于强度函数λ(p)建立的IPP模型记为IPP(λ(p))。
除了强度函数λ(p)之外,还使用偏置函数来解释“仅存在”数据和“存在-缺失”数据的混合。“仅存在”数据是指地下水中绝大多数发生在已知或疑似受污染含水层的PFAS采样。“存在-缺失”数据被认为是进行了更系统的州级地下水测试的PFAS数据。与其他区域相比,偏差较大的区域更有可能被抽样。当考虑偏置函数时,IPP模型表示为IPP(λ(p)b(p)),其中偏置函数b(p)增强或减弱强度函数。
强度和偏置函数都依赖于一组空间协变量。本研究假设了一组15个协变量,这些协变量可能会影响强度和偏差。这样的假设是基于PFAS取样更有可能发生在疑似PFAS强度较高的地区,导致b(p)和λ(p)受到类似协变量的影响。考虑的协变量是到疑似PFAS来源的距离,例如需要进行消防训练演习的机场或定期训练含有PFAS的消防泡沫的军事基地、垃圾填埋场和各种生产或经常使用PFAS的制造商。这些来源可能造成的PFAS污染已得到充分记录。这些地点是使用诸如北美工业分类系统(NAICS)和设施注册服务等资源编制的,如图1的右图所示。除了潜在的PFAS来源外,协变量还包括水文过程信息(如降水)和人文地理信息(如人口密度和收入中位数)。利用这些协变量,我们使用最大似然估计法来预测模型的参数。
图1 (左图)8910个PFAS观测数据的位置。每1000平方英里至少有2个观测值,以及每1×1°像素内至少有一个观测值的状态被认为是“存在-缺失”数据,并用绿色突出显示。(右图)编译潜在的PFAS点源。
在本数据集中,PFAS观测值被定义为PFOS和PFOA的总和。选择这两种物质是因为它们是被报告的频率最高,并且是州和国家机构的明确监管重点。所有监测到的PFOA和PFOS总量大于8万亿分之一(ppt)的观测数据都被视为存在数据。例如,如果PFOA含量为8 ppt,而PFOS未被检测到,该样品将被归类为存在;如果有7 ppt的PFOA和0.9 ppt的PFOS,则样品不存在。虽然可能忽略了与每种分析物的个体关系,但将这两种分析物结合起来,可以更容易地研究协变量与地下水中PFAS的一般关系。利用组合浓度可以解释大部分的分析检测和报告标准,同时说明一般PFAS风险。选择8 ppt的阈值是为了与美国环境保护署(EPA)设定的PFOA和PFOS最大污染物水平(各4ppt)之和保持一致,以建立对地下水中PFAS的法律可执行限值。这些PFAS测量的范围和密度如图1的左图所示。
在8910个观测数据中,本研究假设如果来自若干州的数据中每1000平方英里至少有2个观测数据,每1×1°像素至少有一个观测数据,就被定义为“存在-缺失”数据。加利福尼亚州、科罗拉多州、马里兰州、马萨诸塞州、密歇根州、新罕布什尔州、新泽西州、北卡罗来纳州、俄亥俄州、罗德岛州、南卡罗来纳州、西弗吉尼亚州和威斯康星州符合这些标准,因此它们的数据被归类为“存在-缺失”。从其他州收集的更稀少和随机性的PFAS检测数据被归类为“仅存在”数据。为了加入美国地区的PFAS强度,随机生成了50000个点,以建立IPP模型的评估位置。选择随机生成点的数量,以在全国范围内提供足够的模型插值。这些点的数量足以制作国家地图。
除了IPP模型外,还使用同一组数据拟合了一个随机森林模型,以说明模型对稀少和偏差数据的稳定性差异。RF模型不是对物种强度进行估计,而是对在每个点观察到PFAS的机会进行概率估计。为了突出RF和IPP方法对随机收集数据的稳定性,另外一组模型被拟合成故意偏向的数据集。在这次比较中,最低PFAS浓度观测值的50%被删除,剩余的4455个观测值用于第二次IPP和RF模型的拟合。在所有情况下,相同的50000个随机生成的点被用于评估美国地区的模型。
RF模型在R(R版本4.3.2)中使用randomForest(4.7.1.1)软件包进行拟合,使用500棵决策树,每次拆分3个变量,最小节点大小为1,不限制最大终端节点的数量。100% RF模型的灵敏度为0.64,即64%的实际检出率被正确识别;特异性为0.81,即81%的未检出率被正确识别。50% RF模型的敏感性为0.97,特异性为0.36(表1)。
表1 100% RF模型(左)和50%RF模型(右)的混淆矩阵
拟合的IPP和RF模型都在相同的50000个随机生成的数据点上进行评估,以创建美国区域的地图。在建模点和5万个背景点之间使用三角形不规则网络(TIN)插值。在WGS 84坐标系下,利用QGIS软件进行绘图和插值。选择这个CRS是因为它是美国地质调查局用于绘制国家级地图的标准系统。用于分析的代码和数据可在存储库中获得。
IPP和RF模型在完整和偏向数据集下的结果如图2所示。图2中的左两幅图显示了IPP模型预测的PFOA和PFOS组合的无偏强度。上面的地图使用完整的数据集进行拟合,而下面的地图使用偏向的数据集,其中50% PFOA和PFOS的组合观测最低值未包括在模型中。强度图代表小范围内预期的PFAS检测频率。最大强度为1,即我们期望在一个单位像素(0.01×0.01°,约1.1公里× 1.1公里)内对PFOA和/或PFOS至少观测到一次的点。右边的两幅图显示了使用100%和50%的数据通过RF模型预测的PFOA和/或PFOS的观测概率。强度表示该地是否更容易检测到,而概率表示事件在给定位置发生的可能性。
图2 IPP模型预测的PFOA和PFOS组合强度(左)和RF模型预测的PFOA和PFOS组合检测概率(右)。使用100%的数据(上)或使用50%的数据(下)。
当使用所有可用数据比较地图时,IPP模型的稳定性十分惊人。这两个模型都正确地重点突出了已知存在PFAS风险的地区,如圣保罗,明尼苏达州,芝加哥,伊利诺斯州和其他工业化城市。然而,RF图过分强调了可获得更多观测数据的地区的风险。在RF图中,马萨诸塞州,新泽西州和西弗吉尼亚州比其余区域显示出更高的预测概率,因为相对于数据较少的区域,它们的测量量更大。在RF模型中,在收集数据点较少的区域,出现了另一个明显问题。尽管距离潜在源头很远,对PFAS的观测也很低频,但内华达州的农村地区、落基山脉北部和大平原北部仍被RF模型标记为高风险地区。相比之下,从局部地区的高强度预测可以看出,IPP模式的预测更加具体。
在使用偏向数据的分布预测中,IPP模型的稳定性更加明显。RF模型受到引入偏向的严重挑战,失去了大部分特异性,并突出显示几乎每个区域的PFAS概率都接近1。另一方面,IPP模型产生的强度预测与使用完整数据产出的模型几乎相同。
除了强度估计之外,IPP模型还输出了抽样偏差的估计。偏置函数b(p)表示在“仅存在”数据中,p点附近的PFAS观测值的期望比例。本质上,假设两个点具有相同的强度,较大偏差的点将比另一个点检测出更多的PFAS。因此,估计的偏置函数评估了PFAS测试中的随机抽样模式,并可用于确定最适合进行额外地下水采样的区域。
为了进一步检验IPP模型并说明潜在的实用价值,图3显示了基于百分位数的PFAS强度着色。最暗的蓝色区域意味着该区域预期观测的PFAS强度大于99%,而白色区域低于50%。这张地图不仅正确地识别了图1中观察到的地下水样本群组中的PFAS,它还识别了提供数据较少(如果有的话)的区域。尽管仍缺乏PFAS观测数据,这张地图也突出了许多PFAS风险在逐渐升高的地区,为未来的采样规划进行准备。例如,虽然华盛顿中部只有有限的地下水采样数据,但高PFAS强度可以为PFAS生态系统和生物积累研究提供信息和证实。
此外,对特定协变量的分析可以在没有此图的情况下检查PFAS风险。例如,影响PFAS强度的最强协变量是到军事基地、皮革制造商或垃圾填埋场的距离。随着与这些设施的距离增加,在某一地点观测到PFAS的强度和可能性就会降低。
IPP模型的实用性远远超出了它对偏向和有偏差数据的稳定性。通过取相对位置的比率,PFAS强度很容易转换为一个更可解释的相对风险度量。例如,如果一个像素点的强度是另一个像素点的两倍,那么观察到PFAS的风险就会增加一倍。马萨诸塞州波士顿市在PFAS文件和管理方面有大量的水样和公开可用的数据,因此它可以用作计算美国地区相对风险的基准。图4显示了美国其余地区相对于马萨诸塞州波士顿市的相对风险。将波士顿城市边界的平均强度(如图4所示)作为参考,相对风险为1。与波士顿相比,地图上的红色区域观测到PFAS的机会是波士顿的两倍或更多,而蓝色区域的机会相对可以忽略不计。这个相对风险的例子不仅可以在国家层面进行,而且可以在地方层面进行。这对于在地方、区域或国家范围内分配采样、修复和其他技术资源尤其有价值。
图4 PFOA和PFOS组合检测的相对风险与马州波士顿市的平均值(上)和波士顿市的近距离观察(插图)对比图。相对风险最大值为2。
原文链接:
https://doi.org/10.1021/acs.est.4c05616
说明:本推送只用于学术交流,如有侵权,请联系删除
。