专栏名称: 走天涯徐小洋地理数据科学
一个爱生活的地理土博,分享GIS、遥感、空间分析、R语言、景观生态等地理数据科学实操教程、经典文献、数据资源
51好读  ›  专栏  ›  走天涯徐小洋地理数据科学

基于多源遥感数据自优化机器学习方法的城市河流水质监测

走天涯徐小洋地理数据科学  · 公众号  ·  · 2025-02-05 15:38

正文

分享一篇论文,里面用到了空天地一体化的方法不错。

Chen P, Wang B, Wu Y, et al., 2023. Urban river water quality monitoring based on self-optimizing machine learning method using multi-source remote sensing data[J/OL]. Ecological Indicators, 146: 109750. DOI:10.1016/j.ecolind.2022.109750.

摘要

城市河流是复杂的生态系统,直接决定着人类的生存环境,城市河流水质指标的监测是水质评价中的一项挑战。本研究旨在提出一种基于少量样本的多源遥感水质反演方法,解决多源遥感数据之间尺度不一致的问题,实现城市河流水质的大规模高效反演。针对水质反演中需要解决简单地面点数据与遥感数据之间复杂的非线性关系这一重要问题,提出一种自优化机器学习监测方法,可以从少量样本中自动寻找模型的最优参数,减少训练时间。同时,为了加强水质参数与遥感数据之间的相关性,采用特征增强方法生成输入数据。此外,为了解决多源数据数量和质量的问题,利用空间映射方法实现水质信息的一致性,因为这些数据具有不同的非线性特性。实验结果表明:对于无人机影像,叶绿素a (Chla)、浊度(TUB)、氨氮(NH 3 -N)的R 2分别可达0.917、0.877、0.846;对于卫星影像, Chla、TUB、NH 3 -N的R 2分别可达0.827、0.679、0.779。该方法为今后实现城市内陆河流空地一体化监测提供了一种新途径。

引言

河流是城市成长的必需品,城市河流为城市提供了丰富的水源,作为交通通道在城市经济发展中发挥着重要作用( Larsen等,2016 )。然而随着城市化进程的加快,城市规模迅速扩大,大量人口向城市迁移,导致大量生活污水、工业废水排入城市河流,这些问题削弱了城市水生态系统,水质不断恶化( McGrane,2016;Miller and Hutchins,2017 )。量化水质参数浓度是未来城市河流水质监测和污染源调查的重要途径。遥感技术是监测城市河流水质的重要手段之一,但存在样本量不足、多源信息尺度不一致等问题。解决这些问题将为环保部门、城市规划部门和水利部门合理利用水资源、防治水污染提供科学依据。

目前,采样点水质参数浓度主要通过单点监测确定(Mentzafou等,2019;Yamaguchi和Fujii,2020),该方法虽能准确检测出各项水质指标浓度,但费时费力,且应用后无法追溯污染来源(He等,2021)。遥感技术具有时效性高、监测范围广等优势(Schaeffer等,2013),结合实测水质数据,可应用于水质参数的定量反演,弥补传统水质监测的局限性,在长期和大尺度上反映水质在时空上的分布规律(Arabi等,2020;Gohin等,2019)。随着遥感技术的不断发展,基于遥感的水质监测已从定性分析走向定量分析(Pahlevan等,2017)。由于研究目标和研究区域地理位置的差异,为提高水质参数浓度的反演精度,学者们考虑选取不同的遥感影像数据进行水质浓度的定量反演(那志强等,2021;群欧等,2021;谢志强等,2006)。例如在利用Sentinel-2影像反演总氮(TN)、NH3-N(董文等,2020)、利用GF-1C影像反演总磷(TP)(陆志强等,2020)中,反演结果均表现出较高的精度。虽然卫星遥感数据可以监测大面积的水体,但由于分辨率较低,无法获取像元的真实值。同时实测数据有限,导致对卫星数据的反演效果不理想(Xu et al.,2020)。无人机具有成本低、灵活性强、低空飞行等特点,搭载在无人机上的高分辨率多光谱相机能够不受云层影响,提取小微水体的高质量光谱信息,且反演精度较高,间接说明了无人机水质遥感反演的实用性(Chen et al.,2021;Lu et al.,2021;Pyo et al.,2022),但也受到采集范围的限制(Wei et al.,2020)。

遥感水质反演方法的原理是结合光谱信息和水质参数浓度信息构建反演模型,将光谱信息转化为相应水质指数的浓度( Ampe等,2015 )。传统水质反演方法主要通过实测水质数据与遥感反射率的相关性分析建立回归模型,选取不同波段或波段组合建立回归公式,常用的模型主要有线性、多项式、对数、指数等( Yu等,2016 )。但这类基于统计学原理的方法往往每次水体监测都需要大量的数据,甚至需要重新构建模型,得到的数据集不一定符合线性回归模型的要求,可能存在非线性关系,比如复杂的城市内陆河流。机器学习是水体监测领域的一种流行方法(Zhang et al.,2022),拥有众多算法,例如支持向量机(SVM)(Tang and Huang,2021)、随机森林(RF)(Liu et al.,2021)、反向传播(BP)神经网络和套索回归(Hou et al.,2022),并且可以通过对这种非线性规律进行编码,将多个输入特征相乘以构造特征组合,从而解决复杂的非线性关系(Hadjisolomou et al.,2021)。机器学习技术已被开发用于识别和预测藻类。例如,一些学者采用改进的ANN和SVM方法来准确预测海洋藻华的生长和富营养化,但SVM需要更多的训练时间(Deng et al.,2021)。机器学习在监测水质指标中的非水色参数时也表现出独特的优势(AlDahoul等,2022;Alizadeh等,2018)。例如,利用当前先进的机器学习算法BP和RF实现了总氮、总磷和化学需氧量浓度的高精度反演。这些机器学习方法可以对Chla、TUB、NH3-N、TP、TN等取得较好的反演结果(Kouadri等,2021;Shamshirband等,2019)),同时,水质参数浓度与遥感反射率之间的非线性映射关系能够被训练数据很好地拟合出来,这说明机器学习比传统回归模型具有更明显的优势,但是机器学习中参数较多,在参数优化过程中往往需要相当长的调整时间(Kim等,2014)。

CatBoost是一种基于对称决策树作为基学习器的梯度提升算法(Prokhorenkova等,2017)。该算法参数少,可以处理分类特征变量(Jabeur等,2021),解决了梯度偏差和预测偏移的问题,减少了过拟合,提高了模型的总体性能。CatBoost模型在水质反演领域有很好的应用(Grbčić等,2022),另外在少量样本上训练也能取得良好的效果,但模型的参数选择会对预测结果产生很大的影响。模拟退火算法在搜索过程中加入了随机因素,使其能够从局部最优解中获得全局最优解(Wanling等,2012)。

本研究构建了一种利用少量样本实现城市河流水质参数多源遥感水质反演的方法。利用空间映射机制将无人机影像的反演结果信息映射到对应的GF-1C影像上,构建反演模型。同时,为了提高反演精度和模型的预测能力,设计了自优化的机器学习算法,实现模型参数的自动寻优。在模型的输入部分,利用特征增强使得输入的特征更适合模型训练。传统卫星反演在少量实测样本下精度不高,而无人机影像水质反演会存在区域限制的问题。因此,利用少量样本实现多源遥感水质反演,解决了无人机影像反演水质时区域限制的问题,扩大了城市窄河道的反演区域,提高了卫星影像的反演质量。本文的最终目的是构建一种利用少量实测样本实现城市河流整体反演的方法,为污染溯源提供可靠依据。

研究区和数据处理

研究区概况

南淝河位于合肥市境内(北纬31°30′—32°37′,东经116°40′—117°52′),是长江流域巢湖的一条支流,全长70km,流域面积1544km2 (方建军等,2022)(图1)。该河发源于合肥市西北部大千山以南,流经合肥市主城区。南淝河地区年平均降水量约1000ml,年平均气温约15.7℃。由于工业和城镇化的快速发展,越来越多的污染物被排入南淝河,对人类水安全构成严重威胁。

图1.研究区域位于合肥市。

自董铺水库建成后,南淝河上游断流,此后南淝河市区段主要补水来源为降水和经污水处理厂处理的尾水。选取南淝河A、B区作为采样区。南淝河A区位于合肥市区,周边为居住与商业用地混合区,其水质直接影响水安全。B区位于巢湖入湖口,沿河周边主要为传统农田。同时,巢湖是我国“三河三湖”水污染防治的重点湖泊之一,按照“治湖先行、治河先行”的战略,南淝河污染防治

水质参数采集

南淝河流经合肥市主城区,河流长度范围较大,水质状况复杂,无人机飞行范围有限。为保证样品的代表性,选取南淝河靠近城区的区域A和巢湖入海口的区域B作为典型区域,采样点均匀分布(图2),同时在不同支流的交汇处也布设了采样点。使用标准采样瓶,在水面以下50 cm深处采集600 ml水样,利用手持RTK设备获取下游采样点的经纬度坐标。水体中部封闭区域内船舶无法航行,在无法获取采样点准确经纬度时,尝试使用无人机悬挂采样瓶进行样品采集,以最大程度提高采样点坐标的准确性。采用浊度仪现场测定TUB浓度,剩余水样带回实验室冷藏保存,按照国家标准方法测定Chla和NH 3 -N浓度。

图2采样点分布。

多源遥感数据采集与预处理

2021年9月18日,我们在南淝河A、B区域采集了无人机影像。本次实验数据采集所采用的多轴无人机搭载了带有红边波段的多光谱相机(图A.1),可获取5个光谱波段的多光谱影像:蓝(b1)、绿(b2)、红(b3)、红边(b4)、近红(b5)。考虑到无人机飞行距离较小,且自身有POS信息,搭载高精度差分GNSS板卡,实现无像控点高精度坐标定位。

由于无人机在飞行过程中姿态、速度可能发生变化,同时受到大气效应和传感器本身特性的影响,获取的图像会产生几何畸变和辐射畸变。因此需要对原始图像进行预处理,消除这些误差的影响。无人机多光谱图像预处理主要包括波段配准、空中三角测量、正射影像镶嵌、辐射校正、反射率计算等步骤。

本研究使用的GF-1C卫星数据通过安徽高分中心获取。GF-1C卫星于2018年3月31日成功发射,全色波段空间分辨率为2 m、多光谱波段优于8 m,单颗卫星成像幅宽超过60 km。综合考虑采样时间和图像质量,选取2021年9月23日的GF-1C影像,与采样时间相差5天(表1)。

这5天没有出现明显降水或其他极端天气事件,仍在可接受范围内。GF-1C影像的预处理包括辐射校正、大气校正、正射影像校正、影像融合和几何校正。为提高遥感影像水质定量反演的精度,采用密集局部特征压缩(DLFC)网络方法提取影像的水体,提高水体边界的精度(李等,2021)。与其他水体提取方法相比,DLFC网络具有更高的提取精度。只需要一个训练集就可以从不同的遥感影像中提取水体。最后利用研究区的矢量文件对研究区内的水体进行裁剪。

研究方法

本文整体工作流程(图3)中,利用特征增强的方法,构建多种相关性较高的特征组合作为模型的输入。考虑到多源数据尺度的不一致性,将采样点的水质信息通过反演转移到无人机影像的每个像素上,再将无人机影像反演结果映射到对应卫星影像的像素位置上。扩大卫星样本量也消除了部分混合像素的影响,提高了卫星影像的反演效果。在样本数据质量提升之后,构建了CatBoost模型,在样本稀疏的情况下自动寻优模型参数,可应用于本文的多源数据的水质反演中,减少过拟合问题,提高模型对不同数据的预测和泛化能力。

图3.多源遥感 水质监测工作流程。

特征增强

水质参数种类和浓度的差异直接影响水体光谱的反射特性。根据采样点水质参数浓度与对应的光谱反射率绘制水面光谱反射曲线(图A.2)。由图可知,采样点光谱曲线在绿光和边缘波段出现波峰,这主要是由于Chla、NH 3 -N、TUB在这些波段的吸收率较低;而在红光波段,吸收率较高,形成波谷。水质参数浓度反演的主要原理是选取对水体中水质参数浓度变化敏感的波段或波段组合构建反演模型。

无人机影像波段滤波与组合

对采样点水质参数浓度与对应位置的无人机影像各波段反射率进行Pearson相关性分析,结果表明单波段数值与Chla浓度呈负相关。在此基础上构建了多个波段组合,波段组合的相关系数越高,与水质参数浓度的拟合程度越好,因此选择相关系数大于0.75的波段组合作为模型的输入。单波段与NH 3 -N浓度呈正相关,相关系数在0.479~0.585之间。随后在构建的波段组合中筛选出7个相关系数大于0.557的波段组合,单波段数值与浊度呈正相关,且相关性很高,4个波段的相关系数均大于0.8,最低值为0.71。从构建的波段组合中,选取相关系数大于0.8的8个波段组合作为模型的输入,具体选取的波段组合及其相关系数如表2所示:







请到「今天看啥」查看全文