摘要
:针对坑塘水体难以与其他众多水体类型区分的问题,本研究以Sentinel-2影像为数据源,提出了一套适用于多水体类型地区从水体到坑塘水面的精确提取规则:①选择最优水体指数对研究区水体进行提取;②通过形状指数、面积、湖泊水库数据等规则对非坑塘水面进行剔除。结果显示,根据本文所构建的坑塘提取规则在2019—2022年的总体提取精度分别达到了88.39%、86.44%、84.89%、85.75%,提取效果较好。证明了该规则在多水体类型地区坑塘提取中的适用性。
关键词
:坑塘提取;多水体类型地区;Sentinel-2;水体提取;太湖典型流域
坑塘作为湿地的一部分,是指人工开挖或者天然形成的蓄水量小于10万立方米的水面,是城市的一种重要生态基础设施,也是城镇居民能够持续获取自然服务的基础之一
[1]
。获取坑塘水面的时空分布信息,监测坑塘的动态特征对水资源保护、生态环境保护等具有重要意义
[2]
。
卫星遥感监测地面变化具有探测范围广、重访周期短、成本低等优点,具有巨大的经济效益
[3]
。通过卫星遥感监测技术可进行大规模的坑塘水面监测,在短时间内定量评价坑塘水面的分布和动态,具有较高的准确性
[4]
。近年来,许多学者利用遥感技术对坑塘水面信息进行提取分析
[5-6]
,从研究方法来看,对于坑塘信息的主要提取方法可以分为以下几种:
1)目视解译是从遥感图像中提取坑塘水面的经典方法
[7-8]
。目视解译通常在高分辨率的遥感影像中能够提供高度准确的地物分类结果,特别是对于小尺度的地物特征,具有出色的区分能力。在有限范围内,利用目视解译可以高效且以较高的精度实现坑塘水面的提取。
2)基于光谱特征
[9-12]
对地物提取也是一种方法。遥感影像通常包括多个波段的光谱信息,可以提供关于地物反射和吸收特性的丰富信息,根据不同地物的光谱特征差异可以通过构建遥感指数对地物进行自动提取,减少人工工作量,当所提取地物类型与干扰信息的光谱特征有明显差异时,基于影像光谱可以快速将目标地物提取出来。
3)近年来,机器学习的方法被广泛使用在坑塘提取。该方法通常采用多尺度分割建立结合形状、光谱和纹理信息的特征规则集利用计算机来实现坑塘自动提取
[13-16]
。机器学习方法可以批量处理大量遥感影像数据,迅速提取地物信息,从而提高了处理速度和效率。综上,利用遥感监测技术可以高效准确地实现坑塘水面地自动提取
[17-18]
。其中,基于水体光谱特征以及机器学习的方法得到广泛应用,并在一些沿海地区等坑塘密集区域成功提取坑塘水面
[19- 20]
,文献[9]利用Landsat卫星,结合图像的光谱信息、空间特征和形态运算构建了沿海水域养殖池塘提取的决策模型对东南沿海水域的坑塘进行提取;文献[20]基于Sentinel-1合成孔径雷达数据采用基于目标的图像分类方法对印度沿海地区的额养殖池塘进行提取。
但是以上研究方法对研究区有一定的限制性,当研究区范围较大时,由于目视解译操作具有主观性,解译者的先验知识对提取精度有很大影响,从而导致对地物提取的效率较低;在水体类型复杂的区域,同时包含湖泊、水库、坑塘等多种水体时,由于各水体类型的光谱接近,因此无法直接通过光谱差异区分坑塘水面;机器学习的计算精度依赖于大量的样本,而且针对特定研究区所建立的提取规则在其他区域可能不适用,数据的特征分布或数据生成过程发生变化,机器学习模型可能会失效而无法将规则直接推广应用于其他区域。这些方法并没有针对坑塘提出一套完整的、可定量的、具有推广性的规则。所以,寻找一种具有标准化、普适性、适用于在水体类型多样复杂的区域的坑塘信息获取规则是本研究的重点。
针对上述方法所存在的问题,本文以长江中下游太湖流域典型区域为研究区,将坑塘视为主要提取对象,提出了一套基于Sentinel-2影像,包含“水体提取-非坑塘水体信息的剔除-精度评价”的坑塘提取规则,将该坑塘提取规则应用于太湖流域典型区域,可以达到在多种水体类型的复杂区域中高效、准确地获取坑塘信息的目的。
1.1研究区概况
本文以长江中下游太湖流域典型区域——中河流域为研究区(见图1),该区域位于太湖流域西部,长荡湖滆湖南部,太湖西部,经纬度在31°7′~31°41′N,119°01′~119°49′E,主要分布于常州市溧阳市以及无锡市宜兴市,小部分位于南京市的溧水区及高淳区和宣城市的广德市。主要地形以平原和山区为主,覆盖面积2 740.75 km²。区域内水资源丰富,同时包含了水库、湖泊、河流、坑塘等多种水体类型,因此,选择本研究区具有一定的代表性。
图1 研究区示意图
1.2数据来源及预处理
本文选择Sentinel-2卫星多光谱数据为研究数据,通过欧空局官网(https://scihub.copernicus.eu/dhus/#/home)下载,Sentinel-2是高分辨率多光谱成像卫星,携带一枚多光谱成像仪(MSI),分为2A和2B两颗卫星,两颗卫星均搭载有高分辨率多光谱成像仪,双星运行的重访周期5天。
据调查,区域内水产养殖坑塘在11月至次年3月属于晒塘阶段,容易被识别为裸土,同时大部分地区的水稻种植季节在4月下旬至5月中旬,部分水田会被误分为坑塘,因此选取数据质量较好、云量较少、成像时间在6-10月份的研究区影像,云量较多时选择相近时间的影像代替。研究区由四景影像完全覆盖,本文选择的数据为2019年10月17日、2020年11月09日、2021年10月05日、2022年10月10日4期影像,共计16景,数据为经过辐射定标和大气校正的L2A级影像。使用SNAP软件将影像重采样至10m,根据本文所涉及的波段,将Sentinel-2影像的b2、b3、b4、b8、b11、b12波段进行融合,拼接后根据研究区范围进行裁剪。
为实现在水体类型复杂多样的区域提取坑塘水面的目的,本文以长江中下游太湖流域典型区域为研究区,基于Sentinel-2提出了一套可推广的、适用于在多水体类型区域中获取坑塘信息的规则。主要包括:①最优水体指数选取规则,通过对各水体指数的提取结果进行定性和定量评价分析选择最优水体指数进行水体提取;②非坑塘信息剔除规则,通过现有的湖泊水库数据集,利用面积和形状指数对非坑塘水面进行剔除;③ 精度评价规则,通过混淆矩阵得到总体精度、用户精度、制图精度以及kappa系数对提取结果进行精度评价。
由于计算简单,效率高的特点,水体指数法被广泛应用于水体提取的研究中
[21-24]
。水体指数法是基于水体光谱特征分析,选取与水体识别密切相关的波段,通过构建水体指数模型来分析水体与光谱值之间的关系,并给定相应的阈值,实现对水体信息的提取
[25]
。
目前,最常用的水体指数主要有归一化差异水体指数(NDWI)与改进的归一化差异水体指数(MNDWI),面对地形复杂,包含地形阴影的情况下,自动化水体提取指数AWEI也常用于水体提取,由于本研究区中部建筑密集分布,本文选择NDWI、MNDWI、AWEI
nsh
、AWEI
sh
四种水体指数,采用OTSU(最大类间方差算法)确定每种水体指数的最佳阈值
[26]
,从而在研究区内进行水体提取。对四种水体指数的提取结果进行定性和定量的对比分析,选择适合本研究区的最优水体指数。
4种水体指数的提取结果如图3所示,各水体指数在水库湖泊等大面积水体中提取效果均较好,但在部分面积较小如零散分布的坑塘水面中的提取结果效果不同,同时对建筑阴影的剔除情况也有差异。
结果显示在坑塘密集的区域,使用NDWI提取时效果较差,存在大面积水体漏分的现象;在建筑密集的区域,3种水体指数对水体的提取结果均较好,但对于建筑阴影等非水体信息,AWEI
nsh
剔除效果最好,NDWI与MNDWI次之,AWEI
sh
提取效果最差。
为了选出最优水体指数提取结果作为后续坑塘获取的基础,从水体提取效果以及非水体干扰信息主要是建筑阴影剔除两方面综合对比以上4种提取结果,选择研究区西南部坑塘密集区域与研究区中部建筑密集区域两处典型区域对4种指数提取结果进行定性对比分析(图4)。
同时,通过计算3种指数的提取结果的总体精度对结果进行定量评价。
结果显示AWEI
nsh
的总体提取精度最高,为91.37%;MNDWI次之,总体精度为80.95%;NDWI与AWEI
sh
的精度最低。从提取效果以及提取精度结果来看,水体指数AWEI
nsh
的提取效果明显优于NDWI、MNDWI与AWEI
sh
,因此本研究选择自动化水体提取指数AWEI
nsh
对研究区水体进行提取。
以上利用水体指数获得的水体结果中,同时包含了坑塘水面和非坑塘水面,其中非坑塘水面主要包含河流、湖泊、水库以及细碎水体。随着坑塘水面的标准化建设,坑塘的形状、面积等基本特征较为明显,故为了有效剔除湖泊、河流、细小水体等非坑塘信息,本文制定以下规则对非坑塘水面进行剔除;①选择利用现有的湖泊水库数据集剔除湖泊与水库; ②利用形状指数LSI剔除河流沟渠;③利用面积剔除细碎水体;④通过人工目视解译进行检查。最后得到坑塘水面信息。
利用已有的水库和湖泊数据集对水库河流进行剔除,全国精细化水库数据集(China reservoir dataset, CRD)共提供全国97 435个水库的空间位置信息,水库水域总面积约5×10
4
km
2
;国家地球系统科学数据中心湖泊—流域分中心(http://lake.geodata.cn)发布的湖泊分布数据集记录了中国1:250 000 面积1km
2
以上的湖泊分布情况。根据遥感影像显示,在研究区南部存在大溪水库、沙河水库等大型水库以及部分小型水库,西北部地区分布大量小型水库;同时,研究区内湖泊分布较少,主要为马公荡以及西氿。CRD数据和中国湖泊数据集包含了区域内所存在的水库和湖泊,因此利用全国精细化水库数据集(CRD)和湖泊分布数据集对研究区提取的水体数据进行掩膜,可以有效剔除区域内的湖泊和水库。
在剔除湖泊和水库后,仍然存在着河流和沟渠等非坑塘水体。这些非坑塘水体与坑塘的形状差异较大,如图6所示。与坑塘非线性的形状不同,河流通常呈现出偏细长的线性形状。为了剔除这些河流水体,可以借助形状指数LSI
[31]
作为指标,计算剩余水体斑块的形状指数,并选择适当的阈值来剔除河流。经过计算,研究区内河流的形状指数基本大于8,因此将形状指数大于8的斑块进行剔除达到剔除河流沟渠的目的。
经过剔除河流、湖泊和水库后,研究区内还存在大量面积较小的水体。通过实地考察以及参考县级行政单元内的第三次全国国土调查数据,研究区内的坑塘面积大多数大于1 000 m
2
(图7)。同时由于本研究使用的遥感影像空间分辨率为10 m,在水体栅格数据与矢量数据转换的过程中,可能会出现误差,导致出现细小的碎片状水体。因此,本研究将面积小于1 000 m
2
的水体视为细碎水体,不予提取。以面积为标准,对细碎水体进行剔除,得到不包含细碎水体的数据。
4)人工处理
以上利用已有数据集合(CRD、全国湖泊数据集)、面积、形状指数LSI对研究区内非坑塘水体(水库、湖泊、河流沟渠)进行剔除后,仍可能存在形状指数、面积与坑塘符合的非坑塘水体,如断裂的河流、水渠等。因此本文结合研究区内遥感影像进行目视处理,可以有效消除分布较少的剩余其他非坑塘水体信息,最后得到较高精度的坑塘空间分布数据。
2.3精度评价
为了定量描述本研究所提取的坑塘水面结果的精度,在本研究中,我们采用了制图精度、用户精度、总体精度和Kappa系数作为进度验证的评估指标。这些指标被广泛用于衡量地图分类或图像分类任务中算法的性能。制图精度是指分类正确的像素数量与总像素数量之间的比例。用户精度是指在给定类别中正确分类的像素数量与该类别总像素数量之间的比例。总体精度是指正确分类的像素数量与总像素数量之间的比例。
3.1水体与坑塘的提取结果与精度评价
通过对3种水体指数对研究区水体提取效果对比,本文选择水体指数AWEI
nsh
获取研究区水体信息,总体提取精度为91.37%。结果如图8所示。研究区水体信息分布广泛,存在大量坑塘水面,同时贯穿了河流以及部分湖泊和大量水库,包含多种水体类型。
基于AWEI
nsh
的水体提取结果,本研究使用面积、形状指数以及已有的湖泊和水库数据集对研究区内的细碎水体、河流沟渠以及湖泊水库进行剔除,最终得到研究区内2019—2022年间的坑塘分布结果(图9)。
为验证研究区内坑塘水面提取结果的精度和有效性,本文通过在遥感影像上进行目视解译,随机选择坑塘水面和非坑塘水面的验证样本,以确保样本在研究区内均匀分布。随后,利用构建的混淆矩阵进行精度评估。结果表明,2019—2022年的总体精度分别为88.39%、86.44%、84.89%、85.75%。Kappa系数均大于0.7,表明本文提出的研究方法在坑塘水面提取方面表现良好。
根据坑塘分布图(图10)显示,坑塘在北部长荡湖和滆湖附近(A、B处)以及研究区西南地区沿河流附近(C处)分布较为密集。呈现北部坑塘较多,南部坑塘较少的特点。
经统计,中河流域内2019—2022年坑塘面积分别为233.179 6、275.934 0、207.009 8、228.930 4km²,总体上坑塘水面面积呈现先增加后减少的趋势。变化率分别是+18.32%、—25.02%、+10.58%。长荡湖南部、滆湖南部以及研究区西南部3个坑塘密集区的变化如下图所示,西南部地区2019—2022年坑塘面积总体呈现增加的趋势增加,北部变化和研究区整体变化保持一致。
根据图10、图11与图12显示的研究区2019—2022年坑塘分布特征以及面积变化趋势可以看出:研究区西南部(图10C处)靠近河流的地区坑塘面积有所增加,这主要是由于养殖需求的增加,导致一些土地利用发生变化,土地利用从水田转变为坑塘水面,从而导致河流附近的坑塘水面面积上升。而在研究区北部,包括长荡湖和滆湖南部地区(图10A、B处),湖泊周围的坑塘面积逐渐减少,这与近年来常州市生态环境局针对滆湖、长荡湖所出现的水质等级下降等生态问题,实施开展退圩还湖、网围拆除等重大工程密切相关,这些政策旨在保护湖泊的生态环境。此外,城市扩张等因素也可能导致坑塘水面面积减少。
3.3优势性分析
针对坑塘提取的研究中,目前最常用的方法是面向对象法,面向对象技术是通过对影像进行分割,对光谱相似的像素进行合并
[33]
,将合并后的像素当作对象作为分类的基元对影像进行监督分类。本文利用eCognition软件对影像进行多尺度分割,通过支持向量机法(SVM)对影像进行自动分类获得坑塘水面信息,将提取结果与本研究的坑塘结果进行比较。
图12显示的是位于研究区西南部坑塘水面提取效果对比图,图中可以看出,坑塘以规则形状密集分布。当使用面向对象法直接对坑塘水面进行提取时,面向对象法依赖于选定的特征来描述坑塘目标,坑塘在形状、大小、纹理和光照条件等方面可能具有很大的变化,如果选择的特征无法准确地区分坑塘与其他背景或相似目标,可能导致坑塘未被正确提取,从而导致漏分现象较严重。而利用本文所制定的规则,利用水体指数将所有水体提取出来可以有效避免坑塘漏分现象。
图13 不同方法坑塘提取对比图
图13~图15为研究区内南部大溪水库与河网密集处周边的坑塘提取效果,结果显示,由于坑塘水面与河流水库的光谱等特征相似,面向对象法无法准确地从众多水体类型中准确辨别出坑塘水面,坑塘结果中混淆着水库河流等非坑塘水体,导致坑塘提取精度较差,而通过本文所构建的规则可以较好地对干扰信息进行剔除。
将本研究结果与机器学习法所提取结果进行对比,随机森林
[34]
是一种基于决策树构建的集成学习方法。它通过训练多个决策树,并将它们的结果进行组合,以提高分类性能和泛化能力。此类模型需要人工对地物的特征进行提取,人工提取的优劣会对地物的提取效果产生一定影响
[35]
。图16显示的是机器学习方法对研究区的提取结果中北部滆湖南部部分效果,结果显示该方法较本文方法所提取结果错分漏分现象较严重。
对面向对象法以及机器学习法提取的坑塘水面结果做精度评价显示,总体精度分别为75.64%、81.70%,而本文方法所获得结果精度为87.41%,总体提取精度和kappa系数均有一定的提升。
因此对比常用的面向对象法与机器学习法,在水体类型复杂多样的地区,根据本文所提出的从水体到坑塘的提取规则,先对所有水体进行提取可以有效避免坑塘漏分现象,之后根据现有的湖泊水库数据集以及形状面积等特征可以有效地对非坑塘水面信息进行剔除,避免了非坑塘水面信息混淆现象,从而提高了坑塘提取精度。对比来看,本文所提出的规则可以更好的实现多水体类型地区的坑塘提取。
针对在多水体类型中提取坑塘水面较困难问题,本文提出了一套从水体到坑塘、非坑塘信息逐步剔除的坑塘提取规则,将该规则应用于水体类型丰富的长江中下游太湖流域典型区域中,并在2019—2022年坑塘水面的总体精度分别达到了88.39%、86.44%、84.89%、85.75%,Kappa系数均大于0.7。表明通过湖泊水库数据集以及面积形状等规则对非坑塘信息进行剔除得到坑塘水面信息的提取方法在水体类型复杂多样的地区具有较好的适用性,可以以较高精度提取坑塘水面。
虽然利用Sentinel-2影像数据可以有效提取区域内的坑塘水面信息,并进行时空变化分析,但是由于影像的空间与时间空间分辨率的局限,同时坑塘水面主要呈现面积小数量多的特点,在坑塘水面信息提取中仍存在部分坑塘水面错分漏分的现象,因此在后续研究中可以借助多源数据结合和高分影像进行研究分析。
一种多水体类型地区的坑塘水面精准提取方法
马丹华
1,2
,崔雯卓
2,3
,冯雪娇
4
,侯渲
2
,马荣华
2
,童奕钧
2,5
,林晨
2
(1.南京信息工程大学 遥感与测绘工程学院,南京 210044;
2.中国科学院流域地理学重点实验室,中国科学院南京地理与湖泊研究所,南京210008;
3.中国科学院大学,北京 100049;
4.南京航天宏图信息技术有限公司,南京 210012;