摘要
:成像系统获取数据时一般无法兼顾空间和光谱信息,但当前的光学影像道路提取往往直接以融合后影像为数据源,聚焦网络结构、监督形式等方面的研究,未对融合效果在道路提取中的作用进行深入探索与分析。因此,本文提出了一种结合融合策略的光学影像道路提取技术。首先,以端到端的“编码—解码”网络为基本结构,并结合输入数据的类别、数量等因素进行针对性改进与设计,为后续的试验验证提供训练和测试框架;然后,立足空间信息和光谱信息的注入偏好,选取4种典型的影像融合方法,并以此为技术支持对全色影像和多光谱影像进行融合;最后,在试验部分借助2个公开数据进行了集验证,得出融合策略在道路提取中可有效提升量化评价指标的结论,同时对典型的道路重难点区域提取具有积极的正向促进作用。
道路作为核心的交通运输设施,实现其高精度智能提取在地图更新、自动驾驶、实时导航和应急保障等领域均具有重要意义。光学影像是高空平台获取地面信息的可视化数据,相比SAR影像、激光点云和热红外影像等,从技术发展和数量规模等角度来看,该数据具备一定优势。因此,光学影像已成为道路提取领域的重要数据源。
光学影像道路提取技术的类别主要可划分为传统方法和深度学习法
[
1
]
。传统方法
[
2
-
5
]
主要根据光谱特征、形状特征、纹理特征及其人工设计的组合特征分析、获取道路与其他地物类别的界定区间。但随着影像解译的颗粒度愈发细化,上述浅层特征构建的道路提取规则往往不具备稳定性和泛化性。而深度学习法作为一种数据驱动的方法,凭借其深层的特征挖掘能力和稳定的模型学习能力,受到研究学者的广泛关注和持续推进。当前,对于道路提取,深度学习法主要是卷积神经网络。目前的研究主要体现在网络结构、标签数据和损失函数等方面。网络结构的研究往往以“编码—解码”为基础框架,通过引入线性特征提取模块
[
6
-
8
]
、多尺度特征提取模块
[
9
-
10
]
、全局特征提取模块
[
11
-
12
]
及多任务驱动模式
[
13
-
15
]
等提升网络模型的道路智能解译能力;标签数据的研究围绕提升道路提取结果的正确率、完整率和完善道路的拓扑结构展开,数据类型包括边缘标签
[
13
-
14
,
16
]
、中心线标签
[
1
,
10
,
14
]
、方向标签
[
17
-
19
]
及连通标签
[
7
,
20
]
等;损失函数的研究立足道路在遥感影像上自身的规模比例,结构特性等突出矛盾展开探索,如基于VGG19
[
21
]
的深层特征损失描述
[
22
]
,基于正负样本失衡的损失描述,基于连通区域数量的损失描述
[
23
]
等。然而,上述研究大多直接基于公开数据集或自建数据集进行技术验证,如DeepGlobe
[
24
]
、Massachusetts
[
25
]
、SpaceNet
[
26
]
、CHN6-CUG
[
12
]
、LRSNY
[
27
]
、RoadNet-Data
[
13
]
等。上述数据集的原始影像大多为高空间分辨率的彩色影像,但成像系统往往需要在光谱和空间分辨率间进行权衡
[
28
]
,包括资源三号、高分二号(GF-2)及WorldView系列等遥感卫星获取的初始数据均是空间清晰的全色影像和颜色丰富的多光谱影像。
综上所述,遥感影像融合是提升多源影像质量的核心技术,可充分获取各类影像包含的互补信息,在数据层面为后续的地物解译提升稳定度和可信度。因此,本文联合遥感影像融合和典型的卷积神经网络,围绕影像类型设计不同的数据输入形式,利用公开数据集进行定量精度评价和定性效果分析,充分探讨影像融合在道路提取中的作用与潜力。
结合融合策略的遥感影像提取方法的整体思路如图 1所示,以“编码—解码”的卷积神经网络为框架,根据数据输入策略调整端口数量和初始通道,构建相适应的网络结构。同时,依据不同的融合方法获取兼顾空间分辨率和光谱分辨率的遥感影像,并结合搭建的网络框架对融合效果在应用端形成定量分析与评价。
图 1
本文方法整体思路
1.1 网络框架
采取“编码—解码”的形式,为充分分析空间分辨率、光谱分辨率在道路提取中的作用及影像融合对道路提取带来的精度提升,共设计3种不同形式的网络框架(如图 2所示)。
图 2
不同形式网络框架
具体而言,网络框架1适用于单一端口的数据输入,包括多光谱影像、全色影像和不同方法的融合影像,其目的在于将融合影像与单一的多光谱影像和全色影像相比,表现其在道路提取上的优势,以及不同融合机理对道路提取的影响。网络框架2和3适用于多光谱影像和全色影像联合作为端口输入数据的情况。其中,网络框架2采取数据融合的形式,直接将两种数据经过通道叠加形成输入数据;网络框架3则利用特征融合的思想,将两种数据分别通过并行的编码分支进行特征提取,然后在不同层级的编码层中进行融合。此外,为直观比较影像融合在道路提取中的作用,避免网络复杂度等因素带来的影响。网络框架1和2只有初始卷积层的输入通道数存在差异;网络框架3相比前两种框架,直接将其编码层各阶段的通道数切分一半形成编码分支。如选取网络的编码层与解码层存在跳跃连接等操作,本文均采取分支结果通道叠加的策略构建编码的整体特征。
为全面比较融合方法在道路提取中的作用,本文选取颜色空间变换(hue saturation intensity,HSI)融合方法
[
29
]
、光谱细节注入的自适应(GS adaptive,GSA)融合方法
[
30
]
、调制传递函数广义拉普拉斯金字塔(modulation transfer function generalized Laplacian pyramid,MTF-GLP)融合方法
[
31
]
和加性小波亮度比例(additive wavelet luminance proportion,AWLP)融合方法
[
32
]
进行试验对比与分析。
HSI法将多光谱影像从RGB颜色空间转到HSI颜色空间,分别获取影像的色调、饱和度和亮度3个分量,将全色影像与多光谱影像的亮度分量进行直方图匹配,对色调、饱和度和匹配后的全色影像进行HSI逆变换,得到最终的融合影像。该融合方法清晰度高,但由于亮度分量为3个波段的均值,导致其与全色影像光谱差异较大,融合影像往往存在“光谱失真”现象。
为了缓解“光谱失真”现象,GSA法改进了HSI方法亮度分量的生成方式,即利用多光谱影像各波段与全色影像的线性关系,自适应地生成各波段权重和注入增益,从而缩小亮度分量与全色影像的光谱差异。
MTF-GLP法利用与多光谱传感器MTF匹配的高斯滤波器从高分辨率全色影像获得低通影像,然后利用注入系数控制信息注入的差异。具体的计算方法与GSA法相似,但需要将亮度分量替换为低通影像。因此,该方法虽然能够保留光谱信息,但由于亮度分量与低通影像的空间特征差异,往往会带来“空间失真”现象。
AWLP法的基本思想与GSA法和MTF-GLP法类似,均属于细节注入类型。区别在于AWLP法通过多尺度小波分解提取其低频信息,并用多光谱影像中每个波段所占的比例作为注入增益。
(1) GF-2-FC数据集
[
33
]
。该数据集来源于GF-2影像,包括太原、上海和大连3个地区的高速公路、普通公路、城镇道路和乡村道路等,数据类型包含全色影像(0.8 m)和多光谱影像。本文将其原始影像划分为2400组(每组包含一张全色影像和多光谱影像),影像大小为512×512像素,其中2100组用于训练,300组用于测试。
(2) CHN6-CUG数据集
[
12
]
。该数据集来源于Google Earth,包括北京、武汉、深圳、上海、香港、澳门等地区的高速公路、城市道路和乡村道路等。数据集共包含3608张训练影像和903张测试影像,影像空间分辨率为0.5 m,大小为512×512像素。将该数据集用于验证本文方法,利用原始影像的亮度信息生成全色影像,并通过4倍下采样的形式获取多光谱影像。
为综合评价不同网络和融合方法在道路提取中的效果,选取正确率(
P
)、完整率(
R
)、
F
1分数和交并比(IoU)4种精度指标进行精度的量化评价,计算公式分别为
式中,TP和FP分别表示正确提取和错误提取的道路像素数量;TN和FN则分别对应正确提取和错误提取的背景(非道路)像素数量。
试验环境的显卡配置为NVIDIA Tesla V100(2块),显存共64 GB。网络训练选择Adam为优化器,学习率初始设置为2e-4,当损失值连续3次高于当前最优损失值时,学习率降低5倍,训练的数据块大小为8,迭代epoch值为100。同时,随机(50%)地对训练数据进行垂直、水平、对角翻转和辐射变换对样本进行增强处理。
为充分比较影像融合对道路提取的作用,选用U-Net
[
34
]
和DeepLabV3+
[
35
]
两个卷积神经网络为基本框架,通过设计的3种框架形式进行具体试验。为定量评价各类融合方法和框架形式的道路提取效果,利用4项精度指标进行具体分析,结果见表 1和表 2(各项精度指标的数值为所有测试影像的平均值)。
表 1
不同方法道路提取结果精度统计(GF2-FC数据集)
表 2
不同方法道路提取结果精度统计(CHN6-CUG数据集)
表 1和表 2中Mss和Pan分别表示输入端只有多光谱影像和全色影像(网络框架1);FusionF和FusionD分别代表网络框架3(特征融合)和网络框架2(数据融合);HIS、GSA、MTF-GLP和AWLP则是将各自方法的融合结果作为输入数据(网络框架1)。通过对比两个数据集的道路提取结果精度统计,可以得到如下结论:①相比前4种方法,后4种融合结果的综合评价指标(
F
1和IoU)整体更优,尤其是在训练数据规模更小、网络结构相对简单的情况下优势更明显;②4项精度指标中全色影像的提取效果除了U-Net网络中的完整率低于多光谱影像,其余条件下均具备明显优势,证明了在米级和亚米级的空间分辨率下,道路提取的效果更依赖于空间信息而非光谱信息;③FusionD的综合评价指标高于FusionF,甚至在DeepLabV3+网络中高于MTF-GLP法,说明数据在输入端的通道进行叠加,经过神经网络的深层特征提取后,可实现较好的优势互补,但如果网络结构相对简单(如U-Net),提取效果明显下降;④相比其他3种融合方法,HSI法的综合评价指标整体更优,这与全色影像和多光谱影像的精度对比规律相似,是因为HSI法更加关注空间的细节信息,这有助于提升道路提取结果的精度。
除上述定量的精度指标对比外,为进一步综合比较各方法的道路提取效果,根据道路提取重难点选取典型示例影像进行效果分析。为确保试验分析具有代表性,本文分别从GF-2-FC数据集和CHN6-CUG数据集中选取一张示例影像进行说明。
图 3示例的影像选自GF-2-FC数据集,该影像属于城市区域,建筑物高大,道路等级整体较高,在影像上呈现的大小特征突出。然而由于建筑物自身的投影误差及阴影等干扰因素的影响,导致道路的部分路段存在遮挡。此外,左上角的辅路等级较低、宽度较窄,因此该影像中关注目标的尺度差异较大。从提取结果来看,对于U-Net网络结构,Pan和FusionD的漏提取问题严重,主干道的拓扑关系缺陷明显,而FusionS的错误率较高,几乎形成了连通的误提取道路;Mss在该影像中的提取效果与4种融合方法相似,其中GSA和AWLP的提取完整度略差,造成该现象的原因可能是由于选取影像的道路宽度较大,多光谱影像的空间细节信息足以满足道路解译的需求,反而较为翔实的空间信息会在一定程度上带来语义混淆。对于DeepLabV3+网络,各个方法的提取效果大多优于U-Net网络,其中Pan的漏提取和大部分误提取都得到了一定改善,但FusionD的漏提取问题依旧突出,4种融合方法基本能较为完整且准确地提取影像的道路信息,但所有条件下的道路提取均未能正确识别左上角的辅路信息,这一问题需要依托改进网络结构的多尺度特征提取模块加以解决。
图 3
不同方法道路表面分割结果示例(GF-2-FC数据集)
图 4示例的影像选自CHN6-CUG数据集,该影像属于集镇或郊区,建筑物相对矮小且分布不均,导致道路的铺设形状呈现曲状,且含有大量的植被区域,是一张典型正负样本不均衡影像。影像中的道路主要包括2条:左侧的道路等级较高,宽度较大,从浅层特征的角度来看提取难度不大,两种网络共计16种条件下均能准确且完整地提取该条道路;右侧的道路穿梭于居民地之间,材质存在水泥和沥青的突变,在U-Net网络中均存在一定漏提取问题,尤其是Mss和FusionS几乎对该条道路没有发掘,Pan、FusionD及4种融合方法在漏提取方面有一定改善。对于DeepLabV3+网络,Pan和4种融合方法较完整地提取了右侧道路,其中融合方法还对右侧道路的下方进行了延伸,经人工对原始数据集中的高分辨率彩色影像的判读发现,该区域与道路相连,只是材质存在差异,存在属于道路的可能性。
图 4
不同方法道路表面分割结果示例(CHN6-CUG数据集)
3 结语
影像融合是提升数据质量的关键技术,是关联空间和光谱互补信息的重要渠道。地物智能解译的发展和进步与计算机视觉、人工智能等技术密切相关,但同样得益于遥感影像获取技术的不断成熟。本文从数据源的角度,依托道路提取对影像融合在后端的应用进行了针对性研究,通过典型卷积神经网络及不同形式的网络框架,提出了结合融合策略的光学影像道路提取技术。但影像融合作为一种数据增强技术,其效果受多方面影响,因此,如何结合应用需求提升融合影像的解译精度,以及进一步融入其他多源数据(SAR影像、DEM等)是下一步需要着重考虑的研究方向。
王淑香
1
, 林雨准
1
, 金飞
1
, 杨小兵
2
, 黄子恒
1
, 程传祥
1