摘要:
针对现有深度学习模型的建筑物提取结果普遍存在的边缘规整度差、细节不丰富等问题,该文提出了一种结合边缘监督与特征融合的深度学习建筑物提取模型,此模型以U-Net为基本架构,借助多任务学习思想,设计了多尺度边缘监督分支和高低层特征注意力融合模块,有效提升了建筑物提取结果的边缘规整程度和细节丰富程度。在WHU建筑物数据集和Massachusetts 建筑物数据集上进行对比实验,并进行了建筑物提取和建筑物边缘的精度检验。结果表明,与SegNet、U-Net、Attention U-Net、D-LinkNet、STTNet模型相比,该文的方法能有效地提升各指标精度,提取出的建筑物边缘更加准确、细节更加丰富,并且有效地提升了大型建筑物提取的完整性。
关键词:
高分辨率遥感影像;语义分割;建筑物提取;U-Net;边缘监督;特征融合
随着高分辨率对地观测技术的快速发展,遥感影像在诸多地理国情监测任务中的作用越发重要,利用高分辨率遥感影像进行建筑物提取对指导城市规划、国土资源监测和灾害应急等应用具有重要意义
[1]
。
建筑物提取最初的方法是目视解译,此方法费时费力,难以满足现今业务需求。随着遥感解译技术的发展,建筑物提取任务主要采用先人工提取特征,再进行特征分析或机器学习的方法,特征分析法主要是利用能反映地物信息的特征,如形态学建筑物指数
[2]
,划分合适的阈值进行地物提取,常用的机器学习方法主要有最大似然法
[3]
、支持向量机
[4]
等,然而上述方法主要依赖于光谱和几何信息,难以挖掘深层次语义信息,提取效果上难以实现较大的突破。近年来,深度学习技术的快速发展,为遥感影像建筑物提取任务带来了新的技术支撑,深度神经网络可以自动学习影像特征,避免了人工特征选择的主观性。深度学习建筑物提取任务可以看作二分类的语义分割任务,其开创性工作是全卷积网络(fully convolutional network,FCN)
[5]
,它通过下采样提取特征和上采样恢复分辨率的方式完成语义分割。U-Net
[6]
采用了U型网络结构,特征提取后使用反卷积恢复分辨率,此外还设计了跳跃连接机制,有助于细节的恢复。常见的方法还有DeepLabV3+
[7]
,添加了空间金字塔池化模块来获取多尺度空间信息,并将底层特征集成至高层的语义信息中。
对于遥感影像建筑物提取任务,语义分割模型通常需要进行针对性修改。如在U型网络的基础上添加带有空洞卷积的特征提取模块
[8]
,或在网络中添加空间、通道双注意力模块
[9]
,有助于网络更好地关注并提取建筑物信息;或者不使用传统的U型结构,而是重新设计网络结构,如使用多路径结构将结合局部特征和多尺度特征的特征提取模块并行连接,再进行建筑物提取
[10]
,或使用多尺度网络结构,将不同下采样尺度的特征层融合成多尺度信息,并通过这些信息恢复出建筑物区域
[11]
,经过实验验证,这些方法也有较好地建筑物提取效果;不同于其他地物,建筑物在高分辨率遥感影像中的边界信息更加清晰,因此研究人员也尝试将边缘信息引入网络结构中,以提升建筑物的边缘准确性,如对建筑物提取的结果进行边缘监督,实现训练中边缘约束的效果
[12]
,或在网络结构中加入边缘分支,进行Canny边缘检测并与深层语义特征融合,将融合后结果输入到不同尺度的解码器模块中进行边缘引导学习,以达到边缘引导性恢复的效果
[13]
,或进行基于CNN的边缘检测和规则化后处理,以实现边缘的优化与增强
[14]
。总的来说现有的模型普遍存在着提取结果边缘规整度较差、细节不清晰等问题,引入边缘特征的模型也大多没有充分利用边缘信息对网络整体的约束作用,并且引入的额外计算如边缘检测算子、规则化算子等结构会降低训练效率。
针对上述遥感影像建筑物提取任务中存在的问题,本文以U-Net模型为基础架构,提出了边缘监督与特征融合的遥感影像建筑物提取模型:借助多任务学习的思想,设计了多尺度边缘监督分支,此分支从编码器-解码器共8个不同尺度的特征层中使用CNN进行边缘监督学习,通过特征层权值共享的方式对建筑物提取的编解码全过程实现有效的约束与引导,随后再使用CNN对提取出的边缘图像与建筑物图像进行融合后处理,实现进一步的边缘增强;为解决跳跃连接时语义和尺度不一致导致高低层信息难以有效融合的问题,本文提出了一种高低层特征注意力融合模块,使细节信息与语义信息更好地融合,有助于解码器更完整地恢复建筑物的细节信息。综上所述,本文提出的两个改进方案有助于优化建筑物边缘和细节信息,实现更加完整、更加规则的建筑物提取。
本文以U-Net模型为基本架构,提出了多尺度边缘监督与注意力特征融合的建筑物提取模型,如图1所示,整体的模型架构分为建筑物提取分支和多尺度边缘监督分支,此外在建筑物提取分支中嵌入了高低层特征注意力融合模块。
本文建筑物提取选用的基本架构是经典的U-Net模型,此模型通过编解码结构提取建筑物,此外,此模型还设计了跳跃连接的结构,以帮助解码器恢复地物的细节信息。
深度学习建筑物提取的关键是如何从遥感影像上提取深层次的语义信息,从深度学习兴起以来,相关算法模型层出不穷,经典的卷积神经网络模型主要有AlexNet
[15]
、VGGNet
[16]
等。2015年,He Kaiming等人提出了ResNet模型
[17]
,该模型设计了残差结构,解决了梯度消失和梯度爆炸等问题,为平衡网络性能与复杂程度,本文选用ResNet50作为建筑物提取分支的主干网络,建筑物提取分支的具体结构如图2所示,编码器部分采用ResNet50结构,解码器每个模块的结构是先进行上采样,再将上采样的结果与编码器对应大小的特征图进行高低层特征注意力融合,再进行两个3×3的卷积和ReLU激活进一步整合特征。
由于语义分割采用的是先下采样提取特征,再上采样恢复图像分辨率的思路,而下采样会舍弃部分图像细节信息,导致建筑物边缘细节缺失。在这种情况下,本文借助多任务学习的思想,参考了RCF
[18]
、BDCN
[19]
等CNN边缘检测网络的结构,设计了一种使用卷积神经网络的边缘监督分支,此分支的主要特点是多尺度和权值共享,多尺度的含义是边缘监督针对的是编码器到解码器的整个网络的各个尺度的输出结果,而非单一尺度的输出结果或者部分输出结果,权值共享的含义是边缘提取和建筑物提取的特征提取部分的参数是共用的,因此在边缘提取的过程中可以自动实现对建筑物边缘的约束。
此分支的具体结构如图3所示,首先将编码器和解码器共8个特征层的结果进行1×1的卷积,将各层输出结果统一压缩至32个通道,再压缩至1个通道,随后进行不同大小的上采样,统一恢复至原始影像的大小,再将各个特征通过通道拼接的方式形成一个多尺度特征,最后对多尺度特征进行1×1的卷积压缩至两个通道,并使用SoftMax激活函数进行激活得到边缘图,边缘图将与真实边缘标签进行监督学习。
在边缘监督时,真实边缘标签是使用建筑物标签通过OpenCV提供的拉普拉斯边缘检测函数计算获得,无需额外的人工标记。
建筑物标签与计算得出的建筑物边缘标签的示意图见图4。
除上述工作外,本文还将提取出的边缘图与建筑物提取结果图进行融合后处理以实现进一步的边缘增强,此步骤通过可学习的CNN网络实现,不会引入额外的数学运算,主要结构如下图所示,首先将建筑物提取图与边缘图进行通道拼接,连续进行两次卷积核大小为3×3,通道数为16的卷积和ReLU激活,实现边缘图和建筑物提取结果的整合运算,随后再进行卷积核大小为1×1,通道数为2的卷积和SoftMax激活,获得增强后的建筑物图提取图。
在U-Net结构模型提取建筑物时,使用了跳跃连接的方式进行了特征融合,起到了一定的恢复图像细节的效果,但由于高低层特征的语义与尺度差异较大,特征融合的不够充分,提取出的地物仍然会出现识别不全、细节缺失的现象,这说明简单的跳跃连接可能不是特征融合的最佳选择,为更好地融合高低层特征,本文参考了注意力特征融合
[20]
的思路,设计了适用于语义分割模型的高低层特征注意力融合模块(HLFAF),高低层特征注意力融合模块的结构如图6所示,代表低层细节特征,代表高层语义特征,首先将两个特征进行通道拼接、两次3×3的卷积与Relu激活,这一过程类似U-Net中常规的跳跃连接特征融合步骤,随后将融合结果输入至注意力模块(coordinate attention,CA)
[21]
中获取高低层特征综合注意力加权图,再使用加权图对两个特征图进行软映射,获取两个信息强化后的新特征图。
最后将两个新特征图进行通道拼接获得最终融合后的特征图,见图6。
特征融合模块中使用的CA模块的结构如图7所示,此注意力模块考虑了空间和通道信息,并且更加灵活和轻量。首先将原始的特征图输入到分解为X和Y两个方向的平均池化中,生成两组新的特征图,随后将X特征图的宽高维度调换,将两组含有全局信息的特征图进行拼接,进行卷积核大小为1×1的卷积降低通道维度并进行批标准化和非线性激活,随后采用split操作将X、Y方向的特征图分开,利用卷积核大小为1×1的卷积恢复到原始通道数,再经过Sigmoid激活生成最终两个方向的注意力特征图,最后将两个方向的注意力特征图与原始的特征图进行相乘获得注意力加权后的特征图,见图7。
本文的损失函数分为两个部分,第一部分为建筑物提取的损失,第二部分为多尺度边缘监督的损失,二者加权求和获得完整的损失函数。
语义分割最常用的损失函数是交叉熵(CE Loss),交叉熵损失通过计算预测概率分布与真实标签之间的交叉熵,来度量预测结果和真实值之间的差异,大量的实际应用表明交叉熵损失函数在语义分割任务上有出色的效果。此外Focal损失
[22]
是一种处理正负样本不均衡的损失函数,建筑物提取是一种明显的正负样本不均衡的问题,Focal Loss可以根据样本区分的难易程度给样本的损失添加相应的权重来解决此问题。
本文共使用两组实验数据,实验数据一为WHU航空建筑物数据集
[23]
,其采样地址为新西兰基督城,该数据集数据量大,影像和标签的质量高,建筑物类型丰富,影像空间分辨率为0.3 m,每张影像为512 像素×512 像素,数据集已经划分了训练集、验证集、测试集,分别为4 736、1 036和2 416张。
实验数据二为Massachusetts建筑物数据集
[24]
,该数据集采集自美国波士顿地区,空间分辨率为1 m,每张影像1500×1500像素,包含训练集137张,验证集4张和测试集10张,本实验将影像裁剪至256像素×256像素,共得到6 713张训练集,196张验证集和490张测试集,此数据集分辨率较低、噪声较多且大多为小建筑物目标,提取的难度较大。
实验在Window11操作系统下进行,使用的深度学习平台为Keras平台,编程环境为Python3.7,硬件环境为Inter(R) Xeon(R) Sliver 4210 CPU,GPU为两块NVIDIA GeForce RTX 2080 Ti,显存为22 GB,同时使用OpenCV、GDAL等开源库进行基本的图像处理工作。
训练时采用了ImageNet预训练模型,由于ImageNet预训练模型具有丰富的底层特征,可以有效提升模型的分类精度和收敛速度
[25]
,优化器使用Adam,初始学习率设置为0.000 1,学习率采用每15个Epoch阶梯下降20%的策略,批处理数量为10,最大迭代次数为150次,保存训练中精度最优的模型。
图10为本文模型在WHU建筑物数据集和Massachusetts建筑物数据集上训练中的损失值下降情况,可以看出训练过程中训练集和验证集的损失值随着迭代次数逐渐降低直至趋于平稳,可以证明本文的模型的学习和拟合能力,以及实验参数与损失函数的有效性。
本文选取交并比(intersection of union,IoU)、总体精度(overall accuracy, OA)、召回率(Recall)、准确率(Precision)和F1分数(F1 score)5个常用的评价指标。交并比为预测结果与真实结果的交集与并集之比,总体精度为所有预测正确的样本所占比例,召回率为被分为正类的样本数与真实正类的样本数之比,准确率为预测为正类的样本中正确的比例,F1分数是综合了召回率和准确率的指标。
此外,为进一步验证本文方法对建筑物边缘信息和细节信息的优化效果,本文还对提取出建筑物的边缘进行精度检验。通过拉普拉斯边缘检测获取建筑物边缘,选取了边缘交并比(edge intersection of union)、边缘总体精度(edge overall accuracy)、边缘召回率(edge recall)、边缘准确率(edge precision)和边缘F1 分数 (Edge F1 score)5个评价指标进行精度检验。
2.4 实验与分析
为验证模型的有效性,本文针对两个数据集进行了对比实验,选用了SegNet
[26]
、U-Net、Attention U-Net
[27]
、D-LinkNet
[28]
、STTNet
[29]
作为对比模型。
在WHU建筑物数据集上,交并比、整体精度、准确率、召回率、F1分数分别达到了90.38%、98.87%、95.07%、94.82%、94.95%,相比于其他模型的最优值分别提高了1.28%、0.15%、0.44%、0.72%,由于WHU建筑物数据集质量较好,本文方法在此数据集上的精度已经达到较高的水平;在Massachusetts建筑物数据集上,交并比、整体精度、准确率、召回率、F1分数分别达到了73.29%、94.28%、83.11%、86.12%、84.59%,除准确率以外,其他指标相比于其他模型的最优值分别提高了4.58%、0.94%、6.89%、2.8%,由于此数据集分辨率较低,小型建筑物数量众多,各模型在此数据集上的效果都还有提升空间。总的来说,本文方法既能较好地保证提取的准确性,也能尽可能保证不漏掉难以识别的建筑物,实现了较为均衡的提取效果。
WHU建筑物数据集上,边缘交并比、边缘整体精度、边缘准确率、边缘召回率、边缘F1分数分别达到了49.33%、98.78%、65.86%、66.29%、66.07%,相比于其他模型的最优值分别提高了6.61%、0.24%、5.75%、6.67%、6.21%,WHU建筑物数据集边缘较为清晰,本文方法在此数据集上的边缘精度大幅度超过其他模型,达到了很高的水平;在Massachusetts建筑物数据集上,边缘交并比、边缘整体精度、边缘准确率、边缘召回率、边缘F1分数分别达到了31.47%、92.76%、46.39%、49.45%、47.87%,相比于其他模型的最优值分别提高了5.77%、0.74%、6.66%、6.1%、6.98%,Massachusetts建筑物数据集质量相对较低,建筑物边缘清晰度较低,但本文方法的仍有非常明显的进步。总的来说,本文方法的建筑物边缘指标精度均明显优于对比模型,证明了本文提出的方法可以有效提升建筑物边缘的感知能力,实现了更加规整的建筑物提取效果。
图11为几种模型在WHU建筑物数据集上提取出建筑物的效果对比图,图12为提取出的建筑物对应的边缘效果对比图。此数据集主要考察的是模型对于建筑物细节信息的学习能力和对多种类型建筑物的综合识别能力。效果分析如下:
由于SegNet在上采样恢复分辨率时只利用了深层次特征,没有将编码器中提取的细节特征融合进建筑物之中,因而此模型提取出的建筑物的细节损失严重,并且出现了较严重的漏识别现象;U-Net模型引入了高底层特征跳跃链接的步骤,恢复了部分细节信息,提取出的建筑物较为规整,符合建筑物的整体形态,但部分建筑物边缘没有恢复完整或识别出现错误,并且容易受到大型建筑物内部差异信息的影响;Attention U-Net模型在U-Net模型的基础上引入了注意力机制,使模型能够着重学习建筑物区域,因而建筑物完整性有了一定的提高,但仍然会受到建筑物内部差异信息的影响;D-LinkNet模型在U型网络的基础上引入了膨胀卷积层,提升了模型的感受野,在一定程度上提升了建筑物完整性,但存在边缘不准确和识别错误的问题;STTNet作为最新的建筑物提取模型,引入了双路Transformer结构,更好地利用了特征的长距离依赖关系,大幅度提升了建筑物提取的准确性,但由于模型中没有针对性地设计边缘优化结构,部分建筑物的边缘不够清晰和完整。
与其他模型相比,本文方法在此数据集上有着更好地表现,由于本文采用了高低层特征注意力融合模块,充分将细节信息与语义信息相融合,提取出的建筑物细节清晰,具有更好的视觉观感,如图11的1、4张影像,虽然STTNet也有较好的建筑物识别效果,但细节处明显不如本文方法更加完整、清晰,此外由于本文引入了多尺度边缘监督分支,对建筑物提取过程进行了边缘的引导,因而建筑物边缘恢复地更加完整、清晰,并且不容易受到大型建筑物内部差异信息的影响,错分情况较少,如图11和图12的1、2张影像,由于建筑物内部色调存在不均匀的情况,部分算法会将建筑物内部色调变化的区域识别为“伪边缘”,本文方法大大避免了“伪边缘”问题的出现。
图13为3种模型在Massachusetts建筑物数据集上提取出建筑物的对比效果,图14为提取出的建筑物对应的边缘效果对比图。Massachusetts建筑物数据集分辨率相对较低,影像的噪声较多,且存在着大量密集的小型建筑物,因而建筑物识别难度更高,主要考察的是模型对噪声的鲁棒性和对小目标的识别精确程度。
SegNet模型在此数据集上的识别效果较差,细节信息损失严重,主要表现是无法平整的识别建筑物边缘,并且难以有效地分开小型建筑物,很多距离较近的小型建筑物出现了粘连现象;U-Net模型在此数据集上的效果相比SegNet有了质的提升,主要表现是小型密集建筑物可以较好地区分开,这主要归功于编解码器跳跃连接步骤,但U-Net模型对于面积较大的建筑物的识别不够完整,并且存在较多的错分现象;Attention U-Net模型引入了注意力机制,相比于U-Net模型建筑物识别的完整程度和准确度稍有提升;D-LinkNet模型引入了膨胀卷积层,提升了提取效果,但部分建筑物识别不够准确;STTNet引入了Transformer,提升了模型的特征提取能力,建筑物提取的准确性和完整性有了较大的提升,但提取出建筑物的边缘和细节仍然不够清晰。
本文方法在此数据集上表现更加优异,本文使用的多尺度边缘监督分支约束了建筑物边缘,从图13和图14的2、3、4张影像可以看出,其他算法难以识别小型的长方形建筑物的准确轮廓,常将小型建筑物识别为椭圆形,本文方法明显提升了小型建筑物的轮廓准确性,从图13和图14的1、2张影像可以看出,由于建筑物内部色调的差异导致的错分情况也被明显避免,此外高低层特征注意力融合模块提升了细节信息与语义信息的融合效果,从图13的第1张影像可以明显看出,相比于其他模型,本文模型提取出的建筑物的在细节上有了很大的进步。
为进一步验证模型性能提升的原因,分别分析了仅使用建筑物提取分支,使用建筑物提取分支+高低层特征注意力融合模块,使用建筑物提取分支+多尺度边缘监督分支,以及三者均使用的本文方法在WHU建筑物数据集和Massachusetts建筑物数据集的提取效果,表3展示了消融实验的精度评价结果,可以看出,相比于仅使用U-Net结构的建筑物提取分支,添加高低层特征注意力融合模块和多尺度边缘监督分支均能提升模型的效果,在WHU建筑物数据集上,F1分数分别提升了0.24%和0.45%,在Massachusetts建筑物数据集上,F1分数分别提升了1.94%和1.24%。其中使用高低层特征注意力融合模块可以丰富建筑物的细节信息,虽然小幅度的降低了准确率,但较大幅度的提升了召回率,而多尺度边缘监督分支约束了建筑物边缘轮廓,主要提升了准确率,本文方法在建筑物提取分支的基础上添加了高低层特征注意力融合模块和多尺度边缘监督分支,在两组数据集上建筑物提取精度表明,本文方法均达到了最优的效果。
本文提出了边缘监督与特征融合的遥感影像建筑物提取模型,在U-Net结构的基础上,添加了多尺度边缘监督分支,通过多尺度边缘约束和后处理边缘增强提升了模型对建筑物边缘的提取能力,提取出的建筑物具有更高精度的边缘轮廓,并且减少了由于建筑物内部色调不均匀导致的“伪边缘”现象,使大型复杂的建筑物能够更完整地提取,此外还添加了高低层特征注意力融合模块,使得编码器中的细节特征得以充分融合至抽象的语义信息之中,最终解码器中输出的建筑物的细节恢复地更加清晰、完整。本文提出的模型在WHU建筑物数据集和Massachusetts建筑物数据集上与其他几种模型进行了对比实验,结果表明,本文模型的建筑物提取和建筑物边缘精度均有一定提升,验证了模型的有效性。
本文模型的不足之处是模型结构较为复杂,模型的训练时间相对较长,后续考虑继续改进模型,降低模型的复杂程度,进一步提升模型的提取精度、对噪声的鲁棒性和泛化性能,并尝试将模型应用于其他更加复杂的地理要素的提取之中。
原标题:
边缘监督与特征融合的遥感影像建筑物提取方法
刘世琦
1
,李旋
2
,丁少鹏
3
,顾海燕
1
,杨懿
1
,李海涛
1