专栏名称: GEE遥感训练营
专注GEE遥感算法,包括遥感影像下载、遥感影像制图、遥感GIS空间分析、遥感生态评价、遥感影像融合、遥感去干扰等多元遥感云计算
目录
相关文章推荐
51好读  ›  专栏  ›  GEE遥感训练营

遥感论文 | TGRS | FTransUNet:基于CNN和ViT的多级多模态遥感语义分割框架,代码已开源!

GEE遥感训练营  · 公众号  ·  · 2024-03-11 15:45

正文

请到「今天看啥」查看全文


  • 论文题目: A Multilevel Multimodal Fusion Transformer for Remote Sensing Semantic Segmentation
  • 论文链接: https://ieeexplore.ieee.org/document/10458980
  • 论文代码: https://github.com/sstary/SSRS
  • 发表时间: 2024.3.7

摘要

本文提出了一种名为 FTransUNet 的多级多模态融合方案,通过将CNN和ViT整合到一个统一的融合框架中,为语义分割提供了一个健壮且有效的多模态融合骨干。

  • 首先,通过卷积层和浅层特征融合(SFF)模块提取并融合浅层特征。
  • 之后,通过精心设计的Fusion ViT(FVit)提取并融合表征语义信息和空间关系的深层特征。它在三阶段方案中交替应用自适应相互增强注意(Ada-MBA)层和自注意力(SA)层,以学习高类间可分性和低类内变化的跨模态表示。
  • 具体来说,所提出的Ada-MBA并行计算SA和交叉注意力(CA),同时增强类内和跨模态上下文信息,同时引导注意力分布朝向语义感知区域。
  • 最终,FTransUNet能够在多级方式中融合浅层和深层特征,充分利用CNN和变换器分别准确表征局部细节和全局语义。

广泛的实验证实了所提出的FTransUNet与其他多模态融合方法相比,在两个高分辨率遥感数据集,即ISPRS Vaihingen和Potsdam上具有优越的性能。

背景

  1. 多模态数据融合挑战 :有效整合光学、多光谱、高光谱、SAR和LiDAR等多模态遥感数据,以提供全面的地表特征描述,同时解决多模态数据的不兼容性问题。
  2. 全局上下文建模不足 :现有基于CNN的方法在提取局部细节方面表现出色,但在捕捉长距离依赖和全局上下文信息方面存在局限性。
  3. 特征提取与融合策略局限性 :传统机器学习方法在语义特征提取能力上较弱,且现有多模态融合策略未能充分利用不同模态数据的互补性,忽视了跨模态依赖性。
  4. 遥感图像复杂性处理 :遥感图像的复杂性,包括光谱异质性和空间结构的复杂性,要求模型具备更强的学习能力,以有效处理地面物体的规模和形状变化。

方法

图1 展示了所提出的框架的概述。

CNN Fusion

X ∈ R^(H×W×3 ) Y ∈ R^(H×W×1) 分别表示 可见光(VIS)图像 及其对应的 数字表面模型(DSM)数据

使用双分支编码器,首先使用一个分支从每个模态中提取多尺度特征

通过SFF模块融合由卷积操作提取的浅层特征

  • SFF模块首先在VIS和DSM分支中分别使用全局平均池化(AvgPool)聚合全局信息。
  • 给定第i个SFF模块的输入通道大小Ci,通过AvgPool和两个核大小为1×1的卷积操作进行挤压和激励过程
  • 然后是ReLU和Sigmoid函数。
  • 最后,VIS和DSM的特征进行加权并逐元素相加,生成结果的融合浅层特征。

FVit

FVit编码器的输入依次经过三个过程,包括

  • 用于深层特征增强的SA层

  • 用于深层特征融合的Ada-MBA层

  • 以及用于融合特征增强的另一部分SA层,SA层旨在使用 多头自注意力机制 为每种模态推导出全局关系。数学上,第n个SA层的输出,对于n = 1, 2, 3,可以如下表示:

  • 在SA层执行深层特征增强之后,FVit使用N2个Ada-MBA层在具有丰富上下文信息的抽象语义空间中进一步融合多模态特征,如图3(b)所示。在这个深层特征融合阶段, Ada-MBA 模块同时计算CA(交叉注意力)和SA(自注意力),以学习主模态和辅助模态之间的相关性。Ada-MBA层的输出可以表示为:
  • Ada-MBA如图4所示,过程如下
  • 融合SA(自注意力)和CA(交叉注意力):

Cascaded Decoder

如图1所示 ,级联解码器通过利用多个上采样模块恢复隐藏的融合特征,用于最终的分割过程。更具体地说,

  • 解码器首先使用重建模块将2D输入序列zN重塑为3D张量,其中Cdec是解码器第一个块的输入通道数。
  • 之后,多个级联解码器块通过连接来自相应CNN骨干网络层的跳跃连接,将空间分辨率恢复到H×W。每个解码器块包括一个上采样操作符、一个卷积(Conv)层和一个ReLU层。
  • 最后,分割头执行最终的语义预测。

实验

数据集

  1. Vaihingen数据集: Vaihingen数据集包含16张非常高分辨率的真实正射影像(Orthophotos),平均大小为2500×2000像素。每张正射影像有三个通道,分别是近红外、红色和绿色通道(NIRRG),以及一个地面采样距离(GSD)为9厘米的标准化数字表面模型(DSM)。
  2. Potsdam数据集: Potsdam数据集由24张非常高分辨率的真实正射影像组成,每张影像的大小为6000×6000像素。它提供四个多光谱通道,即红外、红色、绿色和蓝色(IRRGB),以及一个地面采样距离(GSD)为5厘米的标准化数字表面模型(DSM)。

实现细节

  • 实验全部使用PyTorch在一块NVIDIA GeForce RTX 3090 GPU(24GB RAM)上实现。所有模型都使用随机梯度下降(SGD)算法进行训练,学习率为0.01,动量为0.9,衰减系数为0.0005,批量大小为10。
  • 在滑动窗口收集样本后,应用了简单的数据增强,例如随机旋转和翻转。所提出的FTransUNet使用的CNN骨干网络由两个ResNet50模型组成,每个模型包含四个卷积层,即I = 4,隐藏大小为Chid = 768。
  • FVit总共有N1 + N2 + N3 = 12个Transformer层,其中N1 = 3,N2 = 6,N3 = 3。每层的头数设置为H = 12,通道大小设置为Cdec = 512。
  • 最后,所有的变换器骨干网络和ResNet50都在ImageNet上进行了预训练,以获得更好的初始化。

实验结果

VAIHINGEN DATASET 实验结果

POSTDAM DATASET 实验结果

对Potsdam数据集的IRRGB四个波段进行了 光谱分析 。分析旨在比较IRRG和RGB在单模态和多模态分割任务中的差异, 如表IV所示

表V 使用Vaihingen数据集和Potsdam数据集比较了每个类别的准确性。虽然所提出的FTransUNet在两个数据集上都显著提高了整体性能,但低植被和树木的准确性在两个数据集上表现出略有不同的变化模式。

结构分析

消融实验

模型复杂度分析

结论

本文提出了一种新颖的 多级多模态融合方案FTransUNet ,用于遥感数据的 语义分割 ,该方案利用了CNN和基于ViT的融合的协同效应。具体来说,

  • 设计了一个配备SFF模块的基于CNN的架构,用于提取和融合多个尺度上的详细浅层特征,随后是一个执行深层语义特征提取和融合的融合视觉变换器(FVit)。
  • 所提出的三阶段FVit能够有效地表征遥感数据的复杂内容,利用新颖的Ada-MBA模块,该模块使用SA提取深层特征,并使用相互关联机制指导多模态深层特征的融合。
  • 在ISPRS Vaihingen和Potsdam两个数据集上的广泛结果证实,所提出的FTransUNet与最先进的分割方法相比能够实现卓越的性能。

这项研究有几个可以进一步探索的扩展方向。特别是,

  • 区分树木和低植被仍然是一个挑战。因此,利用新策略来处理颜色相似且边界不规则的地面物体是有趣的。
  • 此外,由于为高分辨率遥感图像生成DSM数据是劳动密集型的,探索基于图像的高程估计对于下游遥感任务具有很大的实际兴趣。
  • 最后,将大规模模型(如分割任何模型SAM)纳入遥感语义分割框架中也是值得研究的。







请到「今天看啥」查看全文