-
论文题目:
Samba: Semantic Segmentation of Remotely Sensed Images with State Space Model
-
论文链接:
https://arxiv.org/ftp/arxiv/papers/2404/2404.01705.pdf
-
论文代码:
https://github.com/zhuqinfeng1999/Samba
-
摘要
本文基于Mamba提出了一个针对高分辨率遥感图像的语义分割框架,命名为
Samba
。
-
-
以
Samba
块作为编码器,有效提取多级语义信息
-
在LoveDA数据集上评估了Samba,并将其性能与顶尖的CNN和ViT方法进行了比较。结果显示,Samba在LoveDA上取得了无与伦比的性能。
背景
-
高分辨率图像处理的挑战
:传统的CNN方法在处理高分辨率遥感图像时受限于其有限的感受野,这影响了模型对图像中细节的捕捉能力。
-
计算复杂度问题
:ViT虽然通过全局注意力机制克服了感受野限制,但其在处理遥感图像时随着分辨率的提高,计算复杂度呈指数增长,尤其是在计算图像块间的注意力机制时。
-
训练数据的需求
:ViT需要大量的训练数据来优化模型,但在遥感图像领域,这样的数据往往是稀缺的,这对模型的训练和泛化能力构成了挑战。
-
特征提取效率
:现有的深度学习方法在提取图像特征时可能效率不高,特别是在需要处理大量序列数据时,需要更高效的特征提取方法来改善模型性能。
方法
模型总览
Samba Block
在本文方法中,采用了Mamba块和MLP的结合,以增强模型的表示能力,并加强其对复杂数据的学习能力
-
ViT编码器使用多头自注意力机制来捕获不同表示子空间内的信息,接着通过残差连接和层归一化(LN)来减轻梯度消失问题。随后,使用前馈网络(FFN),该网络由MLP和LN组成,引入非线性变换并整合由多头自注意力细化的复杂信息。
-
受到ViT编码器强大架构的启发,Samba块采用了类似的架构,通过用
Mamba块替换多头自注意力
来构建。这个Mamba块用于从高分辨率图像序列中提取特征,避免了计算中的二次复杂度。
Mamba Block
Mamba的核心状态空间模型可以通过带有演化参数的线性常微分方程来表示:
其中 x(t) 表示输入序列,h(t) 表示潜在状态,h′(t) 表示潜在状态的更新,y(t) 表示预测的输出序列。状态空间模型(SSM)通过潜在空间 h(t) 将 x(t) 映射到响应y(t)。离散输出基于输入结果的时间步长从采样值中获得。方程(1)和(2)可以离散化如下:
实验
数据集和评价指标
数据集:
LoveDA数据集,空间分辨率为0.3米的遥感图像。它包括2522张训练图像、1669张验证图像和1796张测试图像,其中验证集用于性能评估。
评价指标:
实验设置
使用随机调整大小、随机裁剪、随机翻转和光度失真来增强训练数据。具体的训练设置总结在
表1中
。所有实验都是使用两块NVIDIA RTX 3090 GPU和两块4090D GPU进行的。
对比实验
结论
得益于SSM在长序列中的强大的归纳能力,Samba在考虑的数据集中展现出卓越的分割结果。与其它方法相比,Samba提供了更完整和准确的大面积地形区域分割,然而,与ViT类似,它对局部细节的关注较少,导致某些
小物体的遗漏
,并产生误负错误。这一观察指出了需要额外策略来减轻过度泛化的特征归属对分割性能的影响。
建议未来调查可以朝以下方向进行:
-
尽管Mamba基于方法在长序列感应能力和低计算复杂性方面具有优势,但其在
提取局部信息方面
的能力是有限的。未来的工作可以探索将Mamba与CNN结合,以增强捕捉细节的能力。
-
鉴于对标注遥感图像数据的获取有限,迁移学习被认为是分割任务中的一项重要技术。可以在大规模数据集上进行训练以获得预训练模型,例如ImageNet。探索针对Mamba架构量身定制的高效且有效的迁移学习方法也是一个潜在的研究方向。
-
由于Mamba基于方法在处理长序列方面表现良好,探索它们在
多通道数据
的语义分割中的应用是有价值的,例如高光谱数据。