导读
从遥感(RS)图像中提取和分割目标在 urban 环境监测中是一项关键且具有挑战性的任务。城市形态本身复杂,包含形状和尺度各异的非规则物体。这些挑战因 RS 数据源(包括传感器、平台和模式)的异质性和尺度差异而加剧,使得准确的目标分割特别具有挑战性。虽然 Segment Anything Model(SAM)在分割复杂场景方面显示出巨大的潜力,但由于需要手动交互 Prompt ,其在处理形状变化的物体方面的性能仍然有限。为此,作者提出了 UrbanSAM,这是 SAM 的一个定制版本,专门设计用于分析复杂城市环境,同时解决来自遥感观测的尺度效应问题。
受多分辨率分析(MRA)理论的启发,UrbanSAM 集成了一种新颖的可学习 Prompt 器,配备了一个 Uscaling-Adapter,该 Adapter 遵循不变性准则,使模型能够捕捉到物体的多尺度上下文信息,并以理论保证适应任意尺度的变化。此外,通过 Mask 交叉注意力操作,Uscaling-Adapter 和主干编码器的特征对齐,使得主干编码器能够继承 Adapter 的多尺度聚合能力。这种协同作用增强了分割性能,产生了更强大、更准确的结果,这些结果得到了学习 Adapter 的支持。
大量的实验结果表明,UrbanSAM 在一个全局规模的数据库上表现出灵活性和优越的分割性能,该数据库包含尺度变化的 urban 物体,如建筑物、道路和水。
1. 引言
城市地表特征的局部分布揭示了自然环境与社会经济因素之间的复杂相互作用,为城市规划、灾害响应、人口统计和交通等城市管理应用提供了关键见解。凭借无与伦比的广域覆盖范围,合成孔径雷达(SAR)图像成为高效大规模城市分析的关键数据源[1]。航空航天和传感器技术的最新进展显著提高了遥感(RS)数据的数量、空间分辨率和时间频率,为高精度城市地表制图开辟了新的机遇。然而,这一快速发展也带来了以下挑战,需要进一步关注:
·挑战1(参照:高异质性和复杂物体特征):城市场景由多种类型的物体组成,这些物体在光谱、纹理和形态特征上存在显著差异。这种异质性显著增加了分割任务的复杂性,因为传统方法难以泛化到具有不同外观和结构的物体。
挑战2(与高分辨率和细粒度相比):空间分辨率的提高有助于更精细地描绘城市地表特征,增强了捕捉复杂细节的能力。然而,这种改进也带来了挑战,例如冗余信息和噪声干扰增加,需要仔细平衡分辨率、计算效率和分割精度之间的关系。
挑战3(参见高空间密度和多样化布局):文化和自然差异导致了全局城市环境的多样性,其中内部地理结构呈现出各种大小、形状和密集的布局模式。这种空间复杂性阻碍了明确区分不同目标类别,使得精确分割变得尤为困难。
为有效解决上述城市地表分割的挑战,开发能够无缝捕捉城市环境多样、多尺度、异构特性的模型至关重要。基础模型[2]在人工智能领域引发了一场技术革命,通过在庞大的数据集上进行大规模预训练,实现了可泛化的理解和表征能力[3]-[6]。这些能力可以有效地跨领域和下游应用进行迁移[7]、[8],推动人工智能研究和实践的重大进步。受到这一快速进步的推动,SAM[9],第一个专门为图像分割设计的基础模型,在数百万张图像和超过十亿个 Mask 上进行预训练。SAM的出现引领了以 Prompt 驱动的分割新范式,这促进了其在广泛领域的应用,包括计算机视觉[10]、[11]、医学影像[12]-[14]、工业检测[15]-[17]和自动驾驶[18]-[20]。目前,SAM正在积极探索在遥感(RS)领域,通过高质量预测来提升分割任务性能。例如,MeSAM[21]在SAM编码器中嵌入了一种新型 Adapter ,以改善RS光学图像的高频特征。RSAM-Seg[22]利用残差网络连接丰富了高频信息。SCD-SAM[23]引入了双编码器结构,在结合局部信息的同时提取语义变化特征。[24]将特定类别任务与文本 Prompt 相结合,生成通用示例。CWSAM[25]采用类 Mask 解码器来增加SAR图像中的低频信息。Rsprompter[26]利用基于 Anchor 点的 Prompt 生成器和 Mask 解码器来处理特定类别输入,例如分割。SAGFFNet[27]使用自适应模块在输入之前降低高光谱图像的维度。SAMRS[28]引入了一个由旋转边界框 Prompt 生成的大规模RS分割数据集。UV-SAM[29]利用来自小语义分割模型的混合 Prompt 信息来指导SAM进行细粒度边界检测。
SAM相关技术在遥感(RS)城市应用中主要可以分为三种关键方法。(1)样本标注。SAM能够实现快速、高精度的半自动化标注,显著减少了手动标注所需的时间和精力。(2)针对特定任务的微调。MAF-SAM[30]引入了一种多阶段适应策略,用于使用多光谱图像对土地覆盖进行分类时微调SAM。SAM-Road[31]-[33]将SAM应用于道路分割任务,而水体提取主要集中于微调 Mask 解码器[34]、[35]。(3)将额外的辅助信息作为 Prompt 融入。YOLOScSAM[36]利用YOLO生成的 Anchor 框作为 Prompt 输入,引导SAM分割农田区域。SAM与CLIP[37]结合用于海冰提取,以实现海冰区域的精确分割和分类。SPA[38]提出利用现有的目标检测边界框作为 Prompt ,结合SAM创建新的语义分割数据集。RSPrompter[26]利用特征聚合器在SAM的编码器中定位目标并推理其语义类别。MW-SAM[39]引入特定的湿地特征以增强 Prompt 输入。SolarSAM[40]应用文本引导的语义分割,以准确分割建筑屋顶。
SAM在遥感领域的探索还远未穷尽,因为当前的应用主要作为辅助工具,或者依赖于为单一任务目标量身定制的未充分发展的微调策略。为了在全局城市场景中实现稳健的分割,当前SAM实施中存在的一些差距可以概括如下:
-
• 间隙1(与尺度效应比较):RS成像方式导致同一物体在不同分辨率下表现出不同的表面语义特征。此外,不同物体类别在特定空间尺度上的空间分布和关键特征更能得到良好表示。因此,尽管SAM可能针对特定任务进行了微调,但它通常难以适应其他任务中的尺度变化,最终损害了特征提取的准确性。
-
• 漏洞2(参照手动 Prompt ):交互式SAM框架的分割性能高度依赖于提供的 Prompt 的准确性。然而,在全面区域分割任务中,高质量的手动标注往往有限。通常可用的Sparse Prompt 可能无法全面覆盖整个样本空间,导致算法稳定性降低和分割结果不一致。
为了有效解决上述挑战,作者旨在设计一种具有自适应 Prompt 的分割模型,能够处理各种城市形态的多样性和异质性。受MRA理论启发,作者研究了城市土地覆盖类型在不同分辨率下的分割性能,得出以下关键观察结果如图1所示:
-
1. 有限的点和边界框 Prompt 限制了SAM的感受野,这对于道路和水体等细长目标尤其成问题,往往导致显著的遗漏。
-
2. 从多分辨率视图的分割结果来看,与MRA理论一致,虽然内部结构中可能存在某些遗漏或误报,但观察到多视图之间的固有不变性。值得注意的是,目标区域感受野与整个图像的比例保持稳定。
基于这些发现,作者提出了一种灵活的 Adapter ,旨在学习跨多个分辨率的尺度不变特征。不同于现有方法中常用的传统卷积流程,作者引入了一系列符合MRA的U形 Adapter ,以解决由不同分辨率、尺度形状带来的挑战。重要的是,作者引入了交叉注意力机制,以将 Adapter 与 Backbone 编码器对齐,实现不变学习的迁移,同时取代传统的手动交互 Prompt 。
图1展示了所提出的UrbanSAM的设计概念,突出了其在解决尺度效应和提高复杂城市环境中的分割性能方面的重大贡献。
-
• 针对全局城市场景的定制化SAM。据作者所知,所提出的UrbanSAM是第一个针对城市建筑中的物体提取和分割进行定制的基座模型。通过学习多尺度上的不变属性,UrbanSAM有效地消除了对人工交互 Prompt 的依赖,实现了对多样化城市特征的鲁棒且精确的分割。
-
• 基于不变性理论的启发,UrbanSAM采用多个U缩放 Adapter 来捕捉跨多种尺度不同城市形态的潜在共性——即内在的、保持不变的性质。这有助于实现鲁棒且一致的特征表示,有效应对城市环境中的全局变化。
-
• 注入特定领域先验。根据层次继承原则,UrbanSAM整合了跨注意力机制,以系统地对多个 Adapter 在不同阶段与 Backbone 编码器进行对齐。这种集成使编码器具备了更强的学习不变性的能力,进而产生可学习的 Prompt 。这种方法不仅增强了分割结果鲁棒性,还消除了对手动 Prompt 的依赖,使系统更加高效且能够适应多样化的城市环境。
-
• 多尺度 Adapter 。UrbanSAM具备一个执行采样操作的调节器,以适应任意尺寸的输入图像。此外,U型 Adapter 能够有效地在特定分辨率下捕捉全面的上下文语义信息,减轻由尺度调整引起的精度损失,并实现跨不同空间尺度更精确和完整的特征提取。
-
• 优异性能。UrbanSAM在多种城市物体提取任务中表现出卓越的性能,例如建筑、水域和道路提取。通过持续超越现有最先进的方法,它展示了在城市环境复杂性方面的非凡有效性、鲁棒性和泛化能力。
2. 受多分辨率分析启发的不变性学习
A. 多分辨率分析理论
从计算机视觉的角度来看,仅基于单个像素值直接分析全局图像信息存在重大挑战。相反,更加强调局部变化,因为这些区域通常对应于感兴趣目标的关键特征。为了避免由过饱和引起的冗余计算,只有通过确定最佳尺度或分辨率,才能实现更全面的分析。然而,图像中目标尺寸的巨大变化使得预先定义一个适用于分析的通用分辨率变得复杂。自适应多尺度方法通过动态调整以适应不同的目标尺寸和分辨率,从而实现更准确的分析。
MRA的概念在[41]中被定义,该理论从理论上证明了其在不同尺度上的不变性。这一理论保证为多分辨率图像表示提供了重要的基础和来源。
不变性。存在一个最优基
,由函数
构成和转换
定理
(Rieze 基):设
为
的多分辨率逼近。尺度函数
满足以下条件:
当函数序列
在
时收敛到
的情形下,进行逼近。假设分辨率
包含了较低分辨率
中的所有信息。
是一个观测函数,具有
个子空间序列
。定理
:在所有不同的分辨率下,逼近操作相似,这表明目标子空间可以通过其他尺度逼近来推导或表征。
MRA理论断言,任何复杂的图像空间都可以表示为一系列系数
和最优基函数空间
的乘积,其中基函数可以灵活缩放以适应任何分辨率。这一理论意味着对于每一幅图像,都存在一个分辨率不变的基函数空间,它封装了图像的全局内在结构属性,在分辨率变化的情况下保持不变。因此,推导出这个基函数空间为解决由全局图像多样性带来的挑战提供了一种稳健的方法。
B. U-Scaling:构建一个用于感知不变性的精细 Adapter
卷积定理表明,卷积运算在信号的频域中相当于乘法,这一原理也适用于图像处理。因此,一种常见的方法是直接或简单地将卷积流用于连接两条路径上的对应层。然而,城市遥感(RS)图像通常具有复杂的语义场景,这进一步增加了分析难度。此外,RS图像中显著的尺度变化——从1000米到0.5米的地面采样距离(GSD)——使得单尺度图像分析既具有挑战性又不够充分。这种尺度多样性往往导致无法捕捉到关键细节或完全反映实际城市场景中的语义上下文。
U型编码器被设计为多尺度特征的从上到下的级联组合,范围从浅层
到深层
。相比之下,解码器以自下而上的方式从深层
到浅层
聚合多尺度特征,从而纠正并增强特征表示能力。毫无疑问,这与方程(3)中描述的不变性学习近似相一致。根据定理,在整个可扩展过程中,将涉及分辨率基空间的表达式,使模型能够学习不随分辨率变化的内在图像属性,无论输入图像大小如何。
这自然促使作者通过MRA对城市遥感图像的尺度特征进行建模。更具体地说,作者旨在通过学习跨多个分辨率的场景内在尺度不变性来消除对人工 Prompt 的依赖,从而实现对SAM的自适应和有效 Prompt 引导。作者提出了一种由四个U-Scaling模块组成的 Adapter (如图3所示),其中每个U-Scaling模块被设计用来逼近不同分辨率下各种形式的最佳基空间。这种配置允许在任何分辨率和形式下有效地分割目标。通过连接所有 Adapter 并应用加权调整,UrbanSAM动态地解决了全局城市结构异质性带来的挑战。
具体而言,当图像特征
被输入到 Adapter 中的U-Scaling模块时,它们首先经过两次卷积映射。同时,ReLU激活函数的应用促进了在更高分辨率下特征空间的非线性变换。随后,使用MaxPooling操作有效地利用上下文信息,在较小的步长范围内实现不同分辨率之间的无缝过渡。最终,U-Scaling模块内同一尺度的特征通过残差连接进行聚合,从而增强了特征表示的完整性。该表达可以形式化表示为:
和
分别代表编码器和解码器的特征计算结果。
表示第
个 Adapter 在第
次尺度变换中的映射系数,实验中将
设置为 2。
表示第
个 Adapter 的输入特征。
3. URBANSAM:针对城市场景的定制化SAM
在本节中,作者系统地介绍了所提出的UrbanSAM,如图2所示,提供了其设计和功能性的详细概述。最初,一个由多个U-Scaling模块组成的 Adapter ,受MRA理论启发,充当了一个关键的桥梁。交叉对齐机制促进了不变性学习能力向UrbanSAM图像编码器的转移,并将它们整合到LoRA参数的学习过程中。随后,跨多个分辨率的不变内在特征生成 Mask Prompt ,消除了对手动制作 Prompt 的依赖。值得注意的是,作者采用LoRA技术冻结了SAM中transformer块的核心参数,而只训练额外的LoRA参数。这种方法增强了UrbanSAM的泛化能力,并减轻了由变化的数据分布引起的偏差。以下提供更详细的说明。
A. 不变性迁移
通过使用交叉对齐, Adapter 的不变性学习能力被转移到图像编码器中。
同时,多尺度 Mask 预测结果被用于约束 Prompt 生成器的注意力区域,从而增强了自适应 Prompt 生成器的特征表示能力。
跨对齐机制。本节主要利用跨分支 Mask 注意力算子,在不同尺度上的U-Scaling输出
和ViT通过全局注意力块后的特征输出
,获得融合输出
。具体公式如下:
Softmax函数表示为whereSoftmax
。
对应于Query、Key、Value的参数矩阵,将特征维度从
映射到
,其中
表示交叉分支 Mask 注意力模块的维度,
表示通过sigmoid函数获得的预测结果的背景概率。在采样调整后,背景概率乘以通过softmax获得的权重矩阵中的元素。
低秩自适应(LoRA)。在基于LoRA的映射层中,作者将原始投影层的权重矩阵表示为W,并保持其冻结。通过包含两个线性层的快捷连接实现低秩近似。这些层的权重矩阵分别表示为
和
,其中
。矩阵
以随机高斯分布初始化,而
初始化为零,确保
的初始值为零。因此,修改后的投影层可表示如下: