专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

SAM已经Out了！TS-SAM：适应下游任务的分割一切！

计算机视觉工坊 · 公众号 · · 2024-08-11 00:30

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

作为在超过1100万张图像上进行预训练的大型视觉模型，Segment-Anything Model（SAM）已引起研究人员的兴趣。然而，最近的研究表明，SAM在包括伪装目标检测（Camouflaged Object Detection，COD）、阴影检测和显著目标检测（Salient Object Detection，SOD）在内的下游任务中难以取得令人满意的性能。

如何更好地将在大规模通用数据集上预训练的大型模型适应于不同的下游任务，是大型模型应用中的一个关键问题。为解决这一问题，已存在大量关于参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）的研究。一些方法采用轻量级的适配器或提示（Prompt）来弥合通用大型模型与各种下游任务之间的差距。在训练过程中，仅更新少量适配器或提示参数，从而降低存储和计算成本。最近，基于旁路网络的微调方法也受到了关注。该方法在大模型中添加一个轻量级的旁路网络，并在训练过程中仅对旁路网络进行微调。旁路网络将大模型主干网络提取的特征调整为满足下游任务的要求。

目前，已有一些工作尝试使用PEFT对SAM进行微调。SAM-Adapter在SAM编码器中引入了轻量级适配器，提高了SAM在COD和阴影检测任务上的性能。SSOM则利用固有的低秩结构对SAM进行自适应微调，从而提高了SAM在SOD任务上的性能。SAM-Adapter和SSOM都是探索SAM在下游任务中应用能力的开创性工作。然而，这些微调后的SAM与最近的特定领域模型之间仍存在显著的性能差距。

在本文中，我们旨在通过设计一种统一的微调策略来解决自注意力机制（Self-Attention Mechanism，SAM）在各种下游任务中表现次优的挑战，以提升SAM在不同应用场景下的有效性。受基于旁路网络的微调方法的启发，我们提出了双流自注意力机制（Two-Stream SAM，TS-SAM），以在不同下游任务中统一微调SAM。具体而言，我们设计了一个轻量级的卷积旁路适配器（Convolutional Side Adapter，CSA），以辅助SAM在各种具有挑战性的场景下运行。此外，根据分割任务的特点，我们提出了多尺度细化模块（Multi-scale Refinement Module，MRM），以提取图像的更精细位置特征，从而实现更细粒度的分割。在解码过程中，我们设计了特征融合解码器（Feature Fusion Decoder，FFD），以在解码过程中整合不同尺度的特征，从而产生更精细的分割结果。

下面一起来阅读一下这项工作~

1. 论文信息

标题：TS-SAM: Fine-Tuning Segment-Anything Model for Downstream Tasks

作者：Yang Yu, Chen Xu, Kai Wang

机构：天津大学

原文链接：https://arxiv.org/abs/2408.01835

代码链接：https://github.com/maoyangou147/TS-SAM

2. 摘要

为了提升自注意力机制（Self-Attention Mechanism，SAM）在下游任务中的性能，已对基于适配器的微调方法进行了研究。然而，微调后的SAM与特定领域模型之间仍存在显著的性能差距。为了缩小这一差距，我们提出了双流自注意力机制（Two-Stream SAM，TS-SAM）。一方面，受参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）中旁路网络的启发，我们设计了一个轻量级的卷积旁路适配器（Convolutional Side Adapter，CSA），该适配器将SAM的强大特征集成到旁路网络训练中，以实现全面的特征融合。另一方面，根据分割任务的特点，我们设计了多尺度细化模块（Multi-scale Refinement Module，MRM）和特征融合解码器（Feature Fusion Decoder，FFD），以同时保留详细特征和语义特征。在来自三个任务的十个公共数据集上进行了大量实验，结果表明，TS-SAM不仅显著优于最近提出的SAM-Adapter和SSOM，而且与最先进的特定领域模型相比也取得了具有竞争力的性能。我们的代码可在以下网址获取：https://github.com/maoyangou147/TS-SAM。

3. 效果展示

图1展示了在COD10K数据集的部分图像上，所提出的TS-SAM与SAM、SAM-Adapter以及最先进（SOTA）的特定领域模型之间的比较，展示了TS-SAM的优越性。此外，TS-SAM是轻量级的，其ViT-h版本仅需要29.44M个可训练参数，占总模型参数量的4.4%，这使得不同下游任务仅需存储少量参数副本。

4. 主要贡献

本文的主要贡献总结如下：

1）我们首次将旁路网络引入SAM的微调中。创新性地提出了双流旁路网络结构，有效地从SAM编码器中提取特征。

2）我们针对分割任务提出了多尺度细化模块（MRM）和特征融合解码器（FFD）。这些模块通过高分辨率的层次特征获取精细的目标位置信息，并在解码过程中充分融合这些信息，以实现详细的分割结果。

3）我们在来自三个任务（包括COD、阴影检测和SOD）的十个公共数据集上评估了所提出的TS-SAM。实验结果表明，TS-SAM在针对这些下游任务微调SAM的近期工作中表现显著优于其他方法，甚至与专为每个任务设计的最先进（SOTA）特定领域模型相比也具有竞争力。

5. 基本原理是啥？

图2(a)展示了所提出TS-SAM的总体架构。我们采用预训练的SAM ViT作为主干网络，并为下游任务的微调设计了一系列轻量级模块。给定一张图像I ∈ R^(3×H×W)，通过SAM图像编码器提取视觉特征Fvit ∈ R^(C×H/16×W/16)。同时，通过堆叠的卷积旁路适配器（CSA）逐层提取SAM图像编码器的特征，得到适应于下游任务的图像特征Fcsa ∈ R^(C1×H/16×W/16)。为了从图像编码器中提取更详细的特征，我们提出了多尺度细化模块（MRM）。MRM对上采样来自图像编码器各层的特征嵌入，创建了一个层次化的特征表示{Fk_mrm}^2_{k=1}。进一步地，一个轻量级的门控单元连续地将来自SAM图像编码器较低层到较高层的特征进行合并，从而收集更丰富的图像细节特征。在解码过程中，我们没有使用SAM的掩码解码器，因为SAM解码器需要如点或框等提示才能达到良好效果，而通过单次前向传播分割多个目标具有挑战性。因此，我们设计了轻量级的特征融合解码器（FFD），将层次化特征表示{Fk_mrm}^2_{k=1}注入到从CSA获得的特征Fcsa中，以增强特征表示，从而获得精细的分割掩码。FFD在Fcsa的上采样过程中逐步合并层次化特征表示，通过两阶段注入方法突出层次化特征表示中的关键信息。最后，为了降低训练成本，在训练过程中冻结SAM图像编码器，仅训练卷积旁路适配器、多尺度细化模块和特征融合解码器，且这三个组件均为轻量级。