专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

延续SAM-Adapter的成功，魔芯科技、科大等提出SAM2-Adapter，让SAM2实现下游任务SOTA!

我爱计算机视觉 · 公众号 · · 2024-08-10 11:34

正文

关注公众号，发现CV技术之美

本篇分享论文 SAM2-Adapter: Evaluating & Adapting Segment Anything 2 in Downstream Tasks: Camouflage, Shadow, Medical Image Segmentation, and More ，延续 SAM-Adapter 的成功，魔芯科技、科大等提出 SAM2-Adapter，让 SAM2 实现下游任务SOTA!

项目页面：http://tianrun-chen.github.io/SAM-Adaptor
论文链接：https://arxiv.org/abs/2408.04579
开源代码：https://github.com/tianrun-chen/SAM-Adapter-PyTorch

“SAM-Adapter的成功经验同样适用于SAM2！”

在AI研究领域，基础模型的引入已经彻底改变了研究的格局，尤其是当这些模型基于庞大的数据集进行训练时。

近期，Segment Anything (SAM)模型因其在图像分割任务中的卓越表现而备受瞩目。尽管如此，先前的研究指出，SAM在处理一些具有挑战性的低级结构分割任务时存在性能瓶颈。

为了克服这些限制，研究者在SAM发布后不久便提出了SAM-Adapter，旨在通过增强SAM的功能，提升其在这些任务中的表现。SAM-Adapter 的架构如图所示。

随着时间的推进，一个更为强大和通用的模型——Segment Anything 2 (SAM2)——应运而生。SAM2在网络架构上进行了优化，并在更广泛的视觉数据上进行了训练，引起了科研界的广泛关注。这引发了两个关键问题：

SAM在下游任务中遇到的挑战是否同样存在于SAM2？
是否能够借鉴SAM-Adapter的成功经验，利用SAM2的先进预训练编码器和解码器，在这些任务中达到新的最前沿（SOTA）水平？

本研究的实验结果对这两个问题都给出了肯定的答案。尽管基础模型的固有局限性仍然存在，例如训练数据无法完全覆盖所有可能的场景，但通过引入SAM2-Adapter，研究者成功地在多个任务中实现了SOTA性能。

SAM2-Adapter不仅继承了SAM-Adapter的核心优势，还引入了显著的改进。以下是 SAM2-Adapter的主要特点 ：

广泛的适用性：SAM2-Adapter能够适应各种任务，并在自定义数据集上实现优异的性能，几乎不需要额外的数据增强。
高度的灵活性：SAM2-Adapter支持多种条件的集成，以微调SAM2，从而在特定任务上取得更好的结果。

SAM2-Adapter通过利用SAM2的多分辨率分层Transformer架构，进一步增强了这些优势。通过多个适配器的协同工作，SAM2-Adapter有效地利用了SAM2的多分辨率和分层特性，实现了更为精确和鲁棒的分割效果。网络结构图如下所示：

“SAM2可以代替SAM在特定任务中实现SOTA表现”

本研究在多个任务和数据集上进行了广泛的实验，包括ISTD和COD10K数据集用于阴影检测，CHAMELEON和CAMO数据集用于伪目标检测，以及kvasir-SEG数据集用于医学图像分割任务。这些实验结果证明了SAM2和SAM2-Adapter在实现SOTA性能方面的潜力。

伪目标检测可视化结果如下

阴影检测结果如下

息肉分割实验结果如下

总结与展望

延续SAM-Adapter的成功，魔芯科技、科大等提出SAM2-Adapter，让SAM2实现下游任务SOTA!

正文

请到「今天看啥」查看全文