专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

ICLR'25开源 | 北大新作RAP-SAM：迈向全部任务的实时分割一切！

3DCV · 公众号 · · 2025-01-28 00:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：RAP-SAM: Towards Real-Time All-Purpose Segment Anything

作者：Shilin Xu, Haobo Yuan, Qingyu Shi, Lu Qi, Jingbo Wang, Yibo Yang, Yining Li, Kai Chen, Yunhai Tong, Bernard Ghanem, Xiangtai Li, Ming-Hsuan Yang

机构：Peking University、Nanyang Technology University、UC, Merced、Shanghai AI Laboratory、KAUST、Google Research

原文链接：https://arxiv.org/abs/2401.10228

代码链接：https://github.com/xushilin1/RAP-SAM/

1. 导读

在transformer架构的推动下，视觉基础模型(vfm)在性能和泛化能力方面取得了显著进步。任意分割模型(SAM)是一个可以实现广义分割的卓越模型。然而，大多数vfm不能实时运行，这使得很难将它们转移到几个产品中。另一方面，当前的实时分割主要有一个目的，例如对驾驶场景的语义分割。我们认为实际应用需要不同的输出。因此，这项工作探索了一种新的实时分段设置，称为实时通用分段，以在实时部署中传输vfm。它包含三个不同的任务，包括交互式分割、全景分割和视频分割。我们的目标是使用一个模型来实时完成上述任务。我们首先对几个强基线进行基准测试。然后，我们介绍了实时通用SAM (RAP-SAM)。它包含一个高效的编码器和一个高效的解耦解码器来执行提示驱动解码。此外，我们进一步探索不同的训练策略和调整方法，以进一步提高联合训练的性能。

2. 效果展示

我们提出了实时通用分割，用于对图像、视频和交互输入进行对象分割和识别。除了基准测试外，我们还提出了一种简单而有效的基线，称为RAP-SAM，它在三个不同的任务中实现了最佳准确性和速度的权衡。实时全景分割和视频实例分割都显示在右侧。

分割方法的比较。我们提出的RAP-SAM支持各种分割任务，并且可以实时运行。

我们的模型在YouTube-VIs 2019数据集和COCO数据集上的可视化结果。前三行可视化五个输入帧。相同的实例显示为相同的颜色。第四行显示带有单点提示(显示为绿色)的交互式分割结果。最后一行显示全景分割结果。

3. 主要贡献

我们引入了全用途分割，这是一种多任务分割，旨在为图像、视频和交互式输入实时分割对象。

我们为新设置对几种基于变压器的实时测试方法进行了基准测试。

我们提出了一个简单但快速的基准，名为RAP-SAM。它包含一个轻量级的特征提取器、一个统一的解码器和两个非对称适配器。

广泛的实验表明，RAP-SAM在提出的基准和常规实时语义和全景分割基准中实现了最佳的速度和准确性的权衡。我们还展示了跨数据集和应用程序演示的可扩展性。

4. 方法

我们的RAP-SAM是一种简单的编码器和解码器架构。如图2所示，它包含一个主干、一个轻量级的颈部和一个共享的多任务解码器。视觉提示P也是解码器的输入。在SAM之后，我们还采用提示编码器将视觉提示编码为查询。我们采用相同的解码器来处理视觉提示和初始对象查询，以共享更多的计算和参数。然而，两者的目标不同。前者更关注局部细节，而后者也考虑场景和时序特征。为了更好地平衡动态分割和图像/视频分割的结果我们在解码器的末端设计了一个提示适配器和一个对象适配器。推荐课程：国内首个面向具身智能方向的理论与实战课程。

5. 实验结果

6. 总结

在这项工作中，我们探索了一个具有挑战性的实时设置，即通用分割，将更多的分割任务转移到一个模型中。为了解决这个问题，我们引入了RAP-SAM一个实时分割模型，可以在图像、视频和交互式下分割和跟踪对象。我们设计了一个简单的共享解码器，具有两个关键设计:共享动态卷积和非对称适配器，这导致了三个分割任务在速度和准确性之间的最佳权衡。我们希望我们提出的基准激励未来在这个新设置上的研究。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、