专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

远超SAM！兼容各种传感器！MM-SAM：多模态分割一切！

3DCV · 公众号 · · 2024-08-22 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

编辑：3DCV

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

通过利用灵活的几何提示，如点、框或粗略掩码，最新的Segment Anything Model（SAM）已成为一种用于通用掩码分割的最先进的视觉基础模型。然而，该模型在数十亿规模的RGB图像掩码上进行训练，因此专为光学RGB相机设计，而在处理其他视觉传感器模式时往往表现不佳甚至失败。这一局限性限制了SAM的适用性，因为我们正面临着日益增多的多模态数据和传感器套件，这些套件集成了多个传感器以捕获互补和配对的数据。至关重要的是，要将SAM的功能扩展到RGB相机之外，以便利用不同传感器的独特优势，并在复杂和动态的情况下提高感知的鲁棒性和准确性。

本文提出了MM-SAM，即一种多模态SAM，它将SAM扩展到由各种传感器套件捕获的多模态数据。我们的目标是使用轻量级模块对预训练的SAM进行适配，以实现针对单个传感器模式的跨模态分割和传感器融合下的多模态分割。为此，MM-SAM在将SAM适配为多模态数据的过程中解决了几个主要挑战：

• 将SAM适配于跨传感器的异构数据。我们设计了无监督跨模态迁移（UCMT），该方法将模式特定的补丁嵌入模块和参数高效的微调整合到SAM的图像编码器中，从而促进了模式特定的传感器特征的提取。UCMT包括一个嵌入统一损失，该损失在SAM图像编码器的输出潜在空间内强制不同传感器模式间的统一表示，确保分割与提示编码器和掩码解码器的兼容性。这种简单且轻量级的设计使MM-SAM在单个模式上具有卓越的分割能力。推荐学习： PCL点云处理库-QT-VTK高阶实践班

• 将SAM适配于协同传感器融合。我们设计了弱监督多模态融合（WMMF），其特点是具有一个轻量级的选择性融合门，用于多模态嵌入的自适应融合。选择性融合门能够在复杂和动态的情况下实现有效的传感器融合，与仅使用单个模态相比，大大提高了分割的鲁棒性和准确性。

• 面向不同传感器的标签高效SAM适配。MM-SAM在适配过程中不需要掩码标注。具体而言，UCMT利用传感器套件中的未标记多模态数据，而WMMF则引入多模态伪标注来训练具有给定几何提示的选择性融合门。这种标签高效的适配显著扩展了MM-SAM的适用性。

下面一起来阅读一下这项工作~

1. 论文信息

标题：Segment Anything with Multiple Modalities

作者：Aoran Xiao*, Weihao Xuan*, Heli Qi, Yun Xing, Ruijie Ren, Xiaoqin Zhang, Ling Shao, Shijian Lu

机构：Nanyang Technological University、The University of Tokyo、RIKEN AIP、Nara Institute of Science and Technology

原文链接：https://arxiv.org/abs/2402.03631

代码链接：https://github.com/weihao1115/mm-sam

官方主页：https://xiaoaoran.github.io/projects/MM-SAM

2. 摘要

场景的鲁棒且准确的分割已成为各种视觉识别和导航任务中的一项核心功能。这激发了Segment Anything Model（SAM）的近期发展，SAM是一种用于通用掩码分割的基础模型。然而，SAM主要针对单模态RGB图像进行了优化，这限制了其在采用广泛传感器套件捕获的多模态数据（如LiDAR+RGB、深度+RGB、热成像+RGB等）中的适用性。我们开发了MM-SAM，作为SAM的扩展和增强版，支持跨模态和多模态处理，以便使用不同的传感器套件实现鲁棒且增强的分割。MM-SAM具有两个关键设计，即无监督跨模态迁移和弱监督多模态融合，从而实现了针对不同传感器模态的标签高效和参数高效适应。它解决了三个主要挑战：1）针对单模态处理的多种非RGB传感器的适应；2）通过传感器融合实现多模态数据的协同处理；3）针对不同下游任务的无掩码训练。大量实验表明，MM-SAM在多种传感器和数据模态中均显著优于SAM，证明了其有效性和鲁棒性。

3. 效果展示

4. 主要贡献

本研究的主要贡献可以概括为三个方面。首先，我们设计了MM-SAM，这是SAM向多模态传感器套件扩展和扩展的尝试，它有效地解决了跨传感器适配、多传感器融合和无掩码适配中的三个挑战。据我们所知，这是首个探索传感器套件视觉基础模型的工作。其次，我们设计了无监督跨模态迁移和弱监督多模态融合，促进了针对各种下游任务和传感器的参数高效和标签高效适配。第三，作为一种通用且多功能的适配管道，MM-SAM在多个广泛采用的传感器套件上展示了卓越的跨模态和多模态分割性能。

5. 基本原理是啥？

MM-SAM（多模态语义注意模型）设计的主要目标是将SAM（语义注意模型）的图像编码器调整为能够处理SAM分割流程中的其他模态。这要求调整后的图像编码器能够在保持分割兼容性的同时，有效地编码特定模态的嵌入，以便与SAM的提示编码器和掩码解码器无缝集成，实现跨模态分割。

为此，我们直接将非RGB模态的嵌入与成对的RGB嵌入进行对齐，确保在SAM图像编码器的潜在空间内，跨传感器模态的表示统一。这种策略提供了三个主要优势：1）它仅调整图像编码器，保持提示编码器和掩码解码器不变，从而最大程度地减少了向SAM架构中添加的参数。2）它充分利用了SAM在十亿级RGB掩码上预训练的强大图像编码器，因为对于其他模态而言，获取如此广泛的训练数据几乎是不可能的。3）跨传感器模态的统一嵌入空间简化了多模态融合。

MM-SAM的总体流程如图3所示。在冻结的SAM架构基础上，MM-SAM继承了SAM对RGB图像的强大零样本分割能力。此外，它还引入了两个关键模块以实现参数高效和标签高效的自适应：用于跨模态分割的无监督跨模态迁移（UCMT）和用于多模态分割的弱监督多模态融合（WMMF）。

6. 实验结果

表3展示了在时间同步传感器套件上，SAM和MM-SAM的分割性能。SAM的性能是在RGB图像上进行评估的。作为参考，我们还将X转换为伪彩色图像（表示为X*），并使用SAM进行测试以进行比较。MM-SAM是在另一对模态数据X本身以及RGB+X上进行评估的。在这里，X代表MFNet中的热图像、SUN RGB-D中的深度图像以及SemanticKITTI中的激光雷达点云。

我们可以观察到，由于分布差异，SAM在RGB图像上的分割效果远优于其他模态的伪彩色图像。相比之下，MM-SAM在三种非RGB模态上的分割性能均显著提高。值得注意的是，在MFNet和SemanticKITTI中，MM-SAM在热图像和激光雷达点云上的表现甚至超过了与RGB图像配对的SAM，这突出了RGB相机在不同场景下的潜在局限性以及非RGB传感器的优势。此外，MM-SAM通过持续超越任何单一模态，展示了有效的传感器融合能力，凸显了其在时间同步传感器套件中的鲁棒性和通用性。这些结果证明了MM-SAM在利用多种传感器数据实现优越分割性能方面的有效性。

我们进一步在时间异步传感器套件上对MM-SAM进行了评估。我们在常用的地球观测数据集上进行了测试，这些数据集通常涉及显著的时间间隔以及扫描角度和分辨率的变化，从而在不同模态之间引入了巨大的领域差异。表4展示了在DFC2023中的RGB图像与SAR、DFC2018中的HSI和MS-LiDAR以及ISPRS Potsdam中的DSM等配对数据的实验结果。与表3中的实验类似，MM-SAM展示了先进的跨模态分割性能，并有效地利用了多模态传感器的优势。

7. 总结 & 未来工作

在本研究中，我们对Segment Anything Model（SAM）进行了扩展，以兼容各种传感器套件。我们提出了MM-SAM，这是一种参数高效且标签高效的自适应方法，增强了SAM在跨模态和多模态分割方面的能力。通过利用无掩码训练，我们的方法显著提高了自适应效率。在七个数据集和八种不同传感器模态上的广泛评估表明，我们的方法显著提高了SAM在复杂和动态场景中的鲁棒性和性能。我们希望MM-SAM能够奠定坚实的基础，并鼓励未来的研究为传感器套件的视觉基础模型提供更深入的见解。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

「 3D视觉从入门到精通」知识星球

「 3D视觉从入门到精通」知识星球，已沉淀6年，星球内资料包括： 秘制视频课程近20门