0. 论文信息
标题:Inspiring the Next Generation of Segment Anything Models: Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes
作者:Xiaoqi Zhao, Youwei Pang, Shijie Chang, Yuan Zhao, Lihe Zhang, Huchuan Lu, Jinsong Ouyang, Georges El Fakhri, Xiaofeng Liu
机构:Dalian University of Technology、Yale University
原文链接:https://arxiv.org/abs/2412.01240
代码链接:https://github.com/lartpang/SAMs-CDConcepts-Eval
1. 导读
作为一个基础模型,SAM对计算机视觉的多个领域产生了重大影响,其升级版本SAM 2增强了视频分割的能力,有望再次产生重大影响。虽然SAM(SAM和SAM 2)在分割与上下文无关的概念(如人、汽车和道路)方面表现出色,但它们忽略了更具挑战性的上下文相关(CD)概念,如视觉显著性、伪装、产品缺陷和医疗损伤。CD概念严重依赖于全球和本地的上下文信息,这使得它们容易受到不同上下文中的变化的影响,这需要模型具有很强的区分能力。缺乏对Sam的全面评估限制了对其性能界限的理解,这可能会阻碍未来模型的设计。在本文中,我们对2D的11个CD概念以及自然、医疗和工业场景中各种视觉形态的3D图像和视频进行了全面的量化评估。我们为SAM和SAM 2开发了一个统一的评估框架,支持手动、自动和中间自我提示,并辅以我们特定的提示生成和交互策略。我们进一步探索SAM 2在上下文学习中的潜力,并引入即时鲁棒性测试来模拟现实世界中不完美的提示。最后,我们分析了SAMs在理解CD概念方面的优势和局限性,并讨论了它们在细分任务中的未来发展。这项工作旨在提供有价值的见解,以指导上下文无关和上下文相关概念分割的未来研究,有可能为下一版本SAM 3的开发提供信息。
2. 引言
作为图像分割领域的基石模型,Segment Anything Model(SAM)已在多种场景下展现出卓越的性能,激发了人们对统一/通用模型、上下文视觉学习以及SAM适配器的研究兴趣。最近,其升级版SAM 2引入了强大的视频对象分割功能,预计将掀起新一轮的研究热潮。
在哲学和认知科学领域,对象的概念通常被划分为独立于上下文(CI)和依赖于上下文(CD)的概念。最近,Zhao等人首次在图像分割领域内对CI和CD概念进行了详细的区分。传统的语义分割数据集通常关注道路、车辆和行人等相对容易分割的CI概念。无论环境如何,这些对象的形状和类别都是稳定的,使得模型能够专注于对象的内在特征以实现有效分割。在真实场景中,CI概念的预测往往作为进一步场景分析的初步步骤。与之不同,CD概念分割任务明确面向功能应用,在视觉注意力感知、医学病灶分割和工业检测等方面展现出直接价值。然而,由于环境依赖性、概念可变性和场景特异性,现有的CD概念方法往往依赖于特定领域的专业模型,使得统一CD概念分割更具挑战性。SAM能否完美分割CD概念?现有工作已评估了SAM在显著性、伪装、阴影和结肠息肉等任务上的分割性能。如表1所示,这些评估过于局限于特定领域,而非从高级CD概念的角度进行。这些研究大多局限于在一切提示(everything prompt)模式下对少量数据集进行定量评估。相比之下,我们在评估的广度、深度、场景、CD概念、数据集、模态和提示类型等方面具有明显优势。我们认为,为了公平评估SAM在CD概念分割方面的能力,有必要在多样化的概念、基准测试、提示类型和策略上进行足够的实验。实验不足很容易引入偏差并导致主观结论。
3. 主要贡献
本文的组织结构和贡献如图1所示。首先,我们为SAM设计了一个统一的评估框架,整合了手动、自动和中间手动自提示方法。一切提示、点和框提示自然归入这一综合范围。值得注意的是,我们为上下文学习推理模式开发了基于预测的传播提示和非当前样本提示,针对SAM 2的序列化预测和记忆注意特性。接下来,我们在基础模式和上下文学习模式下的图像分割,以及跨越33个数据集的视频和3D分割上进行了定量实验,涵盖了11个CD概念。最后,我们深入分析了当前具有代表性的统一分割模型在架构、提示类型、提示-目标交互、训练数据和策略方面的表现,以启发下一代Segment Anything Models。
4. 实验
数据集和评估指标
如表1所示,我们引入了不同任务常用的数据基准用于评估。我们遵循每个概念分割领域使用的指标,包括加权F-measure(Fωβ)、S-measure(Sm)和平均绝对误差(MAE)用于显著对象检测(SOD)和伪装对象检测(COD),BER用于阴影检测(SD)和透明对象分割(TOS),交并比(IoU)和Dice相似系数用于所有病灶对象分割(LOS)任务,位置平均绝对误差(AL-MAE、CL-MAE、OH-MAE)和数量准确率(PN-ACC)用于动力电池检测(PBD)[96],以及I-AUROC、I-AP、P-AUROC、P-AP、P-PRO用于表面异常检测(AD)。有关这些数据集和指标的更多详细信息,请参阅附录。
推荐课程:
扩散模型入门教程:数学原理、方法与应用
。
实现细节
SAM和SAM 2的架构如图2所示。两者共享相似的框架,其中图像编码器从输入图像中提取多尺度特征。这些特征随后在提示编码器编码的信息指导下,由掩码解码器生成特定于提示的掩码。与SAM相比,SAM 2通过增加额外的时序建模组件(如记忆注意、记忆编码器和记忆库)得到增强,以更好地利用时序信息进行视频处理。
为简便和典型起见,我们在所有实验中统一评估了SAM和SAM 2的大型版本。相关算法在各种任务中的性能源自原始论文,我们使用了相同的评估工具。为了全面评估SAM的能力,我们仔细进行了各种提示类型的实验,包括带有交互的基本模式(如点和框),以及无需交互的自动分割模式。SAM 2还支持额外的掩码类型。使用这些提示,SAM可以专注于分割内部对象,从而使我们能够直接获得最终预测。在自动模式(/)下,我们基于真实掩码(GT)应用了重叠过滤策略(OFS)来生成最终预测。
图像分割性能
•
基本模式
。表2至表8分别列出了在显著目标检测(SOD)、协同目标检测(COD)、阴影检测(SD)、透明对象分割(TOS)、部分边界检测(PBD)、异常检测(AD)和丢失对象分割(LOS)等任务中,不同专业模型和SAM之间的性能比较。得益于框提示过滤大量背景信息的能力,SAM(c)在大多数任务中均表现良好。然而,它们在SD和PBD任务上仍然表现不佳,因为这些概念缺乏清晰、明确的对象,且与背景的对比度极低。此外,我们观察到SAM的表现始终弱于其对应的SAM变体。
•
上下文学习模式
。与SAM不同,SAM 2融入了用于时序建模的记忆机制。这使得SAM 2能够使用多个概念样本而不是仅依赖当前图像的提示来获得上下文学习(ICL)能力。通过提供额外的示例样本和有针对性的指导,它有可能更好地理解上下文依赖(CD)概念。为实现这一点,我们使用了训练集中的20张图像及其对应的掩码作为上下文线索,帮助SAM 2对不同的概念进行预编码和解释。该设置称为SAM 2(û)。如表9所示,SAM 2(û)在分割这些不同的CD概念时表现出色。具体来说,SAM 2(û)在TOS和SD任务上取得了具有竞争力的结果,并在COD和四个LOS任务上取得了显著优势,甚至在自动模式下超越了SAM 2(/)。然而,由于缺乏对CD概念数据集的针对性训练,SAM 2(û)的表现仍不及UniverSeg和Spider。
视频分割性能
• 用于视频数据的SAM。鉴于SAM最初并非为视频数据而设计,我们使用两种不同的设置来评估它:基于图像和基于视频的提示。在基于图像的设置中,视频被视为一系列单独的图像,其中使用基于单个真实标签(Ground Truth,GT)的提示来为每一帧生成预测。在基于视频的设置中,我们假设对象运动有限,并实现了一种基于传播的提示策略来评估SAM的时序性能,而不改变其架构。具体来说,当前帧的提示是基于前一帧的预测自动生成的,从而能够在整个序列中实现连续预测。
• 用于视频数据的SAM 2。由于视频序列开始时对象通常只表现出有限的运动,我们引入了来自中间帧的提示信息。具体来说,我们在三种设置下收集结果:分别引入1帧、3帧和5帧,分别称为“1×”、“3×”和“5×”。“1×”仅使用第一帧作为对象提示。“3×”和“5×”分别在序列的{ i3}2i=1和{ i5}4i=1点引入额外的帧。
所有实验结果均列在表10至表13中。我们可以看到,SAM在使用框提示时表现最佳,其次是点提示,在自动模式下表现最差。这种性能差距在诸如COD、SD、LOS等具有挑战性的任务以及SOD中的DAVSODN和DAVSODH等复杂数据集中尤为明显。然而,使用基于传播的提示策略时,点形式超越了框形式,甚至在视频SOD中超越了现有的领域特定专业模型。对于SAM 2,掩码提示的性能最高,其次是点提示,最后是框提示。随着提示数量的增加,点提示和掩码提示均表现出稳定的改进。相比之下,框提示的增益不一致,特别是在DAVSODE和DAVSODH等复杂数据集上。由于其内置的时序建模能力,SAM 2在视频任务中表现出强大的适应性,通常仅使用单个提示就能超越领域特定模型。值得注意的是,在使用点提示的传播策略下,SAM在DAVSODN和DAVSODH数据集上的表现可以超越使用单点提示的SAM 2。
三维分割性能
由于一些三维医学病灶图像序列仅包含纯背景图像而没有前景,因此我们仅基于我们提出的双向推理策略评估SAM 2的性能。具体来说,我们首先遍历整个三维序列,并选择具有最大前景区域掩码的序列作为锚点。然后,将整个序列分为两部分,SAM 2将每部分视为一个单独的视频序列进行双向推理,使用共享的起始帧。将组合结果用作整个切片序列的预测。每个视频序列的推理均使用与视频设置相似的“1×”、“3×”和“5×”方法。如表14所示,SAM 2取得了出色的性能,甚至超越了3D U-Net和DRU-Net等专业模型。这证明了双向推理策略和SAM 2的多帧掩码提示的有效性。
5. SAM3展望
•
架构
。统一分割模型通常采用直观的编码器-解码器框架,而无需复杂的模块。它们通过提示和目标特征之间的交互来分割由提示定义的概念。如图3所示,这些模型采用不同的策略来嵌入提示:UniverSeg和SegGPT使用开始嵌入,SAM和SAM 2使用中间嵌入,而Spider使用尾部嵌入。强大的分割模型的关键能力包括表示一般概念、区分不同特征以及实现持续学习。提示嵌入的位置对这些能力有重大影响。例如,开始嵌入从一开始就将提示与概念紧密结合,通过关注概念差异来增强判别表示。然而,它降低了通用表示能力,并使持续学习变得复杂,需要对整个网络进行微调以适应新概念。相反,尾部嵌入提供了不同的策略,而中间嵌入则提供了更平衡的解决方案。未来在提示信息传播方面的进步可能会解决尾部嵌入在判别表示方面的弱点,使其更具竞争力。
•
提示类型
。图4展示了统一模型中已使用或尚未使用的各种提示类型。目前流行的类型包括点、框、掩码、文本和图像提示。为了在不同场景中改进分割,探索新的提示类型是关键。潜在的方向包括:I)如深度图、红外图像、多光谱图像和X射线等模态可以提供传统RGB图像之外的有价值上下文。这些数据类型有助于模型更好地理解场景和对象结构,特别是在医学成像和工业检测中。II)预定义的特征或属性,如高维向量或特定于任务的属性,可以指导分割,特别是在领域特定任务中。例如,在工业电池检测中,表示原始电极的特征提示可以帮助更准确地识别异常。III)这些提示动态调整模型的参数,类似于可学习提示,但专注于优化权重和结构。现有的图像恢复方法已经表明,可学习的参数提示可以捕捉未知的退化类型,从而改进跨不同领域的去噪、去模糊和恢复等任务。IV)在基于传感器的场景中,提示可以使用实时环境数据(如温度或运动)来指导系统行为。例如,可穿戴医疗设备可以根据个人生理数据个性化响应,而工业系统可以根据特定的环境条件进行调整,以优化用户体验。
6. 总结
本文全面评估了SAM(SAM和SAM 2)在自然、医学和工业场景中的二维、三维和视频数据中分割上下文依赖(CD)概念(共11个类别)的性能。首先,我们为SAM和SAM 2建立了一个统一的推理框架,以评估提示类型、策略和鲁棒性。接下来,我们在图像、视频和三维数据中的不同概念上对SAM进行了广泛的实验,期间我们还展示了所提出的基于传播的提示策略、双向推理策略和基于上下文学习的推理模式的有效性。这使我们能够讨论SAM在分割CD概念方面的优势和局限性。最后,我们总结了各种统一分割模型的特点,并提出了改进建议。基于这些结果和见解,我们相信这项工作将为CD概念分割建立基线,并鼓励进一步改进SAM 2,以期待SAM 3的到来。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等