专栏名称: 深度学习基础与进阶
一个百度人的技术提升之路,为您提供一系列计算机视觉,自然语言处理和推荐系统等高质量技术文章,让您的碎片化时间最大价值化
目录
相关文章推荐
审计芸  ·  短视频2024 | 和信河南分所《审计风云》 ·  2 天前  
51好读  ›  专栏  ›  深度学习基础与进阶

「分割一切」升级!SAM3要来了?

深度学习基础与进阶  · 公众号  ·  · 2024-12-04 18:39

正文

0. 论文信息

标题:Inspiring the Next Generation of Segment Anything Models: Comprehensively Evaluate SAM and SAM 2 with Diverse Prompts Towards Context-Dependent Concepts under Different Scenes

作者:Xiaoqi Zhao, Youwei Pang, Shijie Chang, Yuan Zhao, Lihe Zhang, Huchuan Lu, Jinsong Ouyang, Georges El Fakhri, Xiaofeng Liu

机构:Dalian University of Technology、Yale University

原文链接:https://arxiv.org/abs/2412.01240

代码链接:https://github.com/lartpang/SAMs-CDConcepts-Eval

1. 导读

作为一个基础模型,SAM对计算机视觉的多个领域产生了重大影响,其升级版本SAM 2增强了视频分割的能力,有望再次产生重大影响。虽然SAM(SAM和SAM 2)在分割与上下文无关的概念(如人、汽车和道路)方面表现出色,但它们忽略了更具挑战性的上下文相关(CD)概念,如视觉显著性、伪装、产品缺陷和医疗损伤。CD概念严重依赖于全球和本地的上下文信息,这使得它们容易受到不同上下文中的变化的影响,这需要模型具有很强的区分能力。缺乏对Sam的全面评估限制了对其性能界限的理解,这可能会阻碍未来模型的设计。在本文中,我们对2D的11个CD概念以及自然、医疗和工业场景中各种视觉形态的3D图像和视频进行了全面的量化评估。我们为SAM和SAM 2开发了一个统一的评估框架,支持手动、自动和中间自我提示,并辅以我们特定的提示生成和交互策略。我们进一步探索SAM 2在上下文学习中的潜力,并引入即时鲁棒性测试来模拟现实世界中不完美的提示。最后,我们分析了SAMs在理解CD概念方面的优势和局限性,并讨论了它们在细分任务中的未来发展。这项工作旨在提供有价值的见解,以指导上下文无关和上下文相关概念分割的未来研究,有可能为下一版本SAM 3的开发提供信息。

2. 引言

作为图像分割领域的基石模型,Segment Anything Model(SAM)已在多种场景下展现出卓越的性能,激发了人们对统一/通用模型、上下文视觉学习以及SAM适配器的研究兴趣。最近,其升级版SAM 2引入了强大的视频对象分割功能,预计将掀起新一轮的研究热潮。

在哲学和认知科学领域,对象的概念通常被划分为独立于上下文(CI)和依赖于上下文(CD)的概念。最近,Zhao等人首次在图像分割领域内对CI和CD概念进行了详细的区分。传统的语义分割数据集通常关注道路、车辆和行人等相对容易分割的CI概念。无论环境如何,这些对象的形状和类别都是稳定的,使得模型能够专注于对象的内在特征以实现有效分割。在真实场景中,CI概念的预测往往作为进一步场景分析的初步步骤。与之不同,CD概念分割任务明确面向功能应用,在视觉注意力感知、医学病灶分割和工业检测等方面展现出直接价值。然而,由于环境依赖性、概念可变性和场景特异性,现有的CD概念方法往往依赖于特定领域的专业模型,使得统一CD概念分割更具挑战性。SAM能否完美分割CD概念?现有工作已评估了SAM在显著性、伪装、阴影和结肠息肉等任务上的分割性能。如表1所示,这些评估过于局限于特定领域,而非从高级CD概念的角度进行。这些研究大多局限于在一切提示(everything prompt)模式下对少量数据集进行定量评估。相比之下,我们在评估的广度、深度、场景、CD概念、数据集、模态和提示类型等方面具有明显优势。我们认为,为了公平评估SAM在CD概念分割方面的能力,有必要在多样化的概念、基准测试、提示类型和策略上进行足够的实验。实验不足很容易引入偏差并导致主观结论。

3. 主要贡献

本文的组织结构和贡献如图1所示。首先,我们为SAM设计了一个统一的评估框架,整合了手动、自动和中间手动自提示方法。一切提示、点和框提示自然归入这一综合范围。值得注意的是,我们为上下文学习推理模式开发了基于预测的传播提示和非当前样本提示,针对SAM 2的序列化预测和记忆注意特性。接下来,我们在基础模式和上下文学习模式下的图像分割,以及跨越33个数据集的视频和3D分割上进行了定量实验,涵盖了11个CD概念。最后,我们深入分析了当前具有代表性的统一分割模型在架构、提示类型、提示-目标交互、训练数据和策略方面的表现,以启发下一代Segment Anything Models。

4. 实验

数据集和评估指标

如表1所示,我们引入了不同任务常用的数据基准用于评估。我们遵循每个概念分割领域使用的指标,包括加权F-measure(Fωβ)、S-measure(Sm)和平均绝对误差(MAE)用于显著对象检测(SOD)和伪装对象检测(COD),BER用于阴影检测(SD)和透明对象分割(TOS),交并比(IoU)和Dice相似系数用于所有病灶对象分割(LOS)任务,位置平均绝对误差(AL-MAE、CL-MAE、OH-MAE)和数量准确率(PN-ACC)用于动力电池检测(PBD)[96],以及I-AUROC、I-AP、P-AUROC、P-AP、P-PRO用于表面异常检测(AD)。有关这些数据集和指标的更多详细信息,请参阅附录。 推荐课程: 扩散模型入门教程:数学原理、方法与应用

实现细节

SAM和SAM 2的架构如图2所示。两者共享相似的框架,其中图像编码器从输入图像中提取多尺度特征。这些特征随后在提示编码器编码的信息指导下,由掩码解码器生成特定于提示的掩码。与SAM相比,SAM 2通过增加额外的时序建模组件(如记忆注意、记忆编码器和记忆库)得到增强,以更好地利用时序信息进行视频处理。

为简便和典型起见,我们在所有实验中统一评估了SAM和SAM 2的大型版本。相关算法在各种任务中的性能源自原始论文,我们使用了相同的评估工具。为了全面评估SAM的能力,我们仔细进行了各种提示类型的实验,包括带有交互的基本模式(如点和框),以及无需交互的自动分割模式。SAM 2还支持额外的掩码类型。使用这些提示,SAM可以专注于分割内部对象,从而使我们能够直接获得最终预测。在自动模式(/)下,我们基于真实掩码(GT)应用了重叠过滤策略(OFS)来生成最终预测。

图像分割性能







请到「今天看啥」查看全文