0. 论文信息
标题:Track Anything Behind Everything: Zero-Shot Amodal Video Object Segmentation
作者:Finlay G. C. Hudson, William A. P. Smith
机构:University of York
原文链接:https://arxiv.org/abs/2411.19210
1. 导读
我们提出了“追踪一切事物背后的一切事物”(TABE),这是一个新颖的数据集、流水线和评估框架,用于从可见掩膜实现零炮点amodal完井。与需要预训练类标签的现有方法不同,我们的方法使用来自对象可见的第一帧的单个查询掩码,从而实现灵活的零触发推理。我们的数据集,TABE-51提供了高度准确的地面真实amodal分割掩模,无需人为估计或三维重建。我们的TABE管道是专门为处理模块完成而设计的,即使在对象被完全遮挡的情况下。我们还引入了一个专门的评估框架,该框架独立于amodal完井性能,不受传统视觉分割指标的影响。
2. 效果展示
给出一个输入视频(顶部)和一个提示(例如点按)来定义查询掩码(顶部,白色),我们使用视频物体分割方法(如SAM 2)来跟踪可见区域的分割掩码(模式掩码)。我们提议使用一个经过微调的生成视频扩散模型来补画被遮挡的对象(中间),提供零样本、非模态视频目标分割(底部)。
使用我们的TABE方法在TABE-51数据集上的结果示例。在每个视频块中,顶部的绿色掩码展示了非模态的地面真实值,第二行的红色掩码展示了视觉像素的地面真实值,底部的洋红色掩码显示了TABE方法的预测值。
3. 引言
人类对物体的理解不仅限于其可视区域。这源于我们对物体恒存性的强烈认知——即物体无论是否可见,都会保持其身份和连续性。人类还能感知物体如何变形或响应环境中的其他元素,这使得我们的思维之眼即便在物体被遮挡时也能预测其所在位置。这一概念被称为非模态补全,也是本文的重点。
计算机视觉领域的最新进展显著提高了仅凭可见像素确定场景中物体位置的能力。诸如SAM2、DINOv2和Mask2Former等方法现在能够生成几年前看似难以企及的质量和准确度的分割掩码。然而,模型感知和预测被遮挡物体位置的能力并没有发展得那么快。这一差距背后存在两大挑战。首先,获取遮挡物后方的真实世界地面真值数据是一项极其困难且资源密集的任务。其次,对于被遮挡物体而言,“地面真值”本身的定义就很复杂,因为人类对这些隐藏元素的感知往往基于上下文、运动或物体的预期行为做出的合理猜测。例如,如果杯子遮住了桌子上的球(位于视线水平位置),那么球是完全被杯子包含还是仅仅藏在杯子后面就不得而知了。直到杯子移动,这一信息才会明确,但即使球没有重新出现,人们也可能会认为它被遮住了而不是被移走了。视觉感知中的这种模糊性凸显了机器学习模型的一个核心问题。人类可以根据上下文和新信息不断更新自己的理解,而模型则缺乏这种自适应直觉。事实上,魔术师会利用这一现象,让大脑基于假设而容易受骗。
机器学习模型能够理解物体恒存性,尤其是通过非模态补全,其重要性在于能够以更符合人类认知的方式运作。婴儿大约在3.5个月大时开始发展物体恒存性的基本概念,并一直持续到大约14个月大,此时大多数涉及物体恒存性的任务都能成功解决。这一发展里程碑凸显了物体恒存性概念在人类认知中的根深蒂固,为开发更直观、更人性化的机器学习模型提供了宝贵框架。
在考虑利用这一点解决的具体用例时,一个引人注目的应用可能是跟踪复杂环境中的物体。目前,许多跟踪器采用重新识别方法来维持遮挡情况下的物体跟踪。但这些方法往往复杂且不够稳健。通过在视频中融入非模态补全,我们可以利用类似人类的能力,即使在物体被遮挡物遮挡时也能持续参考其位置,从而实现不间断跟踪。这种方法对于自动驾驶等任务至关重要。此外,研究表明,非模态补全还能提高物体识别能力,因为能够非模态地补全物体可以支持准确的类别识别。
4. 方法
我们引入了一个带有评估指标的数据集,能够隔离并评估模型完成非模态补全任务的能力,同时还将引入一种解决这一挑战的新颖流程,如图2所示。
我们提出了一种新颖的无监督非模态视频物体分割方法,如图2所示。我们称之为TABE(Track Anything Behind Everything,跟踪任何物体穿越一切)。其核心思想是使用视频扩散模型对跟踪物体的可见区域进行外推。
从输入视频和描述第一帧中目标物体的提示(我们使用点击点,但也可以是自然语言描述)开始,我们使用无监督分割模型来找到查询掩码。我们将这个查询掩码和视频帧提供给可见视频对象分割(VOS)方法(SAM 2),以计算每帧的可见掩码(如果物体被完全遮挡,则可能为空)。我们使用这些来生成可见掩码输入图像,这些图像仅包含物体本身,随时间变形且因遮挡而缺少部分。我们对这些图像应用视频扩散外推方法,提示模型创建仅在白色背景上显示物体的视频。这提供了非模态视频补全输出帧。由于外推过程有时会重新引入一些背景元素或其他伪影,我们在这些帧上使用原始查询掩码重新运行VOS(SAM 2),以提供最终的分割结果。
我们发现,如果不限制外推区域,视频扩散外推可能会产生额外的虚假内容(例如,如果跟踪的物体是人,外推结果可能会幻想出额外的第二个人)。此外,在视频扩散模型的微调过程中,我们需要每帧标签来指示哪些帧包含遮挡。为了解决这两个问题,我们在视频扩散之前进行遮挡推理(见图6)。
目标区域掩码 我们将扩散外推限制为每帧的目标区域掩码。这些掩码结合了两个线索来标记物体可能覆盖的潜在区域。
首先,我们使用单目深度估计(Depth Anything v2)来估计深度图。我们将像素深度值与可见区域掩码内的平均深度进行比较。任何深度值小于此平均值的像素都是外推的候选像素。其次,我们通过要求它们位于近似非模态边界框内来进一步限制这个候选像素集。我们使用时间连续性来估计这些边界框。我们使用可见区域掩码保守地初始化边界框。对于没有可见像素的帧,我们从相邻帧进行线性插值或外推。如果边界框面积的变化表明可能存在遮挡,我们将在可见掩码区域边界上测试遮挡标签(见下文),并假设其面积应保持不变来扩展边界框。
推荐课程:
彻底搞懂3D人脸重建原理,从基础知识、算法讲解、代码解读和落地应用
。
遮挡标记 直观地看,在可见掩码区域边界上,如果掩码外部的深度估计值大于内部,那么这很可能是物体的真实边界,而不是遮挡边界。另一方面,如果深度较小,那么物体很可能在这个更近的物体后面继续存在,因此这是一个遮挡边界。使用可见掩码和估计的深度,我们计算了一个遮挡度量,即认为是遮挡边界的边界比例。假设一帧的可见掩码区域由属于掩码S ⊂ {1, . . . , W} × {1, . . . , H}的像素集定义,边界为∂S。首先,我们为边界上一点(u, v)(具有朝外的法向量⃗n(u, v))定义一个指示函数:
其中z(u, v)是在位置(u, v)估计的深度,∇z(u, v) · ⃗n(u, v)是深度函数在朝外的法向量方向上的方向导数。这个量在潜在的遮挡边界点是正的,我们使用稍大于0的t值来提高对噪声的鲁棒性。然后,我们计算focc(S) ∈ [0, 1],即潜在遮挡的边界比例:
其中ds表示沿可见掩码边界∂S的微分弧长。最后,如果focc(S)低于阈值,我们将第i帧标记为非遮挡(Vi = 1);如果focc(S)高于阈值或离开了帧(如通过边界框外推所示),则标记为遮挡,对于后两种情况,Vi = 0。
5. 总结 & 未来工作
我们在这项工作中的主要重点是开发一个专门用于评估视频上非模态分割的数据集和评估指标,只给出一个查询帧和视频帧本身。我们的目标是获得反映真实世界场景的真实数据,我们相信我们的合成方法成功地实现了这一目标。这种方法生成的视频具有自然的运动和准确的地面实况数据,所有这些都无需依赖合成数据、人工估计或3D重投影技术。我们数据集收集过程的一个当前限制是它依赖于静态相机设置。未来的工作将探索是否可以通过引入受控相机运动来解决这一限制,以及在此基础上构建更多示例。我们还描述了一个管道,该管道提供了与其他现有方法相比的高级结果。我们希望这个框架能够鼓励社区内的进一步研究和开发,建立在我们已经建立的技术和发现之上。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球