专栏名称: 3D视觉工坊
1、OpenCV的技术传播; 2、3D点云与重建技术; 3、Vslam技术; 4、深度学习; 5、技术干货分享。
目录
相关文章推荐
gooood谷德设计网  ·  巴黎第12区Racine塔楼改造 ·  2 天前  
gooood谷德设计网  ·  捷克Milada度假屋 ·  2 天前  
gooood谷德设计网  ·  BIG哥本哈根总部 ·  4 天前  
有方空间  ·  BIG最新方案:科索沃歌剧院及芭蕾舞剧院 ·  5 天前  
archrace  ·  SANAA ... ·  3 天前  
51好读  ›  专栏  ›  3D视觉工坊

无惧运动模糊、遮挡!VGG团队最新力作:3D实例分割和跟踪最强SOTA!

3D视觉工坊  · 公众号  ·  · 2024-08-31 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:3D视觉工坊

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

第一人称视角视频从第一人称视角捕捉世界,在计算机视觉领域因其在增强现实和机器人技术等应用中的重要性而备受关注。在视频分析的各种工具中,物体跟踪尤为重要,但在第一人称视角中也面临着重大挑战。事实上,大多数视频物体分割(Video Object Segmentation, VOS)方法都假设视频包含缓慢且稳定的相机运动,以保持视图以感兴趣物体为中心。相比之下,第一人称视频是从第一人称视角拍摄的,相机佩戴者的移动会导致视角的快速且不可预测的变化。此外,物体频繁进出视野,因此经常部分或完全遮挡和/或截断。

例如,在EPIC KITCHENS数据集中,拍摄视频的人可能会将平底锅放在炉灶上并放置几分钟,同时在厨房内移动。在这段时间内,他们可能会观察到更多与平底锅相似的物体,这可能导致算法错误地将它们与平底锅本身相关联。一般来说,视频分割器往往由于遮挡或截断而部分或完全丢失对物体的跟踪。当同时跟踪多个物体时,这些问题会加剧。

现有的最先进的视频物体分割器试图通过使片段与密集或稀疏的对应关系对齐来克服这些限制。这些对应关系通过光流或点跟踪获得,并作为空间推理的代理。然而,由于计算成本和在严重视角变化期间的可靠性较差,这些方法只能在相对较短的视频窗口内建立对应关系。结果是片段化和不完整的物体轨迹,这限制了它们的实用性,特别是在第一人称视频中。

为了解决这些不足,我们可以看看人类是如何定位物体的。一个重要的线索是物体恒存性(object permanence),这是人类婴儿很早就能发展的一个概念。恒存性捕捉了这样一个想法:即使物体不可见,它们也不会停止存在。结合空间感知,这意味着静止物体的3D位置在它们不在视线内或被遮挡时不应改变。

这引出了一个问题:如何在物体跟踪算法中融入这种空间感知。我们通过从视频流中提取场景几何并将其作为额外的监督信号来优化视频分割模型产生的轨迹来实现这一点。更具体地说,我们获取视频的帧的深度图和相机参数,并使用这些信息来计算物体实例的3D位置。然后,我们提出了一种新颖的方法,用于在第一人称视频中利用3D感知来改进实例分割和跟踪,从而克服2D跟踪器的局限性。通过结合场景级3D重建、粗略的3D点跟踪和2D分割,我们获得了一个用于分析动态第一人称视频的强大框架。特别是,通过结合3D场景中的空间和时间线索,我们的方法能够处理遮挡并重新识别已经有一段时间不在视线内的物体,从而产生更一致且更长的物体轨迹。我们在具有挑战性的EPIC Fields数据集上的实验表明,与最先进的视频物体分割方法相比,我们的方法在跟踪准确性和分割一致性方面取得了显著改进。此外,我们还展示了我们的方法在3D物体重建和无模态视频物体分割等下游应用中的潜力,其中我们方法产生的一致且准确的物体轨迹使得重建更加准确和完整。

下面一起来阅读一下这项工作~

1. 论文信息

标题:3D-Aware Instance Segmentation and Tracking in Egocentric Videos

作者:Yash Bhalgat, Vadim Tschernezki, Iro Laina, João F. Henriques, Andrea Vedaldi, Andrew Zisserman

机构:Visual Geometry Group, University of Oxford、NAVER LABS Europe

原文链接:https://arxiv.org/abs/2408.09860

2. 摘要

第一人称视角视频(Egocentric videos)由于相机快速移动、物体频繁遮挡以及物体可见性有限,给3D场景理解带来了独特的挑战。本文提出了一种新颖的方法,用于第一人称视频中的实例分割与跟踪,该方法利用3D感知能力来克服这些障碍。我们的方法融合了场景几何、3D物体质心跟踪和实例分割,构建了一个用于分析动态第一人称场景的强大框架。通过结合空间和时间线索,我们相比最先进的2D方法在性能上有了显著提升。在具有挑战性的EPIC Fields数据集上进行的大量评估表明,我们的方法在一系列跟踪和分割一致性指标上均取得了显著改进。具体而言,在关联准确度(Association Accuracy, AssA)上,我们的方法比次优方法高出7分,在IDF1得分上高出4.5分,同时在不同物体类别上减少了73%至80%的ID切换次数。利用我们跟踪的实例分割结果,我们展示了在3D物体重建和无模态视频物体分割等下游应用中的潜力。

3. 效果展示

4. 基本原理是啥?

给定一个第一人称视角视频,我们的目标是通过利用三维信息以及从仅基于二维视频的对象分割(VOS)模型中获得的初始对象片段和轨迹集,来获取长期一致的对象轨迹。我们提出的方法克服了二维VOS模型在第一人称场景中保持对象身份长期一致性的局限性,并产生了即使在严重遮挡和对象间歇性移出视线时也能持续存在的对象轨迹。 推荐学习: 一文详解PCL点云库整体框架以及核心算法

图1提供了该方法的高级概述。我们以从预训练的VOS模型获得的初始图像级片段和对象轨迹集作为输入。然后,我们使用来自预训练深度估计器的每帧深度和场景几何信息,将这些二维片段提升到三维,并使用我们提出的跟踪成本公式在时间上进行链接。

5. 实验结果

6. 总结 & 未来工作

在本文中,我们提出了一种新颖的三维感知方法,用于第一人称视频中的实例分割和跟踪,解决了第一人称视角带来的独特挑战。通过集成三维信息,我们的方法在跟踪准确性和分割一致性方面显著优于最新的二维方法,特别是在较长时间内。我们的消融研究强调了三维信息和类别以及实例成本项在匹配中的重要性,同时也展示了对超参数变化的鲁棒性。除了改进跟踪之外,我们的方法还启用了有价值的下游应用,如高质量的三维对象重建和无模态分割。这项工作展示了将三维感知融入第一人称视频分析中的强大功能,为在第一人称挑战性场景中进行鲁棒对象跟踪开辟了新的可能性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d008

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结 最新顶会论文&代码







请到「今天看啥」查看全文