0. 论文信息
标题:CoTracker3: Simpler and Better Point Tracking by Pseudo-Labelling Real Videos
作者:Nikita Karaev, Iurii Makarov, Jianyuan Wang, Natalia Neverova, Andrea Vedaldi, Christian Rupprecht
机构:Meta AI、Visual Geometry Group, University of Oxford
原文链接:https://arxiv.org/abs/2410.11831
代码链接:https://github.com/facebookresearch/co-tracker
官方主页:https://cotracker3.github.io/
1. 导读
大多数先进的点跟踪器都是在合成数据上训练的,因为为这项任务标注真实视频很困难。然而,由于合成视频和真实视频之间的统计差距,这可能导致次优性能。为了更好地理解这些问题,我们引入了CoTracker,它包括一个新的跟踪模型和一个新的半监督训练方法。
这使得通过使用现成的教师生成伪标签,可以在训练期间使用没有注释的真实视频。新型号消除或简化了以前追踪器的组件,导致更简单且通常更小的架构。该训练方案比先前的工作简单得多,并且使用少1000倍的数据获得了更好的结果。
我们进一步研究缩放行为,以了解在点跟踪中使用更多真实的无监督数据的影响。该模型有在线和离线版本,能够可靠地跟踪可见点和遮挡点。我们展示了质量上令人印象深刻的跟踪结果,其中即使当点被遮挡或离开视野时,也可以跟踪点很长时间。从数量上来说,CoTracker在标准基准上的表现优于所有最近的追踪者,通常是大幅领先。
2. 引言
点跟踪是视频分析中的一个关键步骤,特别是对于需要精确恢复对应关系的任务,如3D重建和视频编辑。近年来,点跟踪器取得了显著发展,其设计灵感来自基于变换器(transformer)的神经网络,如位置敏感点(PIPs)。值得注意的例子包括TAP-Vid,它为点跟踪引入了一个新的基准;以及TAPIR,引入了一个改进的跟踪器,通过添加全局匹配阶段扩展了PIPs的设计。CoTracker提出了一种变换器架构,可以联合跟踪多个点,从而进一步提高了跟踪质量,特别是对于视频中部分被遮挡的点。
在本文中,我们提出了一种新的点跟踪模型CoTracker3,它基于近期跟踪器的思想,但显著更简单、数据效率更高且更灵活。我们的架构特别是去除了一些近期跟踪器为获得良好性能而提出的必要组件,同时仍然超越了当前最优技术水平。我们首次研究了点跟踪器的数据缩放行为,并展示了不同模型架构和训练协议在最终跟踪质量和数据效率方面的优势。
近期跟踪器之所以表现出色,是因为高容量神经网络能够从大量训练视频中学习到鲁棒的先验知识,并利用这些先验知识来处理复杂且模糊的跟踪情况,如遮挡和快速运动。因此,获得高质量的训练数据对于获得可靠的跟踪结果至关重要。
原则上,可用于训练点跟踪器的视频并不短缺,但很难手动为它们标注点轨迹。幸运的是,人们发现可以自动标注的合成视频对于像点跟踪这样的低级任务而言,是真实数据的一个很好的替代品。然而,大规模收集多样化的合成视频成本高昂,且仿真到真实的差距也不容忽视。因此,使用真实视频来训练点跟踪器仍然是一个有吸引力的选择。
因此,近期的研究工作探索了利用大量真实但未标注的视频来训练点跟踪器。特别是,BootsTAPIR通过在1500万个未标注的视频上训练模型,在TAP-Vid基准上实现了当前最优的准确度。尽管已经证明了使用更多训练数据的好处,但点跟踪器的数据缩放行为尚不清楚。特别是,尚不清楚BootsTAPIR中使用的数百万个真实训练视频对于训练一个好的跟踪器是否必要。同样,他们相对复杂的半监督训练方案的好处也不清楚。
另一个在很大程度上尚未探索的方面是不同跟踪器的竞争设计。像PIPs、TAPIR和CoTracker这样的变换器架构,以及更近期的贡献如LocoTrack,都提出了重要的改变、扩展、新组件和不同的设计决策。尽管这些在各自论文中被证明是有帮助的,但尚不清楚它们是否都是必需的,或者这些设计是否可以简化和更高效。
CoTracker3有助于回答这些问题。我们的模型基于比BootsTAPIR和LocoTrack等近期跟踪器更简单的架构和训练协议。它在TAP-Vid和Dynamic Replica基准上显著超越了BootsTAPIR,同时使用的未标注视频数量少了三个数量级,训练协议也更简单。我们还研究了该模型在越来越多真实训练视频下的数据缩放行为。LocoTrack在数据缩放方面与CoTracker3有类似的受益,但不能很好地跟踪被遮挡的点。
CoTracker3借鉴了先前模型的一些元素,包括来自PIPs的迭代更新和卷积特征、用于联合跟踪的跨轨迹注意力、用于提高效率的虚拟轨迹、以及来自CoTracker的用于窗口化操作的展开训练,以及来自LocoTrack的4D相关性。同时,它显著简化了其中的一些组件并去除了其他组件,如BootsTAPIR和LocoTrack的全局匹配阶段。这有助于确定哪些组件对于一个好的跟踪器来说真正重要。CoTracker3的架构也很灵活,如果以相同的方式训练,它既可以离线(即单窗口)运行,也可以在线(即滑动窗口)运行。
3. 效果展示
我们跟踪在第一帧上采样的点。只有CoTracker和CoTracker3可以通过遮挡进行跟踪。但是,CoTracker最终会丢失跟踪的点,而CoTracker3仍在跟踪它们。
我们跟踪从初始视频帧开始在规则网格上采样的10k个点。由于这些点是网格采样的,没有显著变换的轨迹应该在未来的帧中保持网格模式。LocoTrack和CoTracker3轨道比BootsTAPIR轨道更容易对齐。无论是LocoTrack还是BootsTAPIR都无法通过遮挡进行跟踪。它们也比CoTracker3丢失更多的背景和对象点。
使用无监督视频进行点跟踪器的缩放。左图:我们比较了我们的CoTracker3、LocoTrack、CoTracker、BootsTAPIR和TAPIR。每个模型首先在合成数据(来自Kubric)上进行预训练,然后使用我们提出的新颖且简单的无监督训练协议在真实视频上进行微调。我们的新模型和训练协议仅需使用0.1%的训练数据,就大幅超越了当前最优技术水平(SoTA)。右图:新模型对于遮挡情况特别鲁棒。
推荐课程:
国内首个基于面结构光的高反射物体重建方法课程(相位偏折术)
。
4. 方法
架构。我们为给定视频的每一帧计算卷积特征,然后计算查询点对应查询帧周围采样特征与所有其他帧之间的相关性。然后,我们使用变换器迭代更新轨迹P(m) = P(m) +ΔP(m+1)、置信度C(m)和可见性V(m),该变换器将先前的估计P(m)、C(m)、V(m)作为输入。
5 实验结果
6. 总结 & 未来工作
我们介绍了CoTracker3,这是一种新型点跟踪器,在TAP-Vid基准测试以及其他基准测试中均超越了当前的最先进技术。CoTracker3的架构融合了近期跟踪器中的多个优秀理念,但去除了不必要的组件,并显著简化了其他组件。CoTracker3还展示了简单半监督训练协议的强大功能,该协议利用多个现成的跟踪器对真实视频进行标注,然后利用这些标注数据微调一个性能超越所有教师模型的模型。通过该协议,CoTracker3的性能可以超越那些使用1000倍更多视频进行训练的跟踪器。通过联合跟踪点,CoTracker3在处理遮挡方面的表现优于任何其他模型,尤其是在离线模式下运行时。我们的模型可以用作构建块,服务于需要运动估计的任务,如3D跟踪、可控视频生成或动态3D重建。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球