点击下方
卡片
,关注
「计算机视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:计算机视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking
作者:Tingyang Zhang, Chen Wang, Zhiyang Dou, Qingzhe Gao, Jiahui Lei, Baoquan Chen, Lingjie Liu
机构:宾夕法尼亚大学、北京大学、香港大学、山东大学
原文链接:https://arxiv.org/abs/2501.03220
代码链接:https://michaelszj.github.io/protracker
1. 导读
在本文中,我们提出了ProTracker,一种新的框架,用于对视频中的任意点进行鲁棒和精确的长期密集跟踪。我们的方法的关键思想是结合概率积分来改进来自光流和语义特征的多个预测,用于鲁棒的短期和长期跟踪。具体来说,我们以概率方式整合光流估计,通过最大化每个预测的可能性来产生平滑和精确的轨迹。为了有效地重新定位由于堵塞而消失和重新出现的挑战点,我们进一步将长期特征对应性结合到我们的流动预测中,用于连续轨迹生成。大量实验表明,ProTracker在无监督和自监督方法中取得了最先进的性能,甚至在几个基准测试中超过了监督方法。我们的代码和模型将在发布后公开。
2. 效果展示
由ProTracker生成的稀疏轨迹。我们的方法鲁棒地生成精确和平滑的轨迹。
我们的方法能够捕捉更精细的细节,并恢复不太明显的点的完整轨迹。
虽然这些基于滑动窗口的跟踪器容易漂移并且容易被遮挡,但是我们的方法可靠地保持了对同一点的精确跟踪。
为了进一步说明我们的方法的鲁棒性,我们对来自网络的挑战性视频进行了实验。一些先前的方法依赖于计算查询点和目标帧之间的热图。然而,每帧热图缺乏时间意识,可能会混淆不同的对象。我们通过利用mask并将热图与光流相结合来解决这个问题。虽然我们的方法也依赖于每帧热图来提取关键点,但我们的方法具有很强的时间意识,能够区分相似的对象。
为了进一步证明我们方法的鲁棒性,我们在TAP-Vid-DAVIS的扩展视频上进行实验,通过重复每帧三次来模拟高帧率视频。与典型的滑动窗口或基于流量的跟踪器,这往往会随着时间累积误差和漂移,我们将长期关键点与短期光流相结合,实现了通过遮挡对同一点的连续、无漂移跟踪。实验在全分辨率下进行。
3. 方法
我们提出的方法的管道概述。(1)采样和链接:通过光流链接对关键点进行初始采样和链接,以产生初步的轨迹预测。(2)长期对应:关键点在更长的时间跨度内重新定位,以保持连续性,即使对于暂时消失的点也是如此。(3)双阶段滤波器:应用掩模和特征滤波器来去除不正确的预测,从而为后续步骤减少噪声。(4)概率整合:首先整合跨帧的经过滤的流量预测,然后与长期关键点组合以产生最终预测,从而产生更平滑和更一致的轨迹。
4. 实验结果
5. 总结 & 未来工作
在本文中,我们提出了一种稳健的跟踪框架,该框架通过概率整合将光流积分与长期对应关系相结合,从而在动态视频序列中实现精确且平滑的点跟踪。通过融入对象级过滤、双向概率整合以及几何感知特征提取,我们的方法有效缓解了漂移问题,处理了遮挡情况,并对暂时消失的点进行重新定位。在处理复杂运动和较长时间间隔方面,我们的方法优于传统方法,证明了整合短期和长期信息以实现可靠跟踪的优势。
尽管我们的方法提供了稳健的跟踪性能,但其对关键点提取过程中测试时训练的依赖降低了其相对于监督方法的效率——这是自监督跟踪方法的常见局限。这种对测试时训练的依赖源于当前特征提取器的分辨率不足以及缺乏时间感知能力。未来,高分辨率特征提取技术的改进有望避免测试时训练,并提高对象和区域之间的区分度,从而实现完全无监督和实时的密集跟踪。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码