来源:深蓝AI
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
导读
在视频分析领域,如何精准追踪画面中任意目标的运动轨迹一直是核心挑战。无论是自动驾驶中的车辆跟踪,还是体育赛事中的运动员动作分析,传统方法常因目标遮挡、外观变化等问题导致轨迹中断。现有技术多依赖单一的光流预测或语义特征识别,难以兼顾短期追踪的精确性和长期追踪的稳定性。
本文由paper一作——
Tingyang Zhang
授权【深蓝AI】编译发布!
论文标题:ProTracker: Probabilistic Integration for Robust and Accurate Point Tracking
论文作者:Tingyang Zhang, Chen Wang, Zhiyang Dou, Qingzhe Gao, Jiahui Lei, Baoquan Chen, Lingjie Liu
论文地址:
https://michaelszj.github.io/protrackerhttps://arxiv.org/pdf/2501.03220
针对上述难题,最新提出的ProTracker算法实现了突破性进展。该框架创造性地融合了光流预测与语义特征识别双重技术,通过概率统计模型对多源预测结果进行智能优化,就像给追踪系统装上了"双重保险"。
其核心技术在于:首先利用概率积分算法优化光流预测,使短时轨迹更平滑准确;同时引入长期语义特征匹配,即使目标暂时消失(如被遮挡),系统也能像"记忆高手"一样在目标重现时快速重定位。
实验数据显示,ProTracker在多个国际基准测试中刷新纪录:不仅以显著优势领跑无监督学习方法榜单,更在部分指标上超越需要人工标注的监督学习方法。这意味着该技术既降低了数据标注成本,又提升了实际应用效果。目前研究团队已承诺开源代码模型,这项突破将为视频编辑、智能监控、运动分析等领域带来更可靠的追踪工具。
点跟踪技术是视频处理技术的关键一环,特别是在当前的主要视频分析任务,如4D重建和视频动态编辑中,能够处理好点的跟踪就能够方便的处理视频后续的许多操作流程。近年来,点跟踪的研究重点转向了视频中任何像素的长期密集跟踪,也称为Tracking Any Point(TAP)。
现有方法大致可以分为两类。第一类是监督学习的跟踪模型。
具体来说,TAP-net通过生成热图来预测轨迹,捕捉目标点与其他帧之间的关系,而其他一些方法则在时间窗口内迭代优化同一点的轨迹。这些基于监督学习的跟踪器在现有基准测试中取得了良好的成绩,但它们通常在泛化到域外输入时遇到困难,因为它们通常是在特定数据集上训练的。一些方法要么忽略了时间信息,要么由于依赖滑动窗口技术,在长时间遮挡期间容易出现上下文漂移和丢失。
第二类是自监督模型。
基于测试时优化的自监督模型通过利用在大规模数据集上训练的基础模型的先验知识获得了关注。例如,一些方法通过将整个场景表示为一个准3D规范体积,并使用3D双射将局部坐标映射到全局3D规范空间,从而实现了一致的点跟踪。然而,由神经网络表示的代理规范空间往往过于平滑,这限制了跟踪精度。DINO-Tracker通过微调特征提取器和热图优化器,利用DINOv2的强语义先验,在长时间遮挡中实现跟踪。然而,当特征不够显著或场景中存在多个相似部分时,仍然会面临挑战。
该研究提出了ProTracker方法,用于精确且鲁棒的点跟踪。该方法的核心思想是结合光流预测和长期对应关系的双向概率积分,灵感来源于卡尔曼滤波。
具体来说,研究首先通过混合滤波器,包括物体级滤波器和几何感知特征滤波器,去除不正确的初始预测,以减少其对后续估计的负面影响。对于剩余的粗略光流预测,研究通过引入一种概率积分方法,将每个预测视为高斯分布,并将它们合并为一个单一的高斯分布,以识别最可能的点预测。该积分在前向和反向方向上进行,以实现高精度和鲁棒的光流估计。然而,光流仅限于可见物体,并且当一个点消失后再出现在不同的位置时,光流估计容易失败,导致轨迹中的丢失段。为了提高在挑战性的长期点跟踪和遮挡问题中的性能,研究训练了一个长期特征对应模型,并利用该模型通过判别特征识别关键点在不同帧中的位置。随后,研究将光流估计与长期关键点相结合,得到最终的预测结果。这种组合使得该模型能够在长期跟踪过程中稳定地恢复轨迹段并减缓漂移。研究通过在TAP-Vid基准测试上的广泛实验,评估了该方法。在自监督或无监督方法中,ProTracker在所有指标上都超过了之前的所有方法。此外,尽管与数据驱动方法相比,ProTracker在位置估计上仍具有最高的准确性。
总结来说,研究的贡献包括
:
提出了ProTracker,一种新颖的概率积分框架,能够合并多个粗略预测,并显著提高点跟踪的准确性和鲁棒性;
将长期对应匹配融入概率积分框架,解决了长期跟踪和遮挡问题,实现了长时间精确点跟踪;
该方法在自监督和无监督方法中实现了最先进的性能,并与数据驱动方法相比展现了具有竞争力的结果。
▲图1| 追踪效果演示
如图2 所示:
该研究提出了一种通过多步骤流程增强轨迹预测准确性和稳定性的方法。
最初,从输入数据中采样关键点,这些关键点构成了轨迹预测的基础。随后,利用光流链接技术将这些关键点在连续帧中连接起来,生成初步的轨迹预测。为了确保连续性,即使关键点暂时消失,该研究采用长期对应策略,在更长的时间跨度内重新定位这些点。接下来,应用混合滤波器,通过使用掩膜和特征滤波器去除错误的预测,减少后续步骤中的噪声并提高数据质量。最后,该研究通过概率融合方法,将各帧中经过滤波的光流预测进行整合,并与长期关键点信息相结合。这一过程产生了更平滑、更一致的轨迹,有效捕捉了目标的真实运动。通过这些步骤,该研究显著提高了在各种复杂场景和动态环境中轨迹预测的可靠性和准确性。
由此可见,该研究中的关键部分主要体现在混合滤波器的应用,以及训练过程中光流技术的应用,也就是两个光流积分的建立,笔者将在接下来的内容中对这三个部分进行展开介绍。
▲图2| 全文方法流程
■ 2.1. 混合滤波器
由于该方法依赖于来自光流和长期对应的粗略预测进行概率积分,不准确的粗略预测可能导致累积误差并扭曲整个轨迹,从而显著降低跟踪精度。
为了缓解这些问题,提出了一个混合滤波器,用于丢弃这些预测并避免在随后的概率积分中使用它们。
混合滤波器包括一个物体级滤波器和一个几何感知特征滤波器。首先,物体级分割模型生成与目标点相关联的掩码,过滤掉与相关物体无关的预测,并利用全局上下文来提高跟踪精度(参见图5的消融研究)。这一步骤对像RAFT这样的光流系统特别有利,因为它们通常依赖局部特征匹配,在遮挡情况下往往会遇到困难。
为了进一步减少语义相似点之间的模糊性并防止在不同区域之间的闪烁,还使用了额外的几何感知特征提取器。对于每个点,如果其与原始查询点的特征相似度低于0.5,则该点被视为遮挡,确保只有可靠的预测被保留,从而防止错误因语义模糊而传播。物体级滤波器和几何感知滤波器相结合,形成了一个强大的模块,通过保持轨迹在帧之间的连续性并最小化遮挡和视觉模糊的影响,从而提高了精确度,在复杂的视频场景中实现更精确的跟踪。
▲图3| 在跟踪过程中,一个点可能会频繁消失和重新出现。当该点消失时,建立长期对应关系有助于在关键帧中准确地重新定位,确保即使在遮挡或场景变化等具有挑战性的情况下,该点也能被正确地重新识别。重新定位后,光流整合将恢复,使得后续帧的平滑和精确轨迹生成能够无缝继续。
■ 2.2. 双向概率光流积分
该方法引入了一种受卡尔曼滤波器启发的概率积分策略,使得能够逐帧恢复轨迹,实现对任意点的稳健和精确跟踪。
该方法结合了前向和反向两次传递,利用前向和反向光流重建完整的轨迹。具体而言,给定从帧
到帧
的光流
及方差
,可以通过以下公式获得预测的均值和方差:
随后,通过假设这些预测是独立的,将来自不同前一帧的预测合并。
由于高斯分布的概率密度函数(PDF)的乘积仍然是高斯分布,可以将来自不同前一帧的多个预测合并为一个单一的预测。预测的均值和方差可以通过加权线性组合得到:
为了简化计算,引入一个常数相关系数 𝑝 来表示任何一对前一帧预测之间的相关性。最终的修正估计给出如下:
通过对修正后的热图应用SoftArgMax,可以得到最终的预测位置。
■ 2.3. 联合光流与长期对应积分
尽管光流积分可以部分缓解漂移并产生平滑的轨迹,但积累的误差仍会导致长时间跟踪中的漂移。此外,当物体消失并在一段时间后重新出现时,光流方法可能会难以跟踪该点。为了解决这些问题,
提出了将长期对应信息与基于光流的预测框架结合的策略。
首先研究训练了一个基于DINO-Tracker的长期对应关键点跟踪器,包括一个特征提取器和一个热图优化器,并将光流作为自监督信号。每一帧的特征图可以通过以下公式计算: