以前的方法通常依赖于局部 2D 相关性映射来建立从查询图像中的点到目标图像中的局部区域的对应关系,这通常会与均匀区域或重复特征作斗争,从而导致匹配歧义。LocoTrack通过一种新颖的方法克服了这一挑战,该方法利用跨区域的全对对应关系(即局部4D相关性)来建立精确的对应关系,具有双向对应关系和匹配平滑度,从而大大增强了对歧义的鲁棒性。
>>
加入极市CV技术交流群,走在计算机视觉的最前沿
0. 这篇文章干了啥?
在计算机视觉领域,跨场景不同视图寻找对应点(这一过程被称为点对应)是一个基础性问题,它有着广泛的应用,如三维重建、自动驾驶和姿态估计。最近,新兴的点跟踪任务旨在解决视频中的点对应问题。给定一个输入视频和一个物理表面上的查询点,该任务的目标是找到查询点在每一帧中的对应位置及其可见性状态。这项任务需要对时间上的运动有深入的理解,以及准确匹配点的强大能力。
当前,该领域的方法通常依赖于构建二维局部相关图,通过比较查询点的深度特征与目标帧的局部区域来预测对应位置。然而,这种方法在精确识别同质区域、具有重复模式的区域或共现物体间的差异时遇到了重大困难。为了解决这些挑战性场景中出现的匹配歧义,在帧之间建立有效的对应关系至关重要。现有工作试图通过考虑时间上下文来解决这些歧义,但在严重遮挡或复杂场景下,挑战依然存在。
在本文中,我们旨在通过引入更好的空间上下文来缓解局部二维相关性中缺乏空间上下文的问题。我们重新审视了密集对应关系方法,因为它们通过利用丰富的空间上下文展示了对抗匹配模糊性的鲁棒性。密集对应关系为图像中的每个点都建立了对应的点。为了实现这一点,这些方法通常在两幅图像中的每对点之间计算相似性,从而生成一个四维相关体。这个高维张量提供了密集的双向对应关系,提供了二维相关性所不具备的匹配先验,如从一幅图像到另一幅图像的密集匹配平滑性,反之亦然。例如,四维相关性可以提供约束,即一个点到另一幅图像的对应关系与其邻近点的对应关系在空间上是一致的。然而,将源于四维相关性的密集对应关系的优势融入点跟踪中,面临着重大挑战。这不仅引入了巨大的计算负担,而且相关性的高维性也需要专门设计以进行适当的处理。
我们通过将点跟踪问题表述为局部全对对应关系问题来解决这一问题,这与主流的点对区域对应关系方法相反。我们构建了一个局部四维相关性,该相关性在查询点周围的局部区域与目标帧上相应的局部区域之间找到所有对的匹配。通过这种表述,我们的框架在保持效率(由于搜索范围受限)的同时,获得了由四维相关性提供的解决匹配模糊性的能力。然后,通过精心设计的轻量级相关性编码器处理局部四维相关性,以处理高维相关性体积。该编码器将处理过程分解为两个二维卷积层分支,并生成紧凑的相关性嵌入。接着,我们使用Transformer将时间上下文集成到嵌入中。Transformer的全局感受野尽管结构紧凑,但有助于有效建模长距离依赖关系。我们的实验表明,堆叠3层Transformer足以显著优于最先进的方法。此外,我们发现使用相对位置偏差可以使Transformer处理可变长度的序列。这使我们的模型能够处理长视频,而无需手动设计链接过程。
LocoTrack是一种高效且准确的点跟踪模型。其核心组件包括新颖的局部全对对应关系表述,利用密集对应关系来提高对匹配模糊性的鲁棒性;轻量级相关性编码器,确保计算效率;以及Transformer,用于在可变上下文长度上融入时间信息。
下面一起来阅读一下这项工作~
1. 论文信息
原文链接:
https://arxiv.org/abs/2407.15420
代码链接:
https://github.com/KU-CVLAB/LocoTrack
官方主页:
https://ku-cvlab.github.io/locotrack/
2. 摘要
我们引入了LocoTrack,这是一个为跨视频序列跟踪任意点(TAP)任务而设计的高度准确且高效的模型。在此任务中,之前的方法通常依赖于局部2D相关图,以建立查询图像中的一个点到目标图像中局部区域的对应关系,但这种方法在处理同质区域或重复特征时往往会遇到困难,从而导致匹配模糊。LocoTrack通过一种新颖的方法克服了这一挑战,该方法利用跨区域的全对对应关系(即局部4D相关性)来建立精确的对应关系,通过双向对应关系和匹配平滑性显著提高了对抗模糊性的鲁棒性。
我们还融入了轻量级的相关编码器来提高计算效率,并采用紧凑的Transformer架构来整合长期时间信息。LocoTrack在所有TAP-Vid基准测试中均达到了无与伦比的准确性,并且运行速度几乎是当前最先进技术的6倍。
3. 效果展示
我们的模型,名为LocoTrack,在保持极轻量级架构的同时,性能优于最近的最先进模型,如图1所示。具体来说,与Cotracker相比,我们的小型模型变体在TAP-Vid-DAVIS数据集上实现了+2.5 AJ的增长,并提供了6倍的快速推理速度。此外,在同一数据集中,它比TAPIR高出+5.6 AJ,且推理速度快了3.5倍。我们的大型变体虽然仍比竞争中的最先进模型快,但展示了更进一步的性能提升。
4. 基本原理是啥?
在本文中,我们将四维相关体的有效性集成到了我们的点跟踪流程中。与广泛使用的二维相关性相比,四维相关性提供了两个独特的特点,这些特点为过滤掉噪声对应关系提供了有价值的信息,从而实现了更稳健的跟踪:
双向对应关系:四维相关性提供了双向对应关系,可用于验证匹配并减少模糊性。这种先验通常通过检查相互一致性或使用比率测试来利用。
平滑匹配:四维相关体是通过密集的全对相关性构建的,这可以用于强制匹配平滑性,并改善相邻点之间的匹配一致性。
我们的目标是在保持高效计算的同时,利用四维相关体的这些优势。我们通过在构建四维相关体时将搜索空间限制在局部邻域内来实现这一点。除了使用局部四维相关性外,我们还提出了一种方法,以利用Transformer的全局感受野进行长程时序建模。这使我们的模型能够在几个(甚至只有3个)Transformer层堆叠内捕获长程上下文,从而实现了紧凑的架构。
我们的方法被称为LocoTrack,它接受一个查询点
和一个视频
作为输入,其中T表示帧数,
表示第t帧。我们假设查询点可以在任意时间步给出。我们的目标是生成一条轨迹
,其中
,以及相关的遮挡概率
,其中