点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:3D视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「
3D视觉从入门到精通
」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:SLAck: Semantic, Location, and Appearance Aware Open-Vocabulary Tracking
作者:Siyuan Li, Lei Ke, Yung-Hsu Yang, Luigi Piccinelli, Mattia Segù, Martin Danelljan, Luc Van Gool
机构:ETH Zürich、INSAIT
原文链接:https://arxiv.org/abs/2409.11235
代码链接:https://github.com/siyuanliii/SLAck
1. 引言
多目标跟踪(MOT)传统上局限于有限的词汇表,主要关注行人和车辆等类别。开放词汇表跟踪的兴起将视野扩展到更广泛的类别,但同时也放大了挑战,因为不同对象类别在外观、行为和运动模式上存在差异。尽管存在这些挑战,但开发此类跟踪系统具有重要意义。从自动驾驶到增强现实等现实应用,都需要超越词汇表限制的跟踪器,以实现更广泛、更多样化的功能。
目前,在大词汇表跟踪中表现最佳的MOT方法主要基于纯外观匹配。基于运动的MOT面临重大挑战,因为主流的基于运动的MOT方法严重依赖卡尔曼滤波器(KF)。基于KF的跟踪器依赖于线性运动假设,这在以行人或车辆为中心的数据集(如MOT挑战赛)中有效。然而,如图1所示,在复杂的开放词汇表场景中,由于不同对象类别和运动模式的非线性对象运动,这一假设会失效。
尽管存在这些挑战,但运动和位置先验仍然可以为鲁棒的多目标跟踪提供重要线索。我们的方法摒弃了显式的基于KF的运动模型,而是提出了一种在关联学习过程中隐式融入位置先验的方法。通过将位置和形状信息投影到特征空间中,并通过多头注意力构建隐式的时空对象图,我们的模型直接从数据中学习隐式的运动先验。这种隐式建模使我们能够在空间上学习复杂的场景级对象结构,并能够在时间上捕捉线性和非线性运动。
语义和运动线索之间的协同作用是显而易见的,因为运动模式通常与对象类别相关。例如,如果模型在训练过程中学习了马的运动模式,它可以直接利用这些知识来转移到语义相似的类别(如斑马)在新型类别跟踪中的应用。这一观察结果支持了我们的联合建模方法,即语义信息丰富了位置先验,从而在新型类别跟踪中表现出色,甚至不依赖于外观线索。
外观特征被广泛认为是准确跟踪的关键。在我们的统一框架中,这些特征通过包含在融合嵌入中无缝地集成到匹配过程中。这种集成策略与传统方法形成鲜明对比,传统方法通常在后期阶段采用基于启发式的融合。
我们的集成模型名为SLAck,在统一的关联框架内封装了语义、位置和外观,用于开放词汇表跟踪。利用预训练的检测器,SLAck提取了一组全面的描述符,并采用基于注意力的时空对象图(STOG)来促进帧内空间上和帧间时间上的信息交换。类似的过程已被证明在建模对象检测中的空间对象级关系[16]或计算点之间的对应关系时非常有用。我们的动机是交换对象的语义、外观和位置,并利用这些方面的协同作用来更好地跟踪新型对象。这一过程不仅增强了对象相对位置的感知,还将运动和外观模式与语义信息对齐,从而实现了更稳健的时空对象关联。
在大词汇表跟踪基准上的广泛实验证实了我们的方法的有效性,特别是在开放词汇表设置中,跟踪性能有了显著提高,特别是对于新型对象。我们的结果表明,当隐式学习时,运动模式和语义可以显著增强跟踪性能。通过额外集成外观线索,我们的方法在关联准确性上实现了大幅提升,这证实了我们的贡献的价值:将语义信息与外观和基于运动的跟踪早期集成、学习内在线索融合而非外部启发式方法,以及建立隐式时空对象图,在新型类别跟踪中表现出显著的泛化能力。
2. 摘要
开放词汇多目标跟踪(MOT)旨在将跟踪器推广到不在训练集中的新类别。目前,性能最好的方法主要基于纯外观匹配。由于大词汇量场景中运动模式的复杂性和新颖对象的不稳定分类,现有方法在最终匹配步骤中要么忽略运动和语义线索,要么基于试探法应用它们。在本文中,我们提出了一个统一的框架SLAck,它在关联的早期步骤中联合考虑语义、位置和外观先验,并学习如何通过轻量级的空间和时间对象图来集成所有有价值的信息。我们的方法消除了复杂的融合不同线索的后处理启发,显著提高了大规模开放词汇跟踪的关联性能。在没有花里胡哨的情况下,我们在开放词汇MOT和陶TETA基准测试上的表现优于以前的新颖类跟踪方法。
3. 效果展示
运动线索 大多数基于运动的MOT方法,包括,在线性运动假设下依赖卡尔曼滤波器(KF)。然而,开放环境的动态特性,包括变化的相机角度、快速的对象移动以及跨类别的多样运动模式,挑战了线性运动模型的有效性。这种复杂性在图1中得到了定性的体现。尽管存在这些挑战,对象的运动仍然是跟踪的有价值线索,因为即使是非线性运动,空间结构和邻近性通常也是一致的。
4. 方法
语义线索 图3总结了先前多目标跟踪(MOT)文献中利用语义的不同方法。在多类别MOT中,语义线索通常扮演次要角色,通常作为硬分组策略使用,其中跟踪器根据检测器预测将同类对象关联起来。这种方法在如KITTI和nuScenes等数据集上跟踪人类和车辆等简单任务中非常有效。然而,在开放词汇集跟踪中,由于分类不可靠,如图2所示,这种策略存在不足。依赖这种不确定的分类会损害跟踪性能。TETer提出使用对比类示例编码在特征空间中进行语义比较,从硬分组转向更可靠的软分组。然而,这种方法仍然将语义信息作为后期基于启发式的关联辅助手段。相比之下,我们主张在早期将语义线索整合到关联过程中,利用其信息潜力来提升学习和关联的准确性。
为此,我们引入了一种方法,通过建立对象之间的空间和时间关系来利用隐式运动建模。具体而言,我们将每个对象的位置和形状映射到特征空间中,通过注意力机制实现帧内和帧间的交互。这一过程促进了对象之间关于其位置的信息交换,增强了运动表示,而不依赖于显式的线性假设。
外观线索 基于外观的方法,包括,通过利用外观嵌入在开放词汇集跟踪中占主导地位。这些嵌入是从检测器添加的头部获得的,并通过对比学习在静态图像或视频对上进行训练,对于不同跟踪场景中的关联至关重要。然而,仅依赖外观会带来诸如遮挡敏感性和需要大量数据来学习鲁棒匹配等挑战,这往往导致对基础类别的过拟合。