专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

CVPR'24开源 | ADA-Track：端到端3D多目标跟踪最新SOTA！

计算机视觉工坊 · 公众号 · · 2024-07-01 11:00

正文

点击下方卡片，关注 「计算机视觉工坊」 公众号
选择星标，干货第一时间送达

编辑：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入 3D视觉知识星球 ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料： 近20门视频课程（星球成员免费学习） 、 最新顶会论文 、 3DGS系列 、 计算机视觉书籍 、 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

准确和一致的3D多目标跟踪（MOT）对于确保自动驾驶的可靠性和安全性至关重要。近年来，完全依赖多视角摄像头的视觉中心感知在自动驾驶社区中引起了极大关注，这得益于传感器成本的降低以及变压器在计算机视觉中的进步。在该领域内，出现了两种主要方法：一种将多视角特征转换为中间密集鸟瞰图（BEV）表示，另一种利用直接与多视角图像交互的对象查询来构建以对象为中心的表示。由于在建模对象运动方面的优势，后者在许多工作中被扩展到基于查询的MOT。

在基于查询的MOT方法中，大多数采用了注意力跟踪（TBA）范式。TBA使用轨迹查询（彩色方块）在不同帧中一致地检测相同的身份，并引入对象查询（白色方块）在每一帧中初始化新出现对象的轨迹。然而，这种高度纠缠的设计在平衡检测和跟踪性能方面是次优的。首先，每个轨迹查询由单个嵌入组成，负责完成检测和跟踪两项任务，而这两项任务共享相同的网络架构。此外，用于身份感知跟踪的轨迹查询和用于身份无关检测的对象查询也由相同的网络权重处理。我们认为，这种方法在从单一查询表示中提取任务特定信息方面是次优的。其次，数据关联是通过所有查询之间的自注意力隐式解决的。尽管这种方法有效地将查询关系的信息整合到查询细化中，但在推理过程中出现了一个显著的缺点。网络仅输出每个对象的一个置信度得分，但不清楚它代表的是检测还是关联置信度。这需要复杂的手动调整后处理。

其他基于查询的MOT方法使用解耦的检测和跟踪查询独立解决检测和跟踪任务。两种查询类型将在启发式或可学习模块中显式关联。然而，这仍然继承了基于检测跟踪（TBD）范式的解耦设计，难以有效优化和协调两项任务。

在本文中，我们认为检测和跟踪是一个鸡生蛋蛋生鸡的问题：准确的检测能够实现稳健的初始化和简单的轨迹关联，而建立良好的轨迹结合时间上下文以减轻潜在的检测错误。我们的方法优雅地解决了这一挑战，通过在两个任务中利用协同作用，同时解耦它们。我们提出了ADATrack，一种新颖的基于查询的端到端多摄像头3D MOT框架，以交替的方式进行对象检测和显式关联。我们在各帧之间传播代表唯一对象实例的轨迹查询，同时生成解耦的检测查询来检测每一帧中的所有对象。

受启发于一种基于边增强交叉注意力的学习数据关联模块。在该模块中，轨迹查询和检测查询之间的边特征代表关联信息。这些特征被整合到注意力计算中，逐层更新，并进一步用于输出亲和度得分。不同于我们包含节点中的外观特征和边中的几何特征，实现了完全可微的外观几何推理。然后，我们将学习到的关联模块整合到基于查询的多摄像头3D检测器的每个变压器解码器层中，例如DETR3D。通过这种方式，解码器层依次进行查询到图像的交叉注意力，以细化对象检测的查询表示，并进行查询到查询的交叉注意力，以细化查询和边缘表示的数据关联。通过堆叠解码器层，迭代细化的查询和边缘特征相互提供有用信息，最终实现检测和跟踪任务的协调优化。

我们在nuScenes数据集上评估了我们的方法，并将我们提出的交替检测和关联范式与基于其他两种范式的方法进行了比较。在实现最先进性能的同时，我们提出的范式可以轻松与各种基于查询的3D检测器结合。

下面一起来阅读一下这项工作~

1. 论文信息

标题：ADA-Track: End-to-End Multi-Camera 3D Multi-Object Tracking with Alternating Detection and Association

作者：Shuxiao Ding, Lukas Schneider, Marius Cordts, Juergen Gall

机构：奔驰、波恩大学、拉马尔机器学习和人工智能研究所

原文链接：https://arxiv.org/abs/2405.08909

代码链接：https://github.com/dsx0511/ADA-Track

2. 摘要

许多基于查询的3D多目标跟踪（MOT）方法采用基于注意力的跟踪范式，利用跟踪查询进行身份一致的检测，并使用对象查询进行身份无关的跟踪生成。然而，基于注意力的跟踪将检测和跟踪查询在一个嵌入中纠缠在一起，分别用于检测和跟踪任务，这是次优的。其他方法类似于基于检测的跟踪范式，使用解耦的跟踪和检测查询来检测对象，随后进行关联。然而，这些方法没有利用检测和关联任务之间的协同作用。结合两种范式的优点，我们提出了ADA-Track，一个从多视角摄像机进行3D MOT的全新端到端框架。我们引入了一个基于边增强跨注意力的可学习数据关联模块，利用外观和几何特征。此外，我们将此关联模块集成到基于DETR的3D检测器的解码层中，实现了类似DETR的查询到图像跨注意力进行检测和查询到查询跨注意力进行数据关联。通过堆叠这些解码层，查询交替地为检测和关联任务进行优化，有效地利用了任务依赖性。我们在nuScenes数据集上评估了我们的方法，并展示了与之前两种范式相比，我们的方法的优势。代码可在https://github.com/dsx0511/ADA-Track获取。

3. 效果展示

基于查询的端到端MOT范式比较。我们提出的范式(1c)利用了跟踪-注意(1a)的耦合架构和跟踪-检测(1b)的解耦任务特定查询的优势。

4. 基本原理是啥？

ADA-Track 框架的概述 。Transformer 解码器以解耦的轨迹和检测查询、零初始化的边缘特征以及多视图图像特征作为输入。每个解码器层首先使用自注意力和查询到图像的交叉注意力来细化查询特征，以进行目标检测。然后应用查询到查询的边缘增强交叉注意力来细化检测查询和边缘特征，以进行数据关联。通过堆叠这个解码器层，查询特征在这两项任务中交替迭代地更新。轨迹更新模块将两个查询集关联起来，并生成用于下一帧的轨迹查询。

目标分配 ：通过注意力跟踪应用身份引导匹配用于轨迹查询，然后使用匈牙利算法将检测查询与剩余的真实值匹配。我们的方法对两种查询类型都采用相同的匹配规则，但检测查询会匹配所有的真实值。

5. 实验结果

我们将 ADA-Track 与现有基于 TBA 或 TBD 的工作进行比较，如表 1 中每个检测器组的其余部分所示。由于实现问题，MUTR3D 报告的性能低于我们的 TBA-Baseline，这是一种训练周期较少且训练期间固定骨干网络的 MUTR3D 再现。DQ-Track 也使用解耦查询和一个复杂的学习关联模块，遵循 TBD。ADA-Track 的 AMOTA 超过它 1.2%P，再次强调了我们交替检测和关联设计的有效性。STAR-Track 的训练需要在预训练的 MUTR3D 检查点上初始化，总训练周期为 48。为了公平比较，我们额外训练我们的模型 48 个周期，称为 ADA-Track-long，AMOTA 超过 STAR-Track 1.3%P。

基于 PETR 检测器的比较中，我们与 PF-Track 达到相当的性能（0.479 AMOTA）。然而，PF-Track 是一种联合跟踪和预测方法，利用跟踪扩展模块在输出跟踪结果时用预测轨迹替换低置信度检测，这还需要未来帧的监督。我们的 ADA-Track 是一种纯粹的跟踪方法，但仍然实现了相同的 AMOTA。相比不使用跟踪扩展的 PF-Track，ADA-Track 的 AMOTA 高 2.6%P。

我们在表 2 的测试集中将 ADA-Track 与端到端方法进行比较，在训练和验证集上基于 DETR3D 和 VoVNetV2-99 骨干训练 ADA-Track。与表 2 第二部分使用 DETR3D 或 PETR 的基于查询的方法相比，ADA-Track 实现了 0.456 AMOTA 和 1.237 AMOTP，分别比最新的先进方法 STAR-Track 和 PF-Track 高 1.7%P 和 2.2%P AMOTA。与其他非基于查询的方法相比，ADA-Track 也取得了最佳性能，比使用更强的 BEVFormer 检测器的 CC-3DT 提高了 4.6% AMOTA。

此外，我们强调 ADA-Track 可以与现有基于注意力的跟踪工作中提出的许多组件结合。例如，过去和未来推理或潜在运动模型可以改善查询嵌入或查询传播期间的运动更新，而我们使用的是 MUTR3D 中的简单方法。这些扩展可以无缝集成到我们的框架中，并期望进一步的改进。

6. 总结

我们提出了一种新颖的基于查询的多摄像头 3D 多目标跟踪方法，称为 ADA-Track。我们观察到，在同时利用这些任务之间的协同作用的情况下，将检测和关联任务解耦是实现高质量跟踪的关键。根据这一发现，我们提出了一种交替进行检测和关联的范式。此外，我们提出了一种基于边缘增强交叉注意力的学习关联模块，可以无缝集成到任何基于查询的解码器中。大量实验证明了我们方法的有效性，同时在 nuScenes 跟踪基准上实现了最先进的性能。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型： NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称 （如3D点云+清华+小草莓） , 拉你入群。

3D视觉学习知识星球

3D视觉从入门到精通知识星球 、国内成立最早、6000+成员交流学习。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目 &作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

3D视觉课程官网： www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、