专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
环球时报  ·  场上发生了什么?林孝埈回应 ·  昨天  
澎湃新闻  ·  免签入境新政+1,今起执行! ·  昨天  
新华社  ·  夜读|五种心态,成就更好的自己 ·  3 天前  
人民日报  ·  【夜读】珍惜那个和你聊得来的人 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

首次屠尽KITTI、nuScenes、Waymo!重磅开源MCTrack:3D多目标跟踪大一统!

计算机视觉工坊  · 公众号  ·  · 2024-11-01 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:MCTrack: A Unified 3D Multi-Object Tracking Framework for Autonomous Driving

作者:Xiyang Wang, Shouzheng Qi, Jieyou Zhao, Hangning Zhou, Siyu Zhang, Guoan Wang, Kai Tu, Songlin Guo, Jianbo Zhao, Jian Li, Mu Yang

机构:Mach Drive、National University of Defense Technology、Sichuan University、MEGVII Technology 、University of Science and Technology of China

原文链接:https://arxiv.org/abs/2409.16149

代码链接:https://github.com/megvii-research/MCTrack

1. 导读

本文介绍了MCTrack,一种新的3D多目标跟踪方法,在KITTI,nuScenes和Waymo数据集上实现了最先进的(SOTA)性能。现有追踪范例通常在特定数据集上表现良好,但缺乏可推广性,MCTrack解决了这一问题,提供了一个统一的解决方案。此外,我们已经对各种数据集的感知结果格式进行了标准化,称为BaseVersion,便于多对象跟踪(MOT)领域的研究人员专注于核心算法开发,而无需承担过多的数据预处理负担。最后,认识到当前评估度量的局限性,我们提出了一种新的评估运动信息输出的集合,如速度和加速度,这对下游任务至关重要。

2. 引言

三维多目标跟踪在自动驾驶领域发挥着至关重要的作用,因为它是感知与规划任务之间的桥梁。跟踪结果直接影响轨迹预测的性能,进而影响到自动驾驶车辆的规划与控制。目前,常见的跟踪范式包括检测跟踪(Tracking-by-Detection,TBD)、注意力跟踪(Tracking-by-Attention,TBA)和联合检测与跟踪(Joint Detection and Tracking,JDT)。通常,TBD范式方法在性能和计算资源效率方面都优于TBA和JDT范式方法。常用的数据集包括KITTI、Waymo和nuScenes,这些数据集在采集场景、地区、天气和时间等方面存在显著差异。此外,不同数据集的难度和格式也各不相同。研究人员通常需要编写多个预处理程序以适应不同的数据集。数据集之间的差异性通常导致这些方法仅在特定数据集的范围内达到最优性能(State-Of-The-Art,SOTA),而在其他数据集上的表现则不尽如人意,如图1所示。例如,DetZero在Waymo数据集上取得了SOTA性能,但未在其他数据集上进行测试。Fast-Poly在nuScenes数据集上取得了SOTA性能,但在Waymo数据集上的表现平平。同样,DeepFusion在KITTI数据集上表现良好,但在nuScenes数据集上的表现则较为一般。此外,在性能评估方面,现有的指标如CLEAR、AMOTA、HOTA、IDF1等,主要判断轨迹是否正确连接,但在评估后续运动信息的准确性方面存在不足,如速度、加速度和角速度等关键信息,这对于满足下游预测和规划任务的要求至关重要。 推荐课程: 面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)

针对上述挑战,我们首先引入了BaseVersion格式,以标准化不同数据集上的感知结果(即检测)。这种统一格式极大地帮助了研究人员,使他们能够专注于改进多目标跟踪(Multiple Object Tracking,MOT)算法,而不受数据集特定差异的影响。

其次,本文提出了一种统一的多目标跟踪框架,称为MCTrack。据我们所知,我们的方法是第一个在三个最流行的跟踪数据集(KITTI、nuScenes和Waymo)上均取得SOTA性能的方法。具体来说,它在KITTI和nuScenes数据集上排名第一,在Waymo数据集上排名第二。值得注意的是,在Waymo数据集上排名第一的探测器明显优于我们所使用的探测器。此外,该方法从实际工程应用的角度出发进行设计,所提出的模块解决了现实世界中的问题。例如,我们的两阶段匹配策略包括第一阶段,该阶段在鸟瞰图(Bird's-Eye View,BEV)平面上执行大部分轨迹匹配。然而,对于基于相机的感知结果,在BEV平面上进行匹配可能会因深度信息的不稳定性而遇到挑战,在实际工程场景中,深度信息的误差可能高达10米。为了解决这一问题,在BEV平面上未成功匹配的轨迹将被投影到图像平面上进行二次匹配。这一过程有效避免了因深度信息不准确而导致的ID切换(IDSW)和碎片化(Frag)等问题,进一步提高了跟踪的准确性和可靠性。

最后,本文引入了一套用于评估MOT系统输出的运动信息的指标,包括速度、加速度和角速度。我们希望研究人员不仅关注轨迹的正确连接,还考虑如何在正确匹配后准确提供下游预测和规划所需的运动信息,如速度和加速度。我们提出了MCTrack,这是一种为自动驾驶设计的精简、高效且统一的三维多目标跟踪方法。

3. 效果展示

所提出的方法与SOTA方法在不同数据集上的比较。我们第一次在所有三个数据集上都实现了SOTA性能。

4. 方法

我们提出了MCTrack,一种为自动驾驶设计的精简、高效、统一的3D多目标跟踪方法。总体框架如图2所示。

为了验证统一流水线(Pipeline,PPL)在不同数据集上的性能,并方便研究人员使用,我们标准化了来自各种数据集的检测数据的格式,称为BaseVersion格式。该格式封装了全局坐标系中障碍物的位置,并按场景ID、帧序列和其他相关参数进行组织。如图3所示,该结构包括一个包含所有相关帧的综合场景索引。每帧都详细记录了帧号、时间戳、唯一令牌、检测框、变换矩阵和其他相关数据。

对于每个检测框,我们存档了诸如“检测分数”、“类别”、“全局xyz坐标”、“长宽高(lwh)”、“全局方向”(以四元数表示)、“全局偏航角”(以弧度表示)、“全局速度”和“全局加速度”等详细信息。如需更详细的解释,请参阅我们的代码存储库。

当两个框相互包含时,广义交并比(Generalized Intersection over Union,GIoU)无法区分相对位置关系,实际上退化为交并比(Intersection over Union,IoU)。类似地,对于距离交并比(Distance Intersection over Union,DIoU),也存在问题,如图4所示。当两个框的IoU为0且中心距离相等时,也很难确定两个框之间的相似性。

我们的大量实验表明,仅使用欧几里得距离或IoU及其变体作为成本度量不足以捕捉所有类别之间的相似性。然而,将距离和IoU结合起来可以获得更好的结果。为了解决这些限制,我们提出了基于BEV平面的Ro GDIoU,这是一种结合了检测框朝向角的IoU变体,通过整合GIoU和DIoU来实现。图5展示了Ro GDIoU计算的示意图,算法1中提供了相应的伪代码。

5. 实验结果

我们在KITTI、nuScenes和Waymo数据集的测试集上,将MCTrack与已发表并经同行评审的当前最优(SOTA)方法进行了比较。我们的方法在这些数据集上均表现出卓越的性能。接下来,我们将详细阐述每个数据集上的实验结果。

KITTI:在KITTI数据集上,MCTrack在在线和离线测试中均展现出出色的性能,分别获得了80.78%和82.46%的HOTA分数,如表1所示。这些分数在所有测试方法中名列前茅。值得注意的是,MCTrack在关联准确性(AssA)方面表现尤为突出,得分高达86.55%,并且具有最低的假阴性(FN)率。AssA指标旨在评估关联任务的精确度。我们的AssA分数在排名中位居榜首,这充分证明了MCTrack在准确匹配和连接高保真检测目标方面的卓越能力。

此外,在线跟踪性能在实际工程应用中尤为重要,因为它涉及实时处理,并且通常不包括后续的轨迹优化。在这方面,MCTrack同样表现出色,其在线跟踪能力在所有比较的方法中最佳。

nuScenes:在nuScenes数据集上,MCTrack获得了76.3%的AMOTA分数,这是所有参与的3D多目标跟踪系统中表现最好的。如表2所示。值得注意的是,MCTrack在汽车和拖车等关键检测类别中展现出了优越的跟踪结果,优于其他跟踪系统。此外,对于卡尔曼滤波器,我们仅采用了简单的常速模型。而且,MCTrack获得了最高的真正例(TP)数量以及最低的假阴性(FN)和身份切换(IDS)数量。这一结果证明了MCTrack在保持跟踪稳定性方面的卓越性能。

Waymo:在Waymo数据集上,当使用统一检测器时,我们的方法优于其他方法,如表3所示。尽管MCTrack在排行榜上排名第二,但值得注意的是,排名第一的方法DetZero所使用的检测器在多个指标上显著优于我们的检测器,例如其平均精确度均值(mAP)高出两个多百分点。我们认为,不仅我们的方法,而且所有其他排名的方法之间都不具有直接可比性。

特别值得一提的是,我们在所有三个数据集上获得的跟踪结果都是基于相同的基线框架实现的。这充分证明了我们的基线框架和方法不仅具有高鲁棒性,而且显示出明显的优越性。

6. 总结 & 未来工作

在这项工作中,我们开发了一种简洁且统一的3D多目标跟踪方法,专门针对自动驾驶领域。我们的方法在各种数据集上均取得了当前最优(SOTA)性能。此外,我们还标准化了不同数据集的感知格式,使研究人员能够专注于多目标跟踪算法的研究,而无需处理由数据集格式差异引起的繁琐预处理工作。最后,我们引入了一套新的评估指标,旨在衡量多目标跟踪的性能,鼓励研究人员不仅关注轨迹的正确匹配,还关注对下游应用至关重要的运动属性的性能。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉知识星球







请到「今天看啥」查看全文