与实时多目标跟踪(MOT)相比,离线多目标跟踪(OMOT)具有执行2D-3D检测融合、错误链接校正和全轨迹优化的优势,但同时也面临着边界框不对齐和轨迹评估、编辑、细化等挑战。
本文提出了“BitTrack”这一3D OMOT框架,包括2D-3D检测融合模块、初始轨迹生成模块以及双向轨迹重新优化模块,以实现从摄像头-LiDAR数据中获取最优跟踪结果。
本文的创新之处有三方面:
(1) 开发了一种点 Level 的目标注册技术,该技术采用基于密度的相似性度量以实现2D-3D检测结果的高精度融合;
(2) 开发了一套数据关联和轨迹管理技巧,利用基于顶点的相似性度量以及虚假警报拒绝和轨迹恢复机制生成可靠的双向目标轨迹;
(3) 开发了一种轨迹重新优化方案,以贪婪方式重新组织不同忠实度的轨迹片段,并使用完成和平滑技术细化每条轨迹。
在KITTI数据集上的实验结果表明,BitTrack在3D OMOT任务的准确性和效率方面达到了最先进的表现。
I Introduction
许多应用需要离线多目标跟踪(OMOT)技术来实现高精度的目标轨迹,例如运动分析和数据集标注。实时多目标跟踪(MOT)通常采用跟踪-by-检测或联合检测与跟踪[5]方案。相比之下,OMOT更倾向于前者,因为许多后处理和全局优化技术依赖于检测结果。大多数OMOT关联框架可以分为两类:
(1)检测结果的优化和聚类,以及(2)初始轨迹的编辑和细化。这两类都依赖于检测的质量。由于缺乏序列信息,前者可能遭受上下文不一致和计算不稳定的问题;
而基于顺序跟踪结果,后者通常能保证性能。许多方法利用2D检测结果来改进3D检测,其性能受到级联 Pipeline [12]或各种2D-3D目标配准误差[13]的限制。
因此,为了开发一个基于后处理的OMOT框架(如图1所示),以下技术挑战必须得到妥善处理:
-
2D-3D目标配准
。传感器校准错误、目标间遮挡、检测不准确和边界框对齐不当导致2D-3D目标后期融合中许多配准噪声。
-
初始轨迹生成
。关联准确性依赖于目标相似性度量和跟踪管理机制的质量,这些机制受到复杂目标运动、检测误报和目标重新出现的影响。
-
轨迹后处理
。轨迹后处理包括两个方面:(1)多个轨迹的重新组织,以及(2)每个单独轨迹的细化。前者需要跟踪质量评估和关联技术,而后者需要轨迹完成和回归技巧。这两个方面都受到目标时间上的矛盾、跟踪不确定性和计算负担的影响。
许多检测融合方法[13]使用2D边界框和3D边界框的透视视图(PVs)之间的2D交并比(IoUs)作为融合线索,但由于遮挡,这可能导致模糊性。大多数实时MOT方法采用基于边界框的目标相似性度量和基于生命周期的跟踪管理机制,但其中很少有考虑度量限制或检测错误的性质。许多OMOT方法使用聚类[8]、关联[4]或回归[4, 11]技术进行轨迹细化,但它们很难利用全局顺序信息重新组织现有轨迹。
本文提出了一种名为“BiTrack”的OMOT框架,该框架能够实现健壮的2D-3D检测融合、可靠的初始轨迹生成和高效的轨迹重优化。这项工作的贡献包括:
-
开发了一个2D-3D检测融合模块,该模块利用点 Level 表示和目标点密度来实现健壮的目标配准。
-
开发了一个轨迹生成模块,该模块采用尺度平衡的目标相似性度量和面向离线的跟踪管理机制,以实现可靠的3D MOT。
-
开发了一个轨迹重优化模块,该模块利用基于优先级的片段优化以及轨迹完成和平滑技巧,实现高效的双向轨迹融合和单轨迹细化。
-
在https://github.com/Kemo-Huang/BiTrack发布了本工作的源代码。
本文的组织结构如下。第二节介绍了相关的检测和MOT方法。第三节阐述了系统设置和待解决的问题。第四节描述了提出的方法。第五节展示了实验和分析。第六节总结了本文。
II Related Work
表1总结了典型的2D-3D目标检测、实时多目标跟踪(MOT)和双向多目标跟踪(OMOT)方法。在3D目标检测[13, 14]和3D MOT[12]中存在许多多模态检测融合方法。JRMOT[12]采用了基于视锥的融合方法[14]进行级联2D-3D检测,其中2D检测阶段成为了瓶颈。CLOCs[13]使用独立的检测分支,并使用2D结果重新评估3D检测的置信度。然而,基于2D IoU的2D-3D目标对应可能会因目标遮挡而受到影响。
IoU和中心距离是2D和3D MOT中两种普遍的目标运动相似性度量。这两种度量提供不完整的空间信息,而由于尺度差距[4],2D外观相似性难以与后者结合。此外,命中-丢失方案通常用于轨迹管理,但它们大多数仅针对在线应用设计。
许多OMOT方法基于实时MOT结果执行轨迹后处理,这隐式地要求顺序关联。像最小成本流[6]和层次聚类[8]这样的方法可以在没有顺序提示的情况下从全局图合并检测结果。然而,它们通常导致计算量沉重且目标相似性不一致。ReMOT[9]在滑动窗口中重新评估2D目标相似性,用于轨迹片段的分割-合并。TMOH[10]组装来自前向和后向数据序列的结果,但通过替换整个轨迹简单地处理目标链接矛盾。此外,可以在最终阶段使用物理模型[3, 4]或深度学习模型[11]执行单轨迹细化。
BiTrack遵循检测和跟踪的细化方案。与之前的工作相比,本研究提供了点级检测融合的特征、基于鲁棒运动的初始轨迹生成以及基于分割-合并的双向轨迹重新优化。
III System Setup and Problem Statement
BiTrack可以分为三个主要模块:(1) 2D-3D目标检测,(2) 初始轨迹生成,以及(3) 双向轨迹重新优化,如图2所示。整个流程是完全自动的。
给定一系列相机和激光雷达输入,OMOT的目标是在所有帧中定位并识别3D环境中特定类别的目标。在数据预处理中,目标检测器在单独的分支中使用检测置信度
和
分别定位2D目标
和3D目标
。BiTrack以下列方式执行OMOT。
首先
,2D-3D目标融合模块使用相机内参
,相机-激光雷达外参
和2D-3D检测相似性
在
和
之间执行目标注册。2D-3D目标注册被作为一个完整的二分图匹配问题来求解分配矩阵
:
最终的用于跟踪的3D检测结果
从
中根据
,
和
选择,使用检测决策函数
:
根据约束条件:
-
-
-
因此,本研究提出的方法主要解决以下问题:
-
-