0. 这篇文章干了啥?
在自动驾驶系统中,3D多目标跟踪(MOT)和轨迹预测是两个至关重要的任务,对于确保自动驾驶车辆的性能起着至关重要的作用。显然,高精度的跟踪可以为预测提供更坚实的基础,而反过来,准确的预测又可以增强跟踪的有效性。在自动驾驶的主流流程中,这两个任务是依次执行的。尽管这种范式已经取得了一些成功,但分离的处理流程无法充分挖掘跟踪和预测任务之间的潜在互补性,因为它存在信息丢失、特征错位和跨模块错误累积的问题。尽管一些方法试图将这两个任务集成起来,但仍有一些局限性和问题尚未得到很好的探索:
(1)在实际部署中,多目标跟踪和轨迹预测任务都是以流式方式执行的,而大多数先前方法的训练过程都是以快照模式进行的,其中历史窗口的长度是固定的,无法有效地充分利用长期信息。
(2)一般来说,跟踪和预测中物体的坐标表示是不同的,在MOT中需要一个统一的坐标系来进行最优关联,而大多数预测方法则采用以代理为中心的坐标表示来确保每个物体的姿态不变性。
(3)大多数方法都集中在预测当前帧中可见物体的未来轨迹上,却无意中忽略了由于遮挡或上游感知遗漏而丢失的物体,这可能会对下游任务产生不利影响。
在本文中,我们介绍了StreamMOTP,这是用于联合多目标跟踪和轨迹预测的流式框架,其中多目标跟踪(MOT)和轨迹预测任务在连续帧上联合执行。具体而言,我们将新感知到的对象与历史轨迹片段相关联,并同时预测其未来轨迹。与以往工作不同,在StreamMOTP中,对象的提取潜在特征在正向传播阶段被顺序利用,作为后续跟踪对象表示的一部分。对于反向传播,梯度不仅限于单帧,而是跨越多帧传播,这极大地缩小了训练与在线推理之间的差距,通过考虑整个序列中的时间依赖性,实现了更全面的学习过程。
具体来说,我们将训练模式从单帧扩展到多帧,并引入了一个记忆库来维护和更新跟踪对象的长期潜在特征,从而提高了模型对长期序列建模的能力。为了解决跟踪和预测任务之间坐标系不一致的问题,我们提出了一种相对时空位置编码(STPE)策略,该策略用于实现两个任务中不同代理和自我中心表示的折衷与统一。同时,在连续相邻帧中对象的预测轨迹存在明显重叠,我们采用双流预测器,轻松且优雅地同时为跟踪对象和新出现对象生成未来轨迹,这有利于多目标跟踪和轨迹预测两个任务。
应该指出,通过流式处理和统一框架的设计,StreamMOTP获得了处理实际应用中更复杂驾驶场景的潜力和优势。一方面,通过在当前帧中标记被遮挡目标的可能位置,跟踪对象的预测轨迹有助于解决当前的遮挡问题。另一方面,对于当前帧中新感知到的对象,StreamMOTP利用存储在记忆库中的社会交互和上下文特征来预测其未来轨迹,而传统预测方法可能因缺乏这些对象的历史信息而失败。
下面一起来阅读一下这项工作~
1. 论文信息
标题:StreamMOTP: Streaming and Unified Framework for Joint 3D Multi-Object Tracking and Trajectory Prediction
作者:Jiaheng Zhuang, Guoan Wang, Siyu Zhang, Xiyang Wang, Hangning Zhou, Ziyao Xu, Chi Zhang, Zhiheng Li
机构:清华大学、Mach Drive
原文链接:https://arxiv.org/abs/2406.19844
2. 摘要
在自动驾驶系统中,3D多目标跟踪和轨迹预测是两个至关重要的模块。传统上,这两个任务通常是分开处理的,但最近已有少数方法开始探索以联合方式建模这两个任务。然而,这些方法受到单帧训练限制以及跟踪和预测任务间坐标表示不一致的困扰。本文提出了一种流式和统一的框架,用于联合3D多目标跟踪和轨迹预测(StreamMOTP),以解决上述挑战。首先,我们以流式方式构建模型,并利用记忆库更有效地保存和利用跟踪对象的长期潜在特征。其次,引入了一种相对时空位置编码策略,以弥合两个任务间坐标表示的差距,并为轨迹预测保持姿态不变性。第三,我们进一步通过双流预测器提高了预测轨迹的质量和一致性。我们在流行的nuScenes数据集上进行了广泛的实验,实验结果表明StreamMOTP在两个任务上都显著优于先前的方法,证明了其有效性和优越性。此外,我们还证明了所提框架在自动驾驶实际应用中具有巨大的潜力和优势。综上所述,StreamMOTP框架通过流式处理、记忆库利用、相对时空位置编码以及双流预测器,实现了对3D多目标跟踪和轨迹预测的联合建模,有效解决了单帧训练限制和坐标表示不一致的问题,为自动驾驶系统提供了更准确、可靠的跟踪和预测能力。
3. 效果展示
自动驾驶中多目标跟踪和轨迹预测任务的不同处理流程。(a)级联范式,其中两个任务通过不可微的转换分别执行。(b)联合单帧范式,其中每帧中两个任务在并行框架中联合执行。(c)提出的StreamMOTP,其中记忆、特征和梯度在连续帧之间传播,以增强长期建模能力和时间一致性。
我们在图5中提供了一些定性结果来展示我们的预测。在帧t处,有一个全新的物体被感知到,且没有历史轨迹。StreamMOTP成功地预测了其未来的轨迹,并考虑了社会交互。此外,通过比较两行结果,我们可以看到顶部一行的所有模式预测都更平滑、更精确,且预测的最高分数波动更小。
4. 主要贡献
• 我们提出了StreamMOTP,这是一个基于流式框架的联合多目标跟踪(MOT)和轨迹预测模型,旨在弥合训练与实际部署之间的差距。该框架为跟踪对象引入了记忆库,以更有效地利用长期特征。
• 我们引入了一种时空位置编码策略,以构建不同帧中对象之间的相对关系,从而在跟踪和预测中不一致的坐标表示之间达成妥协和统一。
• 我们设计了一个双流预测器,以同时预测当前帧和前一帧中对象的轨迹。前一帧的预测轨迹可以进一步辅助预测新感知对象的轨迹,从而在轨迹预测中实现更好的时间一致性。
• 在nuScenes数据集上,我们在MOT和轨迹预测方面获得了更好的性能,将AMOTA提高了3.84%,并将minADE/minFDE降低了0.220/0.141。
5. 基本原理是啥?
StreamMOTP概述。轨迹片段(Tracklets)和候选框(Proposals)分别表示前一帧的轨迹和当前帧的检测。模型首先执行基于时空位置编码(STPE)的注意力时空交互,以获得上下文特征。然后基于这些上下文特征执行跟踪和预测任务。在每个时间步,都会更新包含最新上下文特征和跟踪结果的记忆。
双流预测器概述。两个分支同时预测前一帧的轨迹和当前帧的检测。连续帧之间的流式连接使预测的轨迹更加平滑。
连续帧之间的时间一致性的思想,其中重叠的一致性有利于对齐轨迹以实现连续性和稳定性。
6. 实验结果
表I将StreamMOTP与其他方法在跟踪和预测方面进行了比较,为了公平起见,所有方法均使用了相同的Megvii检测器。对于多目标跟踪(MOT),我们评估了所有类别;而对于轨迹预测,我们采用了先前研究中的两种设置:(1)设置1:单步MOTP。在设置1中,我们遵循单步跟踪和3秒预测的方式,类似于PTP。模型使用过去时间点的真实轨迹t ∈ {Tc-Th, ..., Tc-1}和当前帧Tc中的真实检测,在当前帧进行MOT,并预测未来帧t ∈ {Tc+1, ..., Tc+Tf}中的轨迹。我们报告了nuScenes预测挑战中所有类别的结果。这种设置更适合车对车(V2V)场景。(2)设置2:多步MOTP。在设置2中,我们基于检测对象在Tc中的跟踪历史,进行标准跟踪和6秒预测,并对所有车辆类别进行预测结果评估。这种设置与当前自动驾驶阶段更为吻合,并在工业部署中更为广泛采用。
我们的模型在多目标跟踪和轨迹预测两项任务中均超过了先前的相关工作。在MOT性能方面,如表Ia所示,我们的模型不仅在AMOTA上比PTP基线提高了3.94%,在MOTA上提高了8.44%,还超越了多个竞争跟踪器。表Ib展示了一步MOTP的预测比较,我们的模型达到了最低的minADE为0.810和minFDE为1.481,相比PTP在minADE上提高了0.207,在minFDE上提高了0.046。此外,表Ic提供了多步MOTP预测的比较,我们的模型以minADE为0.757和minFDE为1.487的成绩达到了最先进的性能,相比AffinPred分别在minADE和minFDE上提高了0.220和0.141。表Ic中的改进比表Ib中的改进更为明显,原因是设置1中的轨迹预测比设置2中的轨迹预测更为饱和,这表明基于跟踪轨迹的预测具有更大的增长潜力。在设置1中,由于已经存在较为完善的跟踪轨迹,因此直接基于这些轨迹进行预测的提升空间相对较小。而在设置2中,由于跟踪轨迹可能不够准确或完整,因此基于这些轨迹进行预测时存在更大的改进空间。因此,当我们的方法能够更有效地利用跟踪轨迹信息时,在设置2中能够取得更显著的改进效果。
我们评估了StreamMOTP框架中每个模块的影响,如表II所示,其中最后一行代表我们方法的完整实现。所有模型都在Setting2上进行实验,但检测器替换为了CenterPoint[,并在召回率为0.6的真实正检测上计算了3秒预测指标。由于Megvii检测器是一个较旧的模型,其检测能力较差。因此,我们改用了一个性能相对适中的检测器,以便更好地衡量每个模块的有效性。
流式框架的效果。我们通过调整训练片段的长度来探讨流式框架和记忆库的有效性。如表III所示,跟踪性能保持一致,而预测精度则因训练片段的延长而显著提高,因为预测依赖于连续且广泛的序列信息。这一发现源于我们的模型在分割片段(长度为k的多帧序列)上进行训练,但在流式视频(nuScenes中平均长度为40,k ≪ 40)上进行评估。这种差距限制了方法的有效性,尤其是之前的快照方法。我们的流式框架通过利用连续帧中的时间信息,缩小了分段训练方法与连续视频推理之间的差距,从而提高了预测性能。此外,记忆库的集成,特别是与较短的片段相结合时,通过保留和利用记忆库中的长期潜在特征,显著提高了预测精度,从而增强了模型对长期序列建模的能力。这在资源受限、片段长度和时间感受野受限的情况下至关重要。
此外,表IV显示,随着记忆库长度的增加,模型性能也随之提升,这进一步证明了记忆库的重要性。
7. 总结 & 未来工作
在本文中,我们介绍了StreamMOTP,一个用于联合多目标跟踪和轨迹预测的流式统一框架。通过设计记忆库、时空位置编码策略和双流预测器,StreamMOTP缩小了训练与实际部署之间的差距,同时在多目标跟踪和轨迹预测两个任务上保持了更好的能力和巨大的潜力。在nuScenes数据集上的实验证明了所提框架的有效性和优越性。我们希望这项工作能够进一步为端到端多任务自动驾驶系统提供新的见解。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉知识星球