确保周围 Agent 的可靠运动预测对于保证自动驾驶车辆的安全运行至关重要。许多现有的轨迹预测方法严重依赖高清(HD)地图作为强大的先验知识。
然而,由于建立这些先验知识的成本高昂,车辆的定位误差,或者正在进行的道路建设,这些先验知识的可用性和准确性并不能得到保证。在本文中,作者提出了一种名为MFTP的无地图轨迹预测方法,该方法具有多个优势。
首先,在推理过程中无需使用HD地图,但仍可以通过知识蒸馏在训练时利用地图先验知识。
其次,作者提出了一种新颖的分层编码器,能够有效地提取空间-时间 Agent 特征,并将它们聚合为多个轨迹 Query 。
此外,作者还引入了一种迭代解码器,依次解码轨迹 Query 以生成最终预测。大量实验表明,在无地图设置下,作者的方法在Argoverse数据集上达到了最先进的性能。
轨迹预测在自动驾驶系统中起着关键作用,以确保安全。
由于自动驾驶的快速发展和公开的数据集,这一任务日益受到关注。
通过轨迹预测,基于感兴趣实体的历史轨迹和上下文信息(如高程图和交通信号)可以预测未来轨迹(_e.g._,车辆,行人)。
然而,由于驾驶行为的多样化,现实环境复杂性以及突发事件的突然性,这一任务仍然具有挑战性。
现有的轨迹预测方法可以大致分为两类:基于地图的方法和无地图方法。基于地图的方法将轨迹预测视为多模态问题,高精度地图作为与 Agent 交互的关键模态。这些方法主要关注优化上下文信息的表示,地图作为强大的先验驱动因素影响 Agent 的未来行为。例如,LAFormer [25] 引入了一个密集的车道感知估计模块,用于选择未来轨迹最可能的车道。MTR [32] 通过 Transformer 编码器编码 Agent 和地图之间的交互,并在轨迹生成过程中动态选择地图上最近的车道作为可能的终点。Wayformer [27] 探索了各种融合策略,并对多模态输入的有效性进行了不同编码器架构的评估,用于上下文建模。虽然这些基于地图的方法在公开可用的数据集上取得了令人印象深刻的结果,但由于地图数据在实际驾驶场景中的有限可获取性和偶尔的不准确性,它们存在局限性,这引发了安全问题,强调了无地图轨迹预测方法的重要性。
然而,无地图轨迹预测对于实现真正的自动驾驶系统至关重要,但相比之下,它受到了相对较少的关注。最近,研究行人开始认识到无地图轨迹预测在自动驾驶中的重要性,并尝试在不依赖高精度地图的情况下解决预测问题。例如,CRAT-Pred [30] 应用图卷积神经网络仅基于历史数据来模拟车辆之间的社会互动,预测未来轨迹而无需使用地图。Xiang et al. [44] 提出了一种两阶段的框架,使用 LSTM 和 transformer 提取 Agent 的空间-时间交互,预测未来轨迹而无需地图信息。尽管这些无地图方法取得了显著的进展,但它们的性能仍然落后于基于地图的方法,主要原因是缺乏地图先验知识。
一个自然的问题出现了:_无地图轨迹预测也可以像基于地图的方法一样从地图先验中受益吗?_在这篇论文中,作者提出了一种利用地图先验进行训练的无地图轨迹预测方法 MFTP(如图1 所示),同时不牺牲模型在无地图预测方面的能力。具体而言,作者通过从预训练的基于地图的教师网络中提取地图先验知识,将其注入无地图学生中,这使得作者可以利用地图先验来促进运动预测,同时保持预测未来轨迹的无地图能力。此外,作者提出了一种新颖的分层编码器,将 Agent 的多个空间-时间特征 Level 的 Query 聚合为分层 Query 。然后,将这些 Query 融合为每个 Agent 的多个轨迹 Query 。接下来,这些融合的轨迹 Query 被输入到作者的迭代解码器中,依次生成未来轨迹。
作者的实验表明,在无地图设置下,作者的方法在Argoverse [7]数据集上实现了最先进的性能。作者希望作者的工作能促进和引起更多关注无地图轨迹预测。作者的主要贡献可以总结如下:
作者提出了一种无需映射的轨迹预测方法,在训练过程中利用映射先验知识,同时保持推理时无需映射预测的能力。
作者介绍了一种分层编码器,该编码器从 Agent 中提取多级空间-时间特征,并将它们压缩为多个轨迹 Query 。这些 Query 随后在迭代解码器中用于生成未来的轨迹。
作者进行了广泛的实验,结果表明在无地图设置下,作者的方法在Argoverse数据集上具有优越性能。
自动驾驶轨迹预测.近年来,轨迹预测在自动驾驶的快速进步、大规模公共数据集[5, 7, 34, 42]的可用性以及相关挑战的推动下取得了显著的进展。现有的许多方法将地图视为强制的驾驶先验知识,并专注于改进场景元素的表示和建模它们之间的交互。
VectorNet [11] 放弃了光栅化表示,将地图和轨迹组织成图像格式,并引入了矢量化表示,大大简化了输入表示并降低了计算成本。许多后续方法利用这种表示,并使用先进的结构编码场景元素,如 Transformer [1, 22, 32, 33, 47],图神经网络(GNNs)[30, 44],等。为了更好地模拟交互,HiVT [48] 提出了一种分层框架,首先提取局部关系,然后捕捉全局交互。MTR++ [33] 提出了一种对称上下文建模,以更好地表示场景并同时预测多个 Agent 的多元运动。QCNet [47] 采用以 Query 为中心的参考帧来表示上下文,并利用如位置、航向和速度等相对信息来提取元素之间的关系。然而,这些方法高度依赖地图信息,导致在推理时(地图不存在)性能显著下降。
相比之下,无地图方法旨在在不依赖地图的情况下解决轨迹预测问题。CRAT-Pred [30] 专门利用 Agent 信息进行轨迹预测。它采用 LSTM 编码车辆的时间特征,并集成 GNN 和注意力机制来模拟车辆之间的交互。采用两阶段框架,先用 LSTM 编码单个 Agent ,然后用 GNN 和 transformer 建模多个 Agent 之间的交互。然而,由于训练过程中缺乏地图先验知识,无地图方法通常无法与基于地图的方法达到可比性能。为了缓解这一问题,FOXD [40] 引入了一个特征和输出蒸馏框架,旨在增强现有基于地图方法的无地图变体的性能。然而,这些网络最初是针对基于地图的设置设计的,因此可能不适合无地图预测。为了解决这个问题,作者提出了一种新颖的结构,专门针对无地图轨迹预测,包括相对输入、层次编码器、迭代解码器和知识蒸馏作为额外增强器。与 FOXD 不同,作者专注于从轨迹 Query 中蒸馏知识,使无地图学生学习到教师捕获的先验知识。
知识蒸馏。知识蒸馏涉及将来自较大网络的知识转移到较小网络。知识蒸馏的概念最初由Hinton [16]引入,并在许多任务中使用,包括目标检测[39],分类[45],姿态估计[23],。根据蒸馏后的知识,后续工作可以分为两类,即logits蒸馏和中间特征蒸馏。根据在蒸馏过程中是否训练教师网络,这些方法还可以分为离线和在线蒸馏。作者选择离线蒸馏,因为它简单,并利用中间特征的知识转移,这更适合增强轨迹预测。
Overall Framework
如图2所示,所提出的MFTP的整体框架包括两个主要组件:一个预训练的基于地图的教师网络和一个去偏的基于地图的学生网络。教师网络将地图和智能体历史轨迹作为输入,利用 Transformer 注意力机制在编码阶段建模地图-地图,智能体-地图和智能体-智能体之间的交互。同时,在上下文编码过程中,使用多个不同的层次 Query 逐步收集智能体的层次时空特征。随后,这些层次特征通过MLP ConCat 并压缩为K个轨迹 Query 。这些 Query 为每个智能体预测K个多模态未来轨迹的起点,不仅包括智能体特征,还包括地图先验信息。然后,使用迭代解码器依次解码智能体的未来轨迹。通过 Query -地图注意力模块,网络利用地图先验信息进行轨迹解码。解码器在每一时间步预测给定时间段内的轨迹,在经过I_T步后完成预测。与那些一次预测所有未来点的方法相比,作者的方法确保了预测准确性和计算效率。学生网络遵循与教师网络相同的流水线,除了与地图相关的模块。作者在编码器之后对轨迹 Query 进行知识蒸馏,并在解码器MLP之前对 Query 特征进行知识蒸馏,将地图先验信息蒸馏到作者的无地图学生网络中。
Hierarchical Encoder
输入表示。采用向量表示, Agent 的历史轨迹和地图多线段可以用2D或3D空间中的一系列点来表示。作者选择使用 Agent 轨迹和地图点的相对运动向量作为输入,而不是使用 Agent 轨迹和地图点的绝对位置。具体来说,给定一个 Agent 的
情境建模。轨迹预测本质上是一种顺序和交互任务,其中智能体的过去行为和周围环境都起着关键作用。为了提取智能体的空间-时间特征,作者依次建模地图-地图、智能体-地图和智能体-智能体交互。首先,作者使用地图-地图注意力模块和[37]中提出的注意力机制来建模地图结构和车道交互,作为地图先验。然后,作者使用 FFN (FFN)。注意力机制的定义如下:
在这篇AI学术论文中,
、
和
分别表示 Query (Query)、键(Key)和值(Value)特征,而
表示键(Key)的特征维度。
在作者的网络中,位置嵌入被用来计算每个注意力模块的相对信息,包括地图车道之间的位置和航向,这些信息被添加到每个Q-K-V对中的K和V中。这种相对位置嵌入的思想应用于网络中的所有注意力模块。其次,智能体通过与 Agent -地图注意力模块中的附近车道特征进行交互,来引入地图先验信息。随后,为了高效地提取智能体的空间和时间特征,作者使用因子化注意力,将智能体-智能体之间的交互分为时间注意力和空间注意力模块,而不会牺牲性能,如[27]中所示。对于智能体-智能体时间注意力,应用了一个下三角 Mask 矩阵,确保对于任何智能体特征F_i,只有前一步的特征被用来计算注意力。相对时间步也被编码为位置嵌入。对于智能体-智能体空间注意力,只有距离为d_n的周围智能体会被包括。这个过程重复L_E次,以提取具有地图先验的代表性空间-时间智能体特征。值得注意的是,无地图的学生模型只包含智能体-智能体时间注意力和空间注意力模块。
层次特征聚合与融合。利用特征聚合(FA)模块,将空间-时间智能体特征聚合以生成多个轨迹 Query 。这些 Query 作为编码器与解码器之间的桥梁,代表潜在的多模态未来轨迹。作者通过首先初始化K个不同的轨迹 Query ,然后与空间-时间智能体特征进行交叉注意力来实现这一目标。具体而言,在计算注意力时,作者将轨迹 Query 视为Query,将智能体特征视为Key和Value。这使得轨迹 Query 能够吸收智能体的空间-时间特征,并在编码器不断推进的过程中得到 refined。为了增强轨迹 Query 对未来预测模式的表现,作者探索了在各种时间间隔的轨迹点中嵌入的层次信息。作者初始化了H个不同的层次 Query ,在时间间隔2^(h-1)内聚合智能体特征,如图3所示,其中h是层次 Query 索引。在获得H个层次 Query {q1,q2,...,qH}后,作者将它们融合为一个单一的轨迹 Query 。
其中
表示连接操作。在结论中,对每个智能体,作者生成
个层次 Query ,并得到
个融合轨迹 Query
,对应于解码阶段
个未来的轨迹。
Iterative Decoder
与一次性的方法[1, 32, 27]相比,它们在一次通过后输出完整的轨迹,或与自回归方法[31, 22]相比,它们一次预测一个步骤,作者采用迭代批解码。这是通过在每个迭代中预测固定长度的未来(例如1秒)来实现的,完整的预测在
个迭代中完成。在收到
个轨迹 Query 后,智能体通过与地图先验进行交互来学习去哪里。然后,作者通过每个智能体内部的Self-Attention优化多个未来轨迹的联合多模态分布。遵循 Query - Query 注意力模块后,作者使用简单的MLP来预测未来的轨迹。
在此处,
属于集合
,
属于集合
,且
。在这里,
和
表示未来点之间的相对运动,这与输入风格相一致,并且可以通过简单的求和操作恢复绝对未来位置。
和
分别表示高斯分布的方差。在完成
次迭代后,作者通过将所有预测值(
)连接在一起,得到完整的预测轨迹,其中
是总的未来时间步长,
和
上的求和运算。
Map Priors Distillation
教师培训。教师网络包含上述所有组件,并使用
和
进行监督训练,如3.5节所述。一旦训练完成,教师网络将在学生蒸馏过程中保持固定。
知识传递。作者通过中间特征蒸馏将教师的知识传递给学生。这可能是由于 Agent 轨迹固有地反映了地图车道拓扑,允许它们在引导下推理出潜在的地图先验知识。作者在学生的解码器中,在编码器之后和MLP之前对轨迹 Query 和学生特征与教师特征进行对齐。具体来说,对于所有
个 Agent 的轨迹 Query
,作者计算学生特征与教师特征之间的
距离,以将学生特征对齐到教师特征。
学生
的特征向量
和教师对应特征向量
。最小化损失函数
确保学生轨迹 Query 从教师中学习,从而获得教师编码阶段提取的地图先验知识。为了学习如何使用轨迹 Query 作为如果存在地图的话来推理未来运动,作者在MLP之前蒸馏 Query 特征。
这使得作者可以在编码和解码阶段将地图先验知识转移到作者的无地图学生网络中。
Training Objectives
除了在学生训练中使用的KD损失外,作者还引入了一个回归损失用于预测轨迹,以及一个分类损失用于相应的置信度。参考[32, 36, 6],作者将预测轨迹建模为高斯混合。每个 Agent 的最佳预测轨迹是通过所有预测点与真实值之间的平均位移误差与地面真相的最佳匹配来选择的。然后,作者将预测轨迹视为高斯混合的均值,并应用负对数似然损失。
其中
和
分别表示每个智能体的真实未来点。最终回归损失是通过首先对匹配轨迹的所有有效点与每个智能体的真实值进行求和,然后对所有智能体进行平均得到的。分类损失是一个简单的交叉熵损失,它鼓励匹配轨迹具有最高的置信度分数。