导读
本文介绍了一种名为EMSIN(增强型多流交互网络)的车辆轨迹预测方法。该方法通过建模场景组件之间的复杂交互关系,提高了轨迹预测的准确性。论文的主要贡献包括设计了新的轨迹感知机制、动态自适应图卷积网络,以及基于模糊理论的评估指标。实验结果表明该方法在L5kit和nuScenes两个数据集上都取得了优异的表现。
论文标题:EMSIN: Enhanced Multi-Stream Interaction Network for Vehicle Trajectory Prediction
论文作者:
Yilong Ren
;
Zhengxing Lan
;
Lingshan Liu
;
Haiyang Yu
论
文地址:https://ieeexplore.ieee.org/document/10418557
在当今自动驾驶技术发展中,自动驾驶车辆(AV)被寄予厚望,期待它能重塑未来的交通模式。要实现安全导航,AV必须能够准确预测周围交通参与者的未来运动轨迹。这种预测能力对于下游的运动规划和决策至关重要,因为它能帮助自动驾驶车辆避免潜在的风险。
然而,准确预测轨迹对AV来说并非易事。最根本的挑战在于如何有效建模复杂的道路约束、驾驶偏好以及参与者之间不断变化的交互关系。例如,在正常情况下,车辆更倾向于遵循车道行驶,而不是偏离到人行道上。虽然人类驾驶员可以轻松应对这些复杂的道路条件,但对AV来说这仍是一个难题。特别是在动态和密集的驾驶环境中,各种异构的交通参与者(如车辆、自行车和行人)会形成错综复杂的社交网络。不仅要考虑这些参与者的运动状态,还要考虑限制性的语义信息(如道路标识、交通信号等)对未来状态的影响。这些多维度的交互关系大大增加了轨迹预测任务的难度。
回顾现有研究,轨迹预测方法大致可以分为传统方法和基于深度学习的方法。早期研究主要针对简单交通环境,采用运动学和动力学模型。这些传统模型过度依赖手工设计的特征,这促使研究界转向深度学习模型。相比之下,Transformer模型通过注意力机制在捕捉隐藏时序关系方面展现出显著优势。为了估计周边代理的影响,卷积神经网络(CNN)和图卷积网络(GCN)逐渐成为轨迹预测问题中的主导方法。最新研究普遍采用这些网络作为骨干模块,提出多样化的组合模型来提升车辆轨迹预测的性能。
尽管近年来轨迹预测研究取得了显著进展,但仍存在几个持续的挑战:首先,现有模型在准确刻画场景组件之间模糊演变交互关系,以及保证预测的物理可行性方面存在不足。大多数模型主要关注预测与历史视野之间的点对点关联,忽视了轨迹子空间交互中的趋势依赖性。这不仅阻碍了轨迹时序动态的捕捉,传统模型的局部趋势诊断也会导致相关性匹配问题。其次,虽然基于GCN的模型被认为是建模代理间交互最有效的范式之一,但它们仅限于捕捉由领域知识辅助的静态图连接关系。这不仅可能错过时变的空间交互,还限制了模型的适应性和灵活性。
为了解决这些限制,本研究提出了增强型多流交互网络(EMSIN)来提供准确的轨迹预测。EMSIN突出了几个高层次时变交互的线索,包括代理-交通语义、自趋势和代理-代理依赖关系。这些多流模糊交互在可变的交通环境中是复杂的、多变的且具有不确定性。通过这种创新的设计,期望能提供更准确和可靠的轨迹预测结果。
作者将轨迹预测任务定义为基于显式和隐式交互的序列预测问题。具体来说,将历史轨迹和真实轨迹定义为一系列2D坐标对,同时,语义地图包含车道几何、人行横道、交通信号等重要交通元素信息。
EMSIN框架的整体架构如图1所示,主要包含以下关键组件:
1)图像通道:作者首先将交通语义地图传入CNN骨干网络,创建语义嵌入张量,接着结合轨迹不确定性投票模块生成初步预测,主要关注代理-交通语义交互
2)轨迹通道:目标代理的历史特征被送入轨迹趋势捕获机制,提取趋势感知依赖关系,接着,邻近代理的轨迹输入到动态自适应空间交互建模模块,增强高层次代理-代理上下文交互
3)融合:最后,融合来自图像和轨迹通道的多流交互信息,生成具有置信度值的可能代理动作。这种设计充分利用了多源信息的优势,有助于提供更准确的轨迹预测。
■3.1 语义特征提取
语义特征提取模块主要描述了从图像通道中提取代理-交通语义交互信息的过程。对于单个交通场景的采样片段,其交通语义表示形成了一个3D张量,尺寸为H×W×C,其中C表示地图通道数,H和W则代表地图的尺寸。
卷积网络在这里展现出特殊的优势,因为它们能够通过感受野有效传播局部时间相关性,并在网络内提供空间推理能力。研究团队选择了ShuffleNet框架作为骨干网络来建模语义嵌入张量。选择这一架构的原因在于:道路几何特征建模本质上是一个静态操作,可以通过浅层卷积来实现;而对不同交通信号特征的推理则需要通过中层交通规则来实现,这样才能准确捕获时间约束。通过这种方式,模型不仅强调了场景上下文,还能表达自车与其他代理之间的差异化交互关系。
其中,ShuffleNet生成一个尺寸为C'×1×1的特征图,该特征图随后被展平得到语义嵌入张量。这个嵌入张量全面封装了自车、其他代理和上下文场景在给定时间步T的复杂交互关系。
得到的嵌入张量随后会被输入到轨迹不确定性投票模块,用于生成初始预测Xim和对应的置信度分数Cim。这些初步预测为增强模型的准确性提供了关键线索,特别是在复杂和动态的驾驶场景中。在训练早期阶段,图像通道的信息能够帮助模型更有效地执行可靠的预测任务。为实现这一目标,使用两个全连接层来处理嵌入张量,解码预测所需的相关特征。
这种设计确保了模型能够有效地从交通场景中提取有意义的语义特征,为后续的轨迹预测任务奠定基础。通过结合CNN的空间建模能力和全连接层的特征转换能力,该模块实现了对复杂交通场景的深入理解。
■3.2 嵌入层
历史轨迹通道的处理始于嵌入层和位置编码层的设计,这两个关键组件通过系统性的特征转换和时序信息编码,为轨迹预测任务构建了坚实的数据基础。嵌入层作为数据处理的第一道关卡,其主要任务是接收和处理目标代理的位移向量以及其他代理的平移轨迹。这一层的核心功能是将这些原始的轨迹数据转换到一个N维的向量空间中,通过时间步
生成对应的嵌入状态(用
和
表示)。为了实现这种精确的特征映射,系统采用了两个独立的线性变换矩阵:一个是专门用于处理目标代理的可学习权重矩阵
,另一个则是处理其他代理的矩阵
。这种分离设计确保了系统能够分别捕获不同类型代理的特征特性。
在嵌入转换的基础上,位置编码层进一步增强了数据的表达能力。为了充分利用轨迹纹理中蕴含的丰富序列信息,系统在嵌入状态e中巧妙地引入了固定的位置编码。这种编码机制的具体实现是,为每个输入的嵌入
赋予一个对应时间t的时间戳标记。特别是对于目标代理,系统会将位置编码向量
与原始嵌入
相加,生成最终的输出表示
。这个位置编码
被设计为一组正弦和余弦函数的组合,不同的频率保证了编码的唯一性和区分性,这种设计思路借鉴了此前研究中证实有效的方法。值得注意的是,相同的位置编码策略也被应用于其他代理的处理中,保证了整个系统在时序表示上的一致性。
这种精心设计的两层结构带来了多重优势。首先,嵌入层实现了不同来源轨迹数据到统一特征空间的转换,为后续的特征提取和模式识别提供了标准化的输入。其次,位置编码的引入确保了模型能够准确感知和利用数据中的时序关系,这对于预测未来轨迹至关重要。此外,对目标代理和其他代理的分离处理机制,使得模型能够更好地理解和区分不同角色在交通场景中的特征和行为模式。最后,采用正弦和余弦函数构建的位置编码,既保证了编码的周期性和连续性,又提供了足够的区分能力。通过这种多层次的特征处理和编码机制,系统为后续的轨迹预测任务构建了一个信息丰富、结构合理的特征表示基础。
■3.3 轨迹趋势感知
轨迹趋势感知机制的设计源于对现有配对transformer网络局限性的深入思考。传统的transformer网络仅显式关注元素对之间的关联,却忽视了轨迹在不同区间内的内在趋势。这一问题在图1中得到了清晰的展示:历史轨迹曲线上存在两个不同的轨迹点A和B,它们位于不同的时间片段。传统的自注意力机制可能会因为这两点在网络中具有相似的数值表示而错误地将它们关联起来。然而实际上,A点表示一个左转行为,而B点则显示出右转意图,这种局部行为特征的显著差异在传统方法中往往被忽视。
为了解决这一问题,研究团队提出了一种创新性的方案,将CNN架构与transformer模型相结合,以高效提取轨迹子空间中的自趋势依赖关系。CNN架构利用局部感受野和共享权重的特性,能够捕获序列的局部结构,从而在一定程度上实现对位移、尺度和形变的不变性。这种洞察促使研究者通过引入时间卷积来扩展原始的位置线性映射,从而考虑局部上下文信息。为了从不同表示子空间生成全面的潜在特征,研究团队创新性地提出将多个信息通道整合,形成多头趋势卷积映射(Multi-head Trend Convolutional Mapping,MTCM)模块。这一设计借鉴了视觉transformer的思想,通过嵌入局部趋势感知时序上下文,为轨迹预测任务提供了解耦的自趋势交互线索。
为了有效扩大感受野并捕获更长期的时序趋势依赖关系,MTCM采用了改进的时间卷积网络(TCN),其核心组件是膨胀因果卷积。因果卷积的使用确保了代理之前的行为不会从未来泄露到过去的观察时间。然而,它们具有有限的感受野,这使得捕获轨迹预测任务中较长的时间趋势依赖关系变得困难。为解决这个问题,引入了膨胀卷积,使得系统能够有效检索历史轨迹子空间。每个卷积操作后都会进行权重归一化和GELU激活,这样的设计确保了网络的稳定性。为了进一步增强网络的鲁棒性,在处理过程中加入了层归一化操作。特别值得一提的是,为了解决网络中潜在的梯度消失问题,在第二个GELU激活层后添加了残差连接。这种精心的设计不仅扩大了趋势依赖建模的感受野,而且无需增加网络深度就能考虑高层次的局部上下文子空间。
在处理完时间特征并将其映射到查询、键、值向量后,模型使用自注意力机制来建模目标代理每个子空间之间的趋势依赖关系。这种多头注意力机制的设计允许模型从不同的轨迹子空间学习特征,处理不同复杂度级别的信息,并在每个时间步共享这些学习成果。注意力层的输出随后会通过两个Add & Norm模块和一个前馈神经网络(FNN)进行处理。其中FNN包含两个线性层,中间使用GELU激活函数和Dropout机制,同时还采用了两个残差连接来避免性能退化。
这种趋势感知机制的一个显著优势是它既继承了自注意力网络的优点,又不受序列长度的限制。这种设计特性使得系统能够灵活处理缺失观测轨迹的问题,为实际应用场景提供了更强的适应能力。通过将局部趋势感知与全局依赖建模相结合,该机制能够更准确地捕获轨迹的演变模式,从而提供更可靠的预测结果。