专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

OFMPNet | 端到端的神经网络方法用于多任务占用和流量预测，提高自动驾驶安全！

智驾实验室 · 公众号 · · 2024-05-29 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

扫描上方二维码，加入【 智驾实验室 】交流群，

获取更多内容和资料

在自动驾驶系统中，运动预测任务至关重要，它为车辆在其周围环境中选择行为策略提供了关键数据。现有的运动预测技术主要关注于单独预测场景中每个代理的未来轨迹，利用其过去的轨迹数据。

在本文中，作者介绍了一种端到端的神经网络方法，旨在预测环境中所有动态目标未来的行为。这种方法利用了占用图和场景的运动流。

作者正在研究构建一种称为OFMPNet的深度编码器-解码器模型的多种选择。该模型使用一系列鸟瞰道路图像、占用网格和先前的运动流作为输入数据。模型的编码器可以融合 Transformer 、基于注意力的或卷积单元。解码器考虑使用卷积模块和循环块。此外，作者提出了一种新颖的时间加权运动流损失，其应用显著降低了端点误差。作者的方法在Waymo占用和流预测基准测试中取得了最先进的结果，Soft IoU为52.1%，Flow-Grounded占用情况的AUC为76.75%。

1 Introduction

当前，自动驾驶任务被划分为多个子任务，包括：感知、运动预测和规划。运动预测子任务允许通过感知模块估计周围运动目标未来的位置。这可以确保在如此动态变化的环境中，自动驾驶车辆的安全行驶。由于对自动驾驶的兴趣日益增长，运动预测已经得到了广泛研究。它通常以道路地图和智能体历史状态作为输入。为了编码这样的场景上下文，早期研究通常将它们栅格化为一张图像，以便用卷积神经网络（CNNs）进行处理。

最近，大规模的Waymo开源运动数据集（WOMD）被提出用于长期运动预测。为了应对这一挑战，DenseTNT采用基于目标的策略，从密集目标点中分类轨迹的端点。其他研究直接基于编码的智能体特征或潜在 Anchor 点嵌入预测未来轨迹。Transformer已经被广泛应用于自然语言处理和计算机视觉。DETR及其后续工作，尤其是DAB-DETR，将目标 Query 视为空间 Anchor 框的位置嵌入。MTR采用了一种新颖的Transformer编码器-解码器结构，并具有迭代运动细化功能，用于预测多模态未来运动。

解决道路上车辆运动预测问题的主要现代方法是深度神经网络方法。它们在各种领先的竞赛中使用NuScenes，Argoverse，Waymo开放数据集，提供了最佳的指标质量。

在这项工作中，作者研究了基于神经网络的同步解决方案，用于处理中提出的运动预测问题的三个相关任务（见图1）: 当前观察到的车辆的将来占用预测，当前时刻不存在的所有车辆的将来占用预测，所有车辆的将来运动流。

作者决定探索这些特定任务中常见神经架构及其修改的潜力。特别是那些包括类似UNet的主干网络、LSTM和SWIN Transformer的模型。此外，作者引入了对这些模型的改进和修改，以适当匹配手头的任务。作者的方法引入了SWIN Transformer与LSTM和稀疏操作的特征选择集成，并从作者提出的时间权重流损失中受益。

第一项任务是预测当前观察到的车辆的将来占用情况。见图1（a）。给定所有代理在过去输入时间步上的历史，作者需要预测当前时间步上所有车辆的鸟瞰图（BEV）形式的未来占用网格，预测未来秒的情况。更具体地说，预测结果为个占用网格，捕捉目前可见的所有车辆在未来个不同航点上的未来占用情况。每个占用网格是一个数组，包含范围在内的值，表示某些当前观察到的车辆的一部分将占用该网格单元的概率。

在第二项任务中，见图1（b），作者被给与所有代理在过去输入时间步上的历史，作者需要预测在当前时间步上不存在的所有车辆在未来秒的占用情况。预测结果为个占用网格，捕捉目前被遮挡的所有车辆在未来个不同航点上的未来占用情况。每个占用网格是一个数组，包含范围在内的值，表示某些当前被遮挡的车辆的一部分将占用该网格单元的概率。

在第三项任务中，见图1（c），作者被给与所有代理在过去输入时间步上的历史，作者需要预测所有车辆（当前观察到的或被遮挡的）在未来秒内的未来运动流。预测结果为个流场，捕捉所有车辆在未来个不同航点上的未来流动情况。每个流场是一个数组，包含值，表示该网格单元占用的车辆部分在1秒内的位移。

在本文中，作者专注于构建端到端的神经网络模型来解决这三项任务，并在最相关且最新的Waymo Open Motion Dataset [2] 上进行它们的训练实验。

作者的主要贡献如下：

作者提出了一种新的深度编码器-解码器模型，名为OFMPNet，用于解决占用和流量预测问题。作为模型选项之一，作者提出了一种新型架构，该架构采用基于注意力的 Transformer 和LSTM单元，从历史占用/流量网格中提取特征。

作者引入了一种时间加权损失，作为多任务学习中占用-流量损失的组合部分。这对于运动流量预测任务已经证明了其有效性。
作者在Waymo Open Motion数据集上训练、验证和测试了作者的方法，与当前最先进的方法相比，取得了具有竞争力的性能。所提出方法的代码已在以下网址公开：https://github.com/YoushaaMurhij/OFMPNet

2 Related Work

Transformer模型在运动预测和轨迹估计任务中取得了显著的成功，因为它们在计算上效率高，其多头注意力机制在时序和图交互编码方面非常有效。此外，视觉Transformer (ViT) 在编码场景特征方面比基于CNN的方法更好，因为Vision Transformer提供了更大的视觉接收场。

场景Transformer共同预测所有动态目标的行为，产生一致的预测，这些预测考虑了代理之间的交互。遵循语言建模方法，场景Transformer使用 Mask 策略作为 Query ，使得能够预测代理行为或自动驾驶车辆的未来轨迹，或其他代理的行为。场景Transformer架构通过注意力机制结合跨道路目标的特征，以及它们之间的交互和时间步。

其他方法包括TrajNet和HOPE ，提出了一种多模态分层Transformer，它将矢量化（代理运动）和视觉（场景流、地图和占用）信息相结合，并预测场景的流和占用网格。在STrajNet方法中，视觉和矢量化特征通过多阶段Transformer共同编码，并它们被送入一个带有时间像素注意力的晚期融合模块。在此之后，添加了一个流引导的多头自注意力块，以收集占用和流的信息，包括它们之间的数学关系。STrajNet中的分层时空模型得益于多个时空编码器，这些编码器是多尺度聚合器，由潜在变量支持，并带有一个稀疏的3D解码器。HOPE 使用包括Focal Loss和轨迹损失的组合损失，有效地提升模型训练过程。

较少的方法试图基于周围环境的占用网格表示来预测代理的未来轨迹。ChauffeurNet基于驾驶场景中的占用输入实现了一个多任务网络进行运动预测。而DRF-Net 依赖于自回归序列预测来预测一系列占用残差。MP3预测中间表示形式，作为一种在线地图和当前及未来动态代理的状态，因为它们预测每个网格单元的一系列前向运动向量和相关概率。规则之路提出了一种动态方法，在一个简单的运动模型下从占用中解码可能的轨迹，并通过使用标准监督学习将未来建模为未来状态分布的不同方式。

一些方法试图使用 Voxel 化和特征图流来改进生成的占用 Heatmap 。其他方法尝试从立体相机获得的噪声点云中生成交围空间的占用图，同时研究监督方法在来自道路场景的不平衡样本上训练深度网络。

在[27]中，对应用于预期行人意图的各种技术进行了调查，并从多个角度对它们进行了分类。该论文还概述了一些新引入的数据集，这些数据集增加了道路上人类行为的复杂性。此外，它还提供了基于几个基准数据集上行人意图预测方法的性能比较分析，基于不同的评估参数。

在[28]中，他们分析了交通事故信息对交通流的影响，并提出了一种称为G-CNN的灰色卷积神经网络来预测交通流。

其他工作[29]专注于使用特征交互技术联合目标跟踪和运动预测，通过引入图神经网络（GNNs）来捕捉代理之间交互的方式。GNN能够提高MOT关联的判别特征学习，并为轨迹预测提供社会感知上下文。

3 Methodology

Problem Description

主要任务是对多个输出进行预测，这些输出包含未来的帧，包括当前观察到的代理的未来占用，可能在未来的帧中出现的被遮挡代理的未来占用，以及沿和轴的每一步的未来流，这表示物体引起的网格移动。其中，，基于从过去和当前帧中收集的交通和场景目标信息。占用网格是二值图像。流是双通道网格：，其值介于之间。因此，未来的占用可以描述为：

其中， - 是包裹函数。

Input Features

作者将道路和交通代理的输入特征称为。作者首先构建当前和之前的占用网格以及道路图细节，包括道路标线和交通信号灯。此外，作者还从范围的占用网格中构建历史流量。

接下来，作者在网格中编码代理的轨迹信息，这指的是每个代理的状态运动序列，其中。

现在，作者可以将任务表述为：

Model Architectures

为了解决上述问题，作者开发了三种深度编码器-解码器模型的变体，称为OFMPNet，如图2所示：

OFMPNet-Swin（窗口变换网络），
OFMPNet-ULSTM（双向长短期记忆网络），
OFMPNet-R2AttU-T2。

3.3.1 OFMPNet-Swin

提出的OFMPNet-Swin Pipeline 包括两个独立的编码器，一个用于编码智能体轨迹，另一个用于编码占用和流输入，它们在早期阶段结合在一起。作者采用带有多头注意力[30]的简单卷积编码器来捕捉智能体之间的交互作用，进行轨迹编码，而在另一个编码器中，作者使用多个Swin-Transformer块[31]随后通过注意力机制结合高级流和占用特征。接下来，作者将组合特征输入到交叉注意力块中，在那里作者还输入先前编码的轨迹特征作为键和值。最后，作者添加了一个带有时间共享层的残差空间解码器，以联合预测占用和流网格。

让作者更详细地考虑主要模块的工作。

OFMPNet-Swin编码器。 作者使用Swin-Transformer块[31]分别编码组合占用网格地图和道路地图，另一个Swin-Transformer块编码流。和通过具有 Kernel 大小和步长4的卷积层缩小4倍。作者保留[31]中描述的Swin-Transformer设置，包括带编码偏差的多头窗口和移位窗口自注意力：

其中，：多头自注意力，头的数量； = [3; 6; 12]且是键输入的长度。每个块之后输出特征的大小不同。

作者使用自注意力、最大池化和多层感知机（MLP）编码器为每个智能体编码轨迹，随后是带有残差跳跃的另一个自注意力层，以保持智能体之间的交互作用。

作者采用多头自注意力模型来融合来自流和占用分支的特征，随后是8个交叉注意力模块用于8个未来时间步，以更好地将每个网格与此网格相关的轨迹数据相结合。同样，作者使用占用和流特征作为注意力模块的 Query 。运动特征作为键和值。

OFMPNet-Swin解码器。 为了精炼和提取输出信息，作者使用了一个空间卷积解码器，包括多个2D卷积和残差块，随后是特征金字塔网络，包括3D空间卷积。作者将解码器拆分为占用和流分支，以更好地为每个任务提取特征。占用分支在每个时间步的输出是一个2D网格，包括观察到的占用和遮挡的占用。而流分支的输出是一个包括和轴上的流的2D网格。

3.3.2 OFMPNet-R2AttU-T2

作者设计了一个基于U-Net编码器-解码器架构的双循环残差卷积神经网络，并引入了注意力机制，命名为（R2AttU），作为占用和流量预测任务的基础线。见图2（OFMPNet-R2AttU-T2）。这种架构仅适用于占用预测任务，因为它在流量预测任务中收敛速度较慢。

3.3.3 OFMPNet-ULSTM

接下来，作者将（R2AttU）中的残差卷积层替换为LSTM块，以在作者的模型（ULSTM）中捕捉流特征。参见图2（OFMPNet-ULSTM）。在实验中，作者为占用和流任务添加了额外的独立预测头（OFMPNet-ULSTM-H）。

Occupancy and Flow Loss

作者遵循文献[32]中的方法，以监督的方式训练模型。作者使用每个网格的二进制逻辑交叉熵损失作为预测网格与真实网格之间的占用损失，如下所示：

其中指的是交叉熵损失。

作者使用加权的 -范数回归损失作为预测流与真实流之间的流损失。

为了更好地指导对未来时间戳更远的流预测，作者在图3中为这个流损失添加了一个基于时间的权重。权重系数是，如下所示：

此外，作者使用辅助损失（流追踪损失）以利于占用任务中的流信息。从输入占用（当前帧）开始，作者可以使用当前占用与时的第一流来构建时的未来占用网格，并递归地应用此过程，如下：

其中是时的流变形占用，。作者将每个与其占用预测相乘，以匹配真实占用，如下：

因此，作者定义的损失是这三种损失的组合：

其中