专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

LOPR: 自监督的VAE-GAN与Transformer网络在L-OGM随机预测中的应用！

智驾实验室 · 公众号 · · 2024-08-05 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

环境预测框架对于自动驾驶车辆（AVs）在动态环境中的安全导航至关重要。由LiDAR生成的占用网格地图（L-OGMs）为场景表示提供了一个健壮的鸟瞰视角，同时展现了在部分可观测性和感知检测失败情况下的自监督联合场景预测能力。

先前的方法主要集中在确定性L-OGM预测架构在网格单元空间内。

尽管这些方法取得了一些成功，但它们经常产生不切实际的预测，并且未能捕捉到环境的随机性。此外，它们也没有有效地整合AV中存在的其他传感器模态。

作者提出的框架在一个生成架构的潜在空间内执行随机L-OGM预测，并允许结合RGB摄像头、地图和计划轨迹进行条件约束。

作者使用单步解码器来解码预测，该解码器能实时提供高质量的预测，或者使用基于扩散的批量解码器，它能够进一步细化解码帧以解决时间一致性问题和减少压缩损失。

在nuScenes和Waymo Open数据集上的实验表明，作者方法的各个版本在质量和数量上都优于之前的方法。

I Introduction

精确的环境预测算法对于自动驾驶车辆（AV）在都市环境中的导航至关重要。经验丰富的驾驶员能够理解场景语义并识别其他代理的意图，以预测它们的轨迹并安全地驶向目的地。为了在AV中复制这一过程，已经提出了许多环境预测方法，它们采用不同的环境表征和建模假设。

现代AV技术堆栈包含了专家设计和学习的模块混合，如3D目标检测、跟踪和运动预测，每个模块都是独立开发的。在学习系统中，开发过程涉及使用由人类标注者提供的选择性标签和其他感知系统。对于环境推理，常采用基于目标的预测算法，这些算法依赖感知系统创建一个向量化的场景表示，其中包括定义的代理和环境保护特征[4, 8]。然而，这种方法存在多个局限性。首先，它通常为每个单独的代理生成边缘化的未来轨迹，而不是包括代理交互的全面场景预测，这增加了与规划模块集成的复杂性[9]。其次，这种方法没有考虑传感器测量，仅依赖可能在不理想条件下失败的目标检测算法。第三，依赖于来自人类标注者和感知系统的标签数据，限制了数据集大小并增加了成本。这些缺点使得AV技术堆栈容易发生级联故障，并可能导致在未预见场景中的泛化能力较差。这些限制强调了需要不依赖于错误频发且成本高昂的标签方案的互补环境建模方法。

为了应对这些挑战，基于激光雷达测量生成的占用网格地图（L-OGMs）作为场景表征预测形式越来越受欢迎。其受欢迎的原因在于它对数据预处理的要求极低，无需手动标注，能够对包含任意数量代理的场景进行联合预测，以及对部分可观测性和检测失败的鲁棒性[1, 2]。作者专注于使用不确定性感知占用状态估计方法生成的以自我为中心的L-OGM预测[12]。由于其通用性和能够与未标注数据一起扩展，作者假设L-OGM预测与RGB视频预测相结合也可能作为自动驾驶的未监督预训练目标，即基础模型。

在L-OGM预测任务中，通常被构建为自我监督的序列到序列学习。在之前的工作中，由于能够处理时空序列，ConvLSTM基础架构被主要使用。这些方法在网格单元空间中进行端到端优化，没有考虑到场景中的随机性，并且忽略了其他可用的模态，例如车辆周围的RGB摄像头、地图和计划的轨迹。因此，它们通常会产生不切实际且模糊的预测。

在这项工作中，作者通过提出一个在生成模型潜在空间中操作的随机L-OGM预测框架，来解决先前方法的局限性。生成模型以提供压缩表示并生成高质量样本而闻名。使用生成模型，作者可以最小化表示中的冗余，使预测网络能够将计算集中在任务最关键的部分。

在基于L-OGM训练的潜在空间内，作者的框架采用基于自回归 Transformer 的架构，包括确定性解码器和变分解码器模型。这两个模块都基于过去的L-OGM编码以及其他模态（如果有的话）条件化，如图1所示，例如摄像头图像、地图和计划的轨迹。预测使用单步解码器进行解码，该解码器能够实时提供高质量预测，并且可以选择通过基于扩散的批量解码器进行细化。基于扩散的批量解码器解决了单步解码器与时间一致性相关的问题[17]，并通过条件化先前栅格化的L-OGM来减轻压缩损失，但代价是实时可行性。

在nuScenes[18]和Waymo开放数据集[19]上的实验表明，作者的框架在定量和定性上优于 Baseline 方法。作者的框架预测多样化的未来并推理未观察到的代理。它还利用其他传感器模态进行更准确的预测，例如在L-OGM可见区域之外，通过摄像头馈送观察迎面驶来的车辆。作者的贡献包括：

作者提出了一种名为 潜在占用预测（LOPR） 的框架，用于在生成模型的潜在空间中进行随机L-OGM预测，该预测依赖于其他传感器模态，如RGB摄像头、地图以及计划中的自动驾驶车辆轨迹。作者提出了一种基于变分原理的 Transformer 模型，该模型捕捉周围场景的随机性，同时保持实时处理的可行性。作者定义了一个基于扩散的批量解码器，该解码器改进了单帧解码器的输出，以解决时间一致性问题和减少压缩损失。通过在nuScenes [18] 和Waymo开放数据集 [19] 上的实验，作者展示了LOPR的所有变体均优于先前的L-OGM预测方法。

II Related Work

OGM预测。 大部分先前的OGM预测工作使用激光雷达测量（L-OGM）生成OGM，并采用具有卷积的循环神经网络（RNN）的变体[20, 21]。Dequaire等人[22]通过遮挡跟踪目标，并使用RNN和空间 Transformer 预测未来的二值OGM。Schreiber等人[13]提供了动态占用栅格地图（DOGMas），将逐单元格的速度估计作为输入到ConvLSTM中，以从静止平台预测环境。Schreiber等人[23]随后将这项工作扩展到移动自主车辆环境下的DOGMas预测。Mohajerin等人[24]应用差异学习方法，从第一次观测时间步的坐标帧预测OGM。Itkina等人[1]使用PredNet ConvLSTM架构[25]实现以自我为中心的OGM预测。Lange等人[2]通过开发一种增强注意力的ConvLSTM机制，减少了预测栅格中动态障碍物的模糊和逐渐消失。同时，Toyungyersnub等人[3]采用双叉框架处理障碍物消失问题，该框架假设已知静态和动态障碍物。另一种方法是从向量化的目标数据[6]或向量化的目标数据与传感器测量的混合物[26]预测占用栅格地图。与常见的轨迹预测技术中的表示类似，这些方法需要大量的标注工作[27, 28, 29]。与先前的工作不同，作者执行自我监督的多未来L-OGM预测，在考虑附加传感器模态条件下，生成模型的潜在空间中，无需手动标注。

机器人与自动驾驶中的表示学习 。表示学习的目标是识别低维表示，使得更容易在特定任务上实现期望的性能。许多机器人应用使用诸如自动编码器（AE）[30]，变分自动编码器（VAE）[15]，生成对抗网络（GAN）[14]，以及向量量化变分自动编码器（VQ-VAE）[31]等架构。潜在空间已被用于从像素学习潜在动态[32]，输出视频预测[33]，生成轨迹[34]，以及学习自动驾驶神经模拟器[17, 35]。大规模视频预测架构使用了VQ-VAE[31]提供的离散表示和因果 Transformer [17, 36, 37]。然而，这些模型的训练和采样仍然过于昂贵。作者提出了一种方法，可以在生成模型的潜在空间中实时执行多未来L-OGM预测。

III LOPR: Latent Occupancy Prediction

作者提出了一个潜在占用预测（LOPR）框架，旨在以L-OGM（局部占用图）的形式生成随机场景预测。

该模型将任务分为两部分：
（1）学习L-OGM表示法，（2）在生成模型的潜在空间中进行预测。

在表示学习阶段，一个VAE-GAN（变分自编码器-生成对抗网络）被训练用来学习L-OGM的潜在空间。在预测阶段，作者的框架采用基于自回归 Transformer 架构，包括确定性解码器和变分解码器模型。在每一个时间步，从变分 Transformer 中抽取一个样本，然后传递给确定性 Transformer 以预测下一个L-OGM嵌入。预测基于过去的L-OGM编码以及其他可用的模态，例如摄像头图像、地图和计划轨迹。地图和计划轨迹的编码器与预测框架一同训练，而对于图像编码器，作者使用预训练的DINOv2-based模型[38]。预测通过单步解码器进行解码，该解码器能够实时提供高质量的预测，并且可以选择性地通过基于扩散的批量解码器进行细化。

Representation Learning

L-OGM的潜在空间是通过训练编码器和解码器获得的。给定一个尺寸为的L-OGM网格，编码器输出一个低维潜在表示，其尺寸为，深度为。这个表示通过解码器重构为。该框架融合了来自 -VAE和GAN的概念[35, 39]。在 -VAE中，目标由重构损失和正则化损失组成：

其中和分别是编码器和解码器的输出，是单位高斯先验，表示Kullback-Leibler散度。重构损失是感知损失[40]和均方误差的平均值。在GAN步骤中，相同的解码器作为生成器，判别器则判断样本是否源自训练集。该框架使用极小极大优化以下目标[14]：

其中是判别器。最终损失为，并遵循Kim et al. [35]和Karras et al. [41]所描述的实施方式。

Stochastic L-OGM Sequence Prediction

在给定预训练的L-OGM潜在空间的基础上，作者训练了一个随机序列预测网络，该网络接收观察历史并输出对未来潜在嵌入的分布。

在上述操作中，每个沿着其空间维度被分割成个 Patch ，然后进行展平[42]。每个标记的维度为，这也有助于空间注意力，并优化注意力层中的参数数量。这个操作同时应用于确定性解码器和推理网络。在最后一步，预测的压缩表示被连接起来，恢复到原来的维度，然后提供给III-A节中的解码器。

基于扩散的批量解码器

作者可以使用III-A节中概述的单帧解码器独立解码每个，以获得实时的高质量预测。然而，这种方法可能导致时间一致性和压缩损失较差[17]。它们表现为随时间占用单元分布的不切实际变化以及较差的像素级准确性，尤其是在应该保留观察中大多数静态细节的首个预测帧中。

作者通过使用基于扩散的批量解码器，以批处理的方式细化从单帧解码器中得到的，其中是帧的数量。批量解码器依据已解码的帧和序列前的一帧栅格化帧进行条件处理。作者遵循标准的视频扩散公式，使用3D-UNet作为去噪模型，并最小化预测噪声与真实噪声之间的均方误差[43]。该模型被训练以细化解码的真实帧，使其更接近于。在测试时，除了首次预测外（此时前一帧为栅格化的观测帧），已解码的帧和前导栅格化帧都是之前预测嵌入的重构。

Conditioning on Other Sensor Modalities

LOPR可以在地图、规划轨迹和观察到的RGB相机图像上进行条件设置。作者假设可以访问整个规划轨迹的地图。每种输入模态首先按照下面描述进行嵌入，然后使用自注意力机制整合到框架中，再提供给确定性网络和推理网络。

地图和规划的自动驾驶车辆轨迹。 地图包括在 ego 帧内的可行驶区域、停止线和行人横道，采用栅格化格式表示。规划的轨迹包括整个序列的位置，相对于 ego 位置进行归一化。地图和规划轨迹通过卷积网络和全连接网络进行处理。

RGB相机。 相机观测值

LOPR: 自监督的VAE-GAN与Transformer网络在L-OGM随机预测中的应用 ！

正文