专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

端到端泊车模型开源 | ParkingE2E使用模仿学习+自回归预测，让泊车直接端到端SOTA !

智驾实验室 · 公众号 · · 2024-08-10 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

自主泊车是智能驾驶领域的一项关键任务。传统的泊车算法通常采用基于规则的方案来实现。然而，由于算法设计的复杂性，这些方法在复杂的泊车场景中效果不佳。相比之下，基于神经网络的方法往往比基于规则的方法更为直观和灵活。通过收集大量的专家泊车轨迹数据，并利用基于学习的方法模仿人类策略，可以有效地解决泊车任务。在本文中，作者采用模仿学习的方法，从RGB图像到路径规划进行端到端的规划，通过模仿人类驾驶轨迹。所提出的端到端方法利用目标 Query 编码器融合图像和目标特征，并采用基于 Transformer 的解码器自回归地预测未来路点。作者在真实世界场景中进行了大量实验，结果表明，所提出的方法在四个不同的真实世界车库中平均泊车成功率达到了87.8%。真实车辆实验进一步验证了本文提出方法的可行性和有效性。相关代码可以在以下链接找到：https://github.com/qintonguav/ParkingE2E。

I Introduction

智能驾驶主要包括三项任务：城市驾驶、高速公路驾驶和停车操作。自动代客泊车（AVP）和自动泊车辅助（APA）系统，作为智能驾驶中的重要停车任务，显著提高了停车的安全性和便利性。然而，主流的停车方法[1]通常是基于规则的，需要将整个停车过程分解为多个阶段，如环境感知、建图、车位检测、定位和路径规划。由于这些复杂模型架构的复杂性，它们在狭窄的停车空间或复杂场景中更容易遇到困难。

端到端（E2E）自动驾驶算法通过将感知、预测和规划组件集成到一个统一的神经网络中进行联合优化，减少了模块间的累积误差。将端到端算法应用于停车场景，有助于减少停车系统对人工设计特征和规则的依赖，提供了一种全面、整体且用户友好的解决方案。

尽管端到端自动驾驶显示出显著优势，但大多数研究集中在仿真[8]上，而没有验证算法在实际应用中的有效性。与城市环境的复杂性和高速公路驾驶的危险性相比，停车场景的特点是速度低、空间有限且可控性高。这些特点为逐步在车辆中部署端到端自动驾驶能力提供了可行的途径。作者开发了一种端到端的停车神经网络，并在实际停车情况下验证了算法的可行性。

本研究扩展了作者之前的工作E2E-Carla[2]，提出了一种基于模仿学习的端到端停车算法，该算法已成功在实际环境中部署和评估。该算法接收由车载摄像头拍摄的环视图像，预测未来轨迹结果，并根据预测的航点执行控制。一旦用户指定了一个停车位，端到端停车网络与控制器协作，自动将车辆驶入停车位，直到完全停稳。本文的贡献总结如下：

图1：总体工作流程图。作者的模型接收环视摄像头图像和目标停车位作为输入，输出预测的轨迹航点，随后由控制器执行。补充视频资料可在以下链接查看：https://youtu.be/urOEHJH1TBQ。

作者设计了一个端到端的网络来执行停车任务。该网络将环视图像转换为鸟瞰图（BEV）表示，并通过使用目标特征 Query 图像特征，将目标停车位特征与之融合。由于轨迹点的序列性质，作者采用基于变换解码器的自回归方法来生成轨迹点。
作者在实车上部署了端到端模型进行测试，并验证了该网络模型在各种实际场景下停车的可行性和泛化能力，为端到端网络的部署提供了一个有效的解决方案。## II 文献综述

BEV Perception

BEV表示法至少在以下两个方面优于透视表示法：首先，由于其清晰的物理可解释性，它能够轻松地整合来自不同模态的输入；其次，BEV视角避免了透视失真问题，从而简化了如下游规划等任务的复杂性。近年来，BEV表示法在感知系统中得到了广泛的应用。与之前基于深度学习的感知算法（由特征提取模块和任务头模块组成）不同，BEV感知在这两个模块的基础上增加了一个视角转换模块。该转换模块促进了传感器视角与鸟瞰图（BEV）之间的转换。

LSS [23] 方法利用BEV感知进行检测和分割。该方法通过估计特征图上每个像素的深度分布，并将其投影到BEV平面上来获取BEV特征。DETR3D [26]遵循DETR [25]的基本范式，并使用稀疏 Query 进行3D目标检测。PETR [27]增加了3D位置嵌入，为2D特征提供3D位置信息，旨在让神经网络隐式学习深度。BEVFormer [28]采用BEV Query 进行感知，并结合空间交叉注意力和时间自注意力机制以提高性能。BEVDepth [29]基于LSS并利用激光雷达点在训练过程中进行深度监督，以提高深度估计质量，进而提升BEV感知性能。BEVFusion [30]从摄像头和激光雷达数据中提取BEV特征，并在BEV空间中进行融合。

End-to-end Autonomous Driving

与传统的基于模块的自动驾驶解决方案相比，端到端范式[9, 10]可以减少累积误差，防止模块间信息丢失，并最小化冗余计算。因此，它在自动驾驶任务领域成为一个流行且突出的话题。

最初的端到端驾驶研究主要集中在城市自动驾驶任务上。ChauffeurNet[11]是一种基于模仿学习的端到端方法，它从专家数据中学习有效的驾驶策略。许多方法采用了编码器-解码器框架，从传感器中提取鸟瞰图（BEV）特征，然后利用门控循环单元（GRU）解码器以自回归方式预测航点，例如Transferer[3, 12]、Interfuser[13]和NEAT[14]。此外，CIL[15]和CILRS[16]开发了一种神经网络，直接将前视图图像、当前测量数据和导航命令映射为控制信号，而无需单独的PID控制器。MP3[17]和UniAD[7]提出了模块化设计，但以端到端方式联合优化所有组件。

近年来，端到端网络已应用于泊车场景。Rathour等人提出了一种两阶段学习方法，从图像中预测转向角和档位。在第一阶段，网络预测一系列转向角的初始估计。在第二阶段，使用长短期记忆（LSTM）网络估计最优转向角和档位。Li等人[19]在后方视图图像上训练了卷积神经网络（CNN），以自动控制转向角和速度。ParkPredict[20]提出了一种基于CNN-LSTM架构的泊车位和航点预测网络。在后续工作中，ParkPredict+[21]设计了一个基于 Transformer 和CNN的模型，根据意图、图像和历史轨迹预测未来车辆轨迹。

现有的端到端自动驾驶方法通常需要大量的计算资源，存在训练挑战，并且在实车部署方面存在困难。另一方面，以ParkPredict为代表的泊车方法主要关注从空中图像进行预测，这与作者的任务有所不同。作者的方法提出了一种端到端的泊车规划网络，该网络使用自回归 Transformer 解码器从RGB图像和目标车位提取的BEV特征预测未来航点。

III methodology

本部分详细阐述了作者研究中采用的方法论，包括研究设计、数据收集以及数据分析流程。主要目标是勾勒出一个清晰且系统的方法，以便其他领域的研究者能够复现作者的发现。

Preliminaries: Problem Definition

作者使用端到端神经网络来模仿专家轨迹进行训练，定义数据集如下：

其中轨迹索引，轨迹点索引，相机索引，RGB图像，轨迹点和目标槽。将数据集重新组织为：

以及

其中表示预测轨迹点的长度，表示RGB相机的数量。

端到端网络的优化目标如下：

其中表示损失函数。

Camera-based End-to-end Neural Planner

摄像头为基础的端到端神经规划器

在本文的这一部分，作者将介绍一种基于摄像头的端到端神经规划器。这种方法将涉及从原始图像直接映射到动作的策略学习，无需显式的状态表示或环境建模。通过对摄像头输入的深度学习处理，作者的规划器旨在实现复杂任务的高效执行，同时保持对动态环境的适应性。

Iii-B1 Overview

如图2所示，作者开发了一个端到端的神经规划器，它接收RGB图像和目标槽作为输入。所提出的神经网络主要包括两部分：输入编码器和自回归轨迹解码器。在输入RGB图像和目标槽的情况下，RGB图像被转换为鸟瞰图（BEV）特征。然后，神经网络将BEV特征与目标槽融合，并使用转换解码器以自回归方式生成下一个轨迹点。

Iii-A2 Encoder

作者将输入编码在鸟瞰图（BEV）视图中。BEV表示提供了车辆周围环境的俯视图，使自动驾驶车辆能够检测停车位、障碍物和标记。同时，BEV视图为各种驾驶视角提供了一致的视角表示，从而简化了轨迹预测的复杂性。

相机编码器 在BEV生成 Pipeline 的初始阶段，作者首先使用EfficientNet [22]从RGB输入中提取图像特征。受到LSS [23]的启发，作者学习图像特征的深度分布，并将每个像素提升到三维空间。然后，作者将预测的深度分布与图像特征相乘，以获得带有深度信息的图像特征。利用相机外参和内参，将图像特征投射到BEV Voxel 网格中，生成相机特征。BEV特征在方向的范围表示为，方向的范围表示为。

目标编码器 为了将目标槽与相机特征对齐，作者根据指定的停车位位置在BEV空间中生成目标 Heatmap 作为目标编码器的输入。随后，作者使用深度卷积神经网络提取目标槽特征，以获得与相同的维度。在训练期间，目标停车位由人类驾驶轨迹的端点确定。

**目标 Query ** 通过在BEV空间中对齐相机特征和目标编码特征，并使用目标特征通过交叉注意力机制 Query 相机特征，作者可以有效地融合这两种模态。位置编码确保在将特定BEV位置的特征相关联时，相机特征与目标特征之间的空间对应关系得以保持。使用作为 Query ，作为键和值，并应用注意力机制，作者获得了融合特征。

Iii-A3 Decoder

许多端到端的规划研究[12, 13, 14]采用了GRU解码器，以自回归的方式从高维特征向量预测下一个点。然而，这些高维特征向量缺少全局感受野。受到Pix2seq[24]的启发，作者将轨迹规划视为一个序列预测问题，使用 Transformer 解码器。这涉及自回归、逐步预测轨迹点。作者的方法有效地结合了低维轨迹点与高维图像特征。

轨迹序列化 轨迹序列化将轨迹点表示为离散的标记。通过序列化轨迹点，位置回归可以被转换为标记预测。随后，作者可以利用 Transformer 解码器预测在 ego 车辆坐标系中的轨迹点，作者采用以下序列化方法：

以及

图3：目标 Query 架构说明，作者在目标特征和相机特征上添加相同的位置编码，以建立两种类型特征之间的空间关系。

其中表示序列中标记可以编码的最大值，序列化轨迹点的符号表示为。