专栏名称: 点云PCL

公众号将会推送基于PCL库的点云处理，SLAM，三维视觉，高精地图相关的文章。公众号致力于理解三维世界相关内容的干货分享。不仅组织技术交流群，而且组建github组群，有兴趣的小伙伴们可以自由的分享。欢迎关注参与交流或分享。

ParkingE2E: 基于摄像头从图像到规划的端到端泊车网络

点云PCL · 公众号 · 科技创业科技自媒体 · 2024-08-30 08:00

主要观点总结

本文介绍了一种基于摄像头的端到端泊车模型，通过模仿人类驾驶轨迹，从RGB图像到路径规划进行端到端的规划。文章详细描述了方法的设计、实施细节、实验结果及限制。该方法利用目标查询获取BEV视图中的融合特征，并使用自回归的方式使用transformer解码器预测轨迹点，然后用于控制车辆停入指定停车位。

关键观点总结

关键观点1: 主要贡献

设计了一个执行泊车任务的端到端网络，将环视图像转换为鸟瞰图（BEV）表示，通过利用目标特征查询图像特征，将其与目标停车位特征进行融合，采用基于Transformer解码器的自回归方法生成轨迹点。提供了端到端网络部署的有效解决方案。

关键观点2: 方法概述

利用摄像头特征提取与BEV转换、目标停车位编码、目标与摄像头特征融合、轨迹序列化、轨迹解码器等技术，实现端到端的泊车规划。通过自回归Transformer解码器从RGB图像和目标停车位中预测未来的路径点。

关键观点3: 实验结果

在四个不同的真实车库中进行了实验，平均停车成功率达到87.8%。提供了定量结果和消融研究，展示了方法的有效性和优势。

关键观点4: 限制和挑战

提出了当前方法的一些限制，如对数据规模和场景多样性的依赖、对移动目标的适应性、负样本的缺乏、纠正机制的缺失等。并讨论了未来工作的方向，如通过扩展数据集、使用深度强化学习等方法改进模型。

正文

文章：ParkingE2E: Camera-based End-to-end Parking Network, from Images to Planning

作者：Changze Li, Ziheng Ji, Zhe Chen, Tong Qin∗, and Ming Yang

编辑：点云PCL

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系[email protected]。 文章未申请原创 ， 侵权或转载 联系微信cloudpoint9527。

摘要

自动泊车是智能驾驶领域中的一项关键任务，传统的泊车算法通常通过基于规则的方案实现。然而这些方法在复杂的停车场景中效果较差，因为算法设计过于复杂，相比之下基于神经网络的方法比基于规则的方法更直观且更灵活。通过收集大量的专家停车轨迹数据，并利用基于学习的方法模仿人类策略，可以有效地解决停车任务。本文采用模仿学习，通过模仿人类驾驶轨迹，从RGB图像到路径规划进行端到端的规划，所提出的端到端方法利用目标查询编码器来融合图像和目标特征，并通过基于Transformer的解码器自回归地预测未来路径点，在真实场景中进行了广泛的实验，结果表明，该方法在四个不同的真实车库中的平均停车成功率达到87.8%，实车实验进一步验证了本文提出方法的可行性和有效性。

代码：https://github.com/qintonguav/ParkingE2E。

主要贡献

BEV（鸟瞰图）表示法相较于透视图表示法具有至少两个优势。首先由于其清晰的物理可解释性，它更容易整合来自不同模态的输入，其次BEV视角避免了透视变形问题，从而减少了诸如规划等下游任务的复杂性。近年来BEV表示法在感知系统中得到了广泛应用，与以往的深度学习感知算法仅包含特征提取模块和任务头模块不同，BEV感知还包含一个视角转换模块，辅助传感器视角与鸟瞰视角之间的转换。与传统的基于模块的自动驾驶解决方案相比，端到端范式能够减轻累积误差，防止信息丢失，并减少多余计算。因此，它成为了自动驾驶任务领域的一个热门研究方向。现有的端到端自动驾驶方法往往需要大量的计算资源，训练困难，并且在实际车辆部署中存在挑战。我们的方法提出了一个端到端停车规划网络，利用自回归Transformer解码器从RGB图像和目标停车位中提取的BEV特征中预测未来的路径点。

本研究在我们之前的工作 E2E-Carla基础上进一步发展，提出了一种基于模仿学习的端到端停车算法，该算法已成功部署并在实际环境中进行了评估，该算法接收由车载摄像头捕捉的环视图像，预测未来的轨迹结果，并基于预测的路径点执行控制。当用户指定停车位后，端到端停车网络与控制器协作，自动将车辆操控至停车位，直至完全停好。本文的贡献总结如下：

设计了一个执行泊车任务的端到端网络，该网络将环视图像转换为鸟瞰图（BEV）表示，并通过利用目标特征查询图像特征，将其与目标停车位特征进行融合，由于轨迹点的顺序性，采用基于Transformer解码器的自回归方法生成轨迹点。
将端到端模型部署到真实车辆上进行测试，验证了该网络模型在各种实际场景中的停车可行性和泛化能力，提供了一个端到端网络部署的有效解决方案。

内容概述

如图2所示，我们开发了一种端到端神经规划器，以RGB图像和目标停车位作为输入。该神经网络包含两个主要部分：输入编码器和自回归轨迹解码器。通过RGB图像和目标停车位的输入，RGB图像被转换为BEV（鸟瞰图）特征。然后，神经网络将BEV特征与目标停车位融合，使用Transformer解码器以自回归方式生成下一个轨迹点。

图 2: 方法的概述。多视角的RGB图像经过处理，图像特征被转换为BEV（鸟瞰图）表示。目标停车位用于生成BEV目标特征，通过目标查询将目标特征和图像BEV特征融合。然后使用自回归Transformer解码器逐步获得预测的轨迹点。

编码器

在BEV视角中编码输入。BEV表示提供了车辆周围环境的俯视图，使得车辆能够检测停车位、障碍物和标记。同时BEV视角在不同驾驶视角下提供了一致的视角表示，从而简化了轨迹预测的复杂性。

摄像头特征提取与BEV转换：通过EfficientNet提取RGB图像特征并结合深度分布信息，将图像特征投影到鸟瞰图（BEV）体素网格中生成摄像头特征。
目标停车位编码：根据指定的停车位生成目标热图，并通过深度神经网络提取目标停车位的特征，使其与摄像头特征对齐。
目标与摄像头特征融合：通过交叉注意力机制，将目标特征作为查询，与摄像头特征融合，以生成最终的融合特征，用于后续的预测。

图 3：目标查询的架构图示了我们如何将相同的位置信息编码添加到目标特征和摄像头特征中，以建立这两种特征之间的空间关系。

解码器

许多端到端规划研究使用GRU解码器从高维特征向量中以自回归方式预测下一个点。然而高维特征向量缺乏全局感受野。受Pix2seq的启发，将轨迹规划视为序列预测问题，使用Transformer解码器进行自回归、逐步预测轨迹点，该方法有效地将低维轨迹点与高维图像特征结合起来。

轨迹序列化：通过将轨迹点序列化为离散的token，位置回归问题被转换为token预测，并利用Transformer解码器在自车坐标系中逐步预测轨迹点。
轨迹解码器：通过BEV特征作为键和值，序列化序列作为查询，使用Transformer解码器以自回归方式预测轨迹点，训练时添加位置嵌入，并在推理过程中依次生成并更新轨迹点。

横向和纵向控制

在泊车控制过程中，从停车开始时刻（记作 t0t_0t0）起，系统通过端到端神经规划器预测车辆的行驶路径，并通过定位系统计算车辆从 t0t_0t0 到当前时刻 ttt 的相对位姿。这些信息用于计算目标转向角度。目标转向角度的计算依赖于后轮反馈方法，以确保车辆能够沿着预测路径行驶。此外，系统还结合来自车辆底盘的速度反馈和转向反馈，以及设定的目标速度和目标转向角，使用级联 PID 控制器进行横向和纵向控制。这种方法在每次生成新的预测轨迹后，会重置路径和位姿信息，从而避免在整个控制过程中对全局定位的持续依赖。

实验与结果

数据集收集

数据集通过车载设备进行收集。为了实现全面的视觉感知和轨迹记录，使用环视摄像头捕捉 RGB 图像。同时，集成了死算法，通过传感器数据融合算法实现稳健且准确的车辆定位。实验平台的布局和使用的传感器如图 4 所示。

图4：使用一辆长安车辆作为实验平台，该车辆利用 Intel NUC 设备进行模型推理和控制。

图5：我们使用了多个不同的车库进行系统的训练和测试，车库 I 和 II 的一些停车位数据用于训练，而车库 I 和 II 中未用于训练的剩余停车位数据以及所有从车库 III 和 IV 收集的停车位数据则用于测试。

实施细节

1. 训练和推理过程

训练阶段：使用四台环视摄像头捕捉的图像作为输入数据。系统通过这些图像来确定目标停车位，具体是通过停车结束时的一些点来设定目标。轨迹序列点用于监督和优化端到端的预测结果，以确保模型可以准确预测车辆的行驶轨迹。
推理阶段：在实际应用中，使用 RViz 界面软件中的“2D-Nav-Goal”功能来选择目标停车位。模型根据环视摄像头捕捉到的实时图像和目标停车位，预测接下来的若干个轨迹点的位置，采用自回归的方式进行预测。控制器根据生成的路径规划结果、车辆的当前位置和反馈信号来控制车辆，确保车辆能够精准停入指定的停车位。系统的坐标计算均基于车辆自身的坐标系，从而使得整个系统不依赖于全局坐标系，提高了系统的稳定性和灵活性。

2. 神经网络技术细节：

BEV 特征：使用的 BEV（鸟瞰视图）特征尺寸为 200 × 200，覆盖实际空间范围为 x 和 y 方向各自从 -10 米到 10 米，分辨率为 0.1 米。这确保了模型可以准确地捕捉到所需的环境细节。
Transformer 解码器：在解码器中，轨迹序列化的最大值为 1200。解码器生成长度为 30 的预测序列，这种设计在推理时实现了准确性和速度的最佳平衡。
实现框架：该方法使用 PyTorch 框架实现。训练过程中使用了一台 NVIDIA GeForce RTX 4090 GPU，批量大小设为 16，总训练时间约为 8 小时，处理了 40,000 帧数据。测试阶段使用了约 5,000 帧的数据。这表明系统经过了充分的训练和验证，以确保其在实际应用中的性能。

定量结果

使用提出的端到端停车系统，在四个不同的停车库进行了闭环车辆测试，以验证我们系统的性能。结果如表 I 所示。

消融研究

设计了消融实验来分析不同网络设计的影响，在网络结构方面，我们进行了特征融合的消融实验，如表 III 所示。我们比较了基线（目标查询）、特征拼接和特征逐元素加法的结果。目标查询方法利用注意力和空间对齐机制来充分整合目标特征和 BEV 特征。它明确约束了目标车位与 BEV 图像之间的空间关系，从而实现了最高的轨迹预测准确性。

可视化

不同场景中的停车过程展示于图 6，展示了我们算法在各种场景下的多样适应能力。

图 6: 不同场景下停车过程的示意图。每一行展示了一个停车案例。即使在存在如汽车或墙壁等障碍物占据邻近停车位的情况下，我们的方法仍能有效地操控并将车辆停入指定的停车位。

限制

尽管提出的方法在停车任务中表现出优势，但仍存在一些限制。首先，由于数据规模和场景多样性的限制，我们的方法对移动目标的适应性较差。通过扩展数据集，可以进一步提高模型对移动物体的适应性。其次，由于训练过程中使用了专家轨迹，无法提供有效的负样本。此外，当停车过程中出现显著偏差时，缺乏有效的纠正机制，最终可能导致停车失败。随后，可以通过构建一个通过 NeRF（神经辐射场）和 3DGS（3D 高斯喷溅）模拟真实世界条件的模拟器，使用深度强化学习训练端到端模型。最后，尽管我们的端到端停车方法取得了良好的结果，但与传统的基于规则的停车方法相比仍存在差距。然而相信随着端到端技术的不断发展，这个问题会得到解决，期待未来端到端停车算法在复杂场景中的表现能够展示出更大的优势。

总结

本文提出了一种基于摄像头的端到端泊车模型，该模型以目标泊车位和环视 RGB 图像为输入，通过目标查询获取 BEV 视图中的融合特征，并采用自回归的方式使用 transformer 解码器预测轨迹点，随后轨迹规划结果用于控制，在多种场景下对所提方法进行了广泛评估，结果证明了其可靠性和通用性。然而端到端方法与高度优化的规则基础停车方法之间仍存在性能差距，在未来的工作中，我们计划进一步提升端到端停车算法的性能，期望学习型方法最终超越传统方法。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述：用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++：基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位