专栏名称: 点云PCL

公众号将会推送基于PCL库的点云处理，SLAM，三维视觉，高精地图相关的文章。公众号致力于理解三维世界相关内容的干货分享。不仅组织技术交流群，而且组建github组群，有兴趣的小伙伴们可以自由的分享。欢迎关注参与交流或分享。

一种改善AVM误差用于自动泊车的AVM-based视觉SLAM方法

点云PCL · 公众号 · · 2024-02-22 08:00

正文

文章：Accurate Visual Simultaneous Localization and Mapping (SLAM) against Around View Monitor (AVM) Distortion Error Using Weighted Generalized Iterative Closest Point (GICP)

作者：Yangwoo Lee , Minsoo Kim, Joonwoo Ahn and Jaeheung Park

编辑：点云PCL

欢迎各位加入知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。

公众号致力于点云处理，SLAM，三维视觉，高精地图等领域相关内容的干货分享，欢迎各位加入，有兴趣的可联系[email protected]。 文章未申请原创 ， 侵权或转载 联系微信cloudpoint9527。

摘要

精确估计车辆姿位姿对于自动泊车至关重要。基于环视系统（AVM）的视觉同时定位与地图构建（SLAM）的研究因其成本合理、商业可用性以及适用于具有车辆快速旋转和前后移动特征的停车场景而备受关注。然而，在实际环境中，AVM-based视觉SLAM的性能受到AVM失真误差的影响，这是由于不准确的摄像机校准导致的。因此本文提出了一种针对AVM失真误差且具有鲁棒性的用于自动泊车的AVM-based视觉SLAM。采用深度学习网络根据AVM失真误差的程度为停车线特征分配权重。为了获得训练数据并最小化人力投入，利用了三维激光雷达（LiDAR）数据和官方停车场数据。经过训练的网络模型的输出被纳入带有失真误差条件下的加权广义迭代最近点（GICP）用于车辆定位。实验结果表明，与先前的AVM-based视觉SLAM方法相比，所提出的方法将定位误差平均降低了39%。

相关介绍

视觉SLAM

基于前置摄像头的视觉SLAM： 在视觉SLAM领域，有各种使用前置摄像头作为主要传感器的方法。这些方法可以广泛分为直接方法和基于特征的方法。直接方法使用原始图像，而基于特征的方法仅使用图像中的特征。代表性的直接方法包括Direct Sparse Odometry (DSO)，该方法通过最小化两幅图像之间的像素强度差异来估计相机姿态。ORB-SLAM2是一种众所周知的基于特征的方法，通过最小化匹配特征点之间的距离差异来估计相机姿态。另一种方法是半直接视觉里程计（Semi-direct Visual Odometry，SVO），它结合了直接方法和基于特征的方法的优势。然而，这些方法并不适用于自动泊车领域。具有狭窄视场（FOV）的前置摄像头在车辆快速旋转期间可能难以检测周围环境的变化。此外，在这些方法中，深度估计导致了前进和后退运动之间的SLAM性能差异。

基于AVM的视觉SLAM： 各种SLAM研究提出了利用AVM作为自动泊车的主要传感器。自主代客泊车-SLAM（AVP-SLAM）通过将当前的道路标线特征与前期过程中创建的道路标线地图进行匹配来估计车辆位姿。AVP-Loc将当前的道路标线特征与停车场的高精矢量地图进行匹配，用于车辆定位。在[7]中，利用自由空间和道路标线的边缘信息作为输入特征，通过迭代最近点ICP来估计车辆的位姿。然而，在这些研究中并未考虑AVM的失真误差。在[5]中，由于预建地图中的失真误差引起的固有不准确性需要额外的IMU来提高定位精度。[6]的方法采用外部提供的高精矢量地图以避免失真误差。尽管[7]中的方法旨在使用滑动窗口融合技术实时创建精确地图，但包含失真误差的地图构建负面影响了自动驾驶车辆的定位性能。

AVM图像改善技术

使用自动校准改善AVM图像 ：已经提出了多种自动校准AVM图像的方法，利用提取的特征形状以实现准确的鸟瞰视图。在[8]中，提出了一种使用点模式估计四个AVM摄像机外部参数的方法。[9]中提出的方法旨在通过匹配前后摄像头观察到的车道的梯度和位置与左右摄像头观察到的相匹配来校准AVM图像。另一方面，[10]中提出的方法专注于校准AVM图像，以确保检测到的停车线与车辆平行或垂直。然而由于这些方法只在每个摄像头的图像之间执行相对比较，并未定量比较AVM图像与真实环境，因此可能不能被视为解决AVM失真误差的完整解决方案。

使用深度学习生成AVM图像： 近年来，已经出现了基于深度学习的AVM图像生成方法，这些方法使用神经网络（NN）作为视点转换函数，而不是使用单应性几何信息。HDMapNet 使用多层感知器（MLP）将每个AVM摄像机图像转换为鸟瞰视图，然后通过使用安装的摄像机位置进行附加处理创建AVM图像。另一种方法，BEVformer使用Transformer模型创建AVM图像，无需额外的附加处理。然而，这些方法需要大量的训练数据。

混合鸟瞰图边缘语义视觉SLAM的局限性

为了在无需预先构建地图或额外传感器的情况下估计车辆位姿，选择了混合鸟瞰图边缘语义视觉SLAM算法。但并非直接使用该方法，而是在两个方面进行了修改以提高姿态估计性能。首先使用停车线信息作为输入数据，而不是使用语义特征和自由空间的边缘信息。其次使用广义ICP代替ICP进行姿态估计。广义ICP是一种从ICP发展而来的点云配准算法，用于解决不准确的对应关系。修改后的混合鸟瞰图边缘语义视觉SLAM被用于研究由于AVM不准确校准而导致的失真误差对AVM-based SLAM性能的影响。图1a、b显示了修改后的混合鸟瞰图边缘语义视觉SLAM相对于原始混合鸟瞰边缘语义视觉SLAM的性能提升。为了在没有任何干扰的相同环境中比较算法性能，使用了CARLA模拟器，这是一个开源的自动驾驶车辆模拟器。使用了实际的AVM图像生成方法生成的AVM图像，如图1c所示。

图1. 混合鸟瞰图边缘语义视觉SLAM（a）与修改后的混合鸟瞰边缘语义视觉SLAM（b）的比较。品红色轨迹是SLAM轨迹，橙色轨迹描述地面真实轨迹，白色点云地图是由SLAM构建的全局地图。(c) 显示了CARLA模拟器中AVM与俯视视角摄像头的比较。

AVM失真误差

为了评估由于AVM不准确校准而引起的AVM失真误差，对从3D LiDAR中提取的停车线信息和AVM图像的停车线信息进行了比较（在图2a中分别表示为彩色点和白色停车线像素）。图2a中用红圈标记的区域突出显示了AVM失真误差，显示了来自不同传感器的两种特征的位置差异。点云的强度和高度信息用于从原始LiDAR点云中选择特征点，而AVM和3D LiDAR的坐标系在预先对齐之前。即使是商业上使用的AVM也不免于失真。如图2b所示，尽管地面是平整的，理论上应该是一条直线的停车线在AVM表示中却呈现为弯曲的线。不准确的摄像机校准可能是由于在使用校准目标和基于软件的自动校准过程中发生的错误引起的。此外，制造公差、温度和振动等环境条件，以及传感器随时间的性能下降也可能导致摄像机校准的不准确。

图2. AVM失真误差。(a) 将AVM图像与从3D LiDAR中提取的停车线点进行比较。图中的红圈显示了来自3D LiDAR的彩色点和来自AVM的白色停车线像素之间的位置差异。(b) 展示了商业AVM中的AVM失真

在模拟环境和真实世界中进行SLAM性能比较

为了评估AVM失真误差对SLAM性能的影响，使用上述改善过的混合鸟瞰图边缘语义视觉SLAM 在CARLA模拟器和一个地势平坦的真实环境中进行了实验。从CARLA模拟器获得的AVM图像，如图1c所示，与真实环境中的AVM图像相比，显示出较低的失真误差。图3a展示了在CARLA环境中修改后的混合鸟瞰图边缘语义视觉SLAM的结果，而图3b显示了在真实环境中相同方法的结果，其失真误差较模拟器环境更高。这强调了克服AVM失真误差的重要性。

图3. 在CARLA模拟器和真实世界中的比较实验。(a、b) 描述了在不同地面环境中改善后的混合鸟瞰图边缘语义视觉SLAM的结果。绿色轨迹是SLAM轨迹，橙色轨迹描述地面真实轨迹。在真实世界的环境中，使用了3D LiDAR SLAM作为地面真实轨迹。白色点云地图是由SLAM构建的全局地图。(b) 中标记为可视化的红色点云地图是来自3D LiDAR的障碍物点云

内容概述

使用权重图的基于AVM的视觉SLAM框架

图4展示了提出方法的框架，提出的方法采用了改善后的混合鸟瞰图边缘语义视觉SLAM，并引入了一个特征加权网络。该网络接收由LaneNet检测到的停车线信息，并生成一个包含每个停车线像素权重信息的权重图。网络基于U-Net架构，该架构通过结合下采样和上采样路径，能够捕捉空间特征，以便更好地理解上下文信息。为实现实时性能，U-Net网络的大小经过减小输入图像大小和层中特征图数量的调整。姿态估计过程中，利用停车线信息转换得到的停车线点云，结合预测的权重图和轮式测距计信息，作为加权GICP的输入。加权GICP通过最小化加权距离的加权和来优化姿态估计，其中权重由权重图导出。通过考虑新创建的局部地图与全局地图之间的轨迹，更新估计的姿态。这两个地图都采用网格地图表示，其中每个网格累积了包含点的权重。最后通过匹配具有低失真误差的网格单元，准确更新车辆姿态。

图4. 使用权重图的基于AVM的视觉SLAM系统架构

图5. 特征加权网络的架构

数据集创建

基于AVM失真误差为停车线的每个像素分配权重有两个阶段。第一阶段涉及使用LiDAR数据和测量信息创建理想的停车线图像（见图6）。第二阶段通过比较AVM图像中检测到的停车线与理想停车线，为每个检测到的停车线像素分配权重（见图7）。

图6. 创建理想停车线图像。(a) 显示基于3D LiDAR SLAM的堆叠停车线点云地图。(a) 中的每个白色点表示从3D LiDAR中提取的停车线点。(b) 显示与(a)匹配的理想停车线图。(c) 显示带有预测信息的官方停车场绘图指南。(d) 显示通过从3D LiDAR SLAM的姿势获得的一系列AVM视点捕获理想停车线图，从而生成理想停车线图像。

图6展示了理想停车线图像的创建方法。在停车场场景中，使用3D LiDAR每个点的强度和高度信息提取停车线特征点云。这些特征点云通过3D LiDAR SLAM进行累积，构建一个初始特征图，如图6a所示。理想的停车线地图，对应于图6b中的绿色停车线，是根据预测的信息和官方停车场指南以点云的形式构建的，如图6c所示。使用GICP对齐初始特征图和理想停车线图。随后，如图6d所示，通过在AVM视点中捕获与3D LiDAR SLAM中使用的一系列姿态相同大小的对齐理想停车线地图，生成理想停车线图像。理想停车线图像用于创建训练特征权重模型的地面实况权重图。

图7. 地面实况创建方法。(a) 显示检测到的停车线（黄色线）与理想停车线（白色线）之间的差异。(b) 描述双曲正切导数函数。(c) 显示地面实况权重图

在图8中，进行了一项定性评估，以评估理想停车线图与实际停车场之间的相似性。图8b显示了从实际停车场获得的LiDAR点云，其中每个点根据其强度比例被赋予不同的颜色。在图8b中，停车线由以网格模式排列的黄色和绿色点表示。图8c展示了理想停车线图与LiDAR点云中的停车线之间的对齐，表明理想停车线图与实际停车场之间的相似性。从AVM图像中检测到的停车线信息与理想停车线图进行比较，并根据检测到的停车线像素与理想停车线像素之间的位置差异分配权重，如图7a所示，表示AVM失真误差。将距离乘以实验确定的常数，然后将其纳入双曲正切导数函数中，如图7b所示。双曲正切导数函数清晰地区分具有较大距离值的点和具有较小距离值的点。这使得能够将权重分配集中在具有较小失真误差的点上。最后，生成了地面实况权重图，如图7c所示，其中权重沿检测到的停车线分配。

图8. 理想停车线图与实际停车场的比较。(a) 显示与堆叠停车线点云地图（白色点云）匹配的理想停车线图（橙色线）。在(b)中，从3D LiDAR获取的点云可视化，颜色变化对应于点的强度比例。(c) 显示理想停车线图（橙色线）与(b)中停车线（黄色和绿色点）之间的对齐。

实验

实验设置

如图9a所示，HG 240车辆用于数据收集和实验。AVM由专业公司Omniview安装。实验中使用的笔记本电脑具有以下规格：来自美国Santa Clara的Intel i9-9900 CPU，来自美国Santa Clara的NVIDIA RTX 2080 GPU和32GB的内存。开发和可视化任务使用机器人操作系统（ROS）进行。

图9. 实验设置。(a) 显示自动驾驶车辆。(b) 显示用于数据收集和实验的停车场。训练数据是在停车场1收集的，实验在停车场1（不包括收集训练数据的地方），停车场2和停车场3进行

CARLA模拟和真实环境中修改的混合鸟瞰边缘语义视觉SLAM的定量比较见表1。表1显示，由于AVM失真误差，ATE增加了约五倍。

提案方法的评估与讨论

在各种停车场场景中进行了基于粒子滤波的语义视觉SLAM、改善后的混合鸟瞰图边缘语义视觉SLAM和提出的方法的比较实验，如表2所示。

PF是在语义视觉SLAM中使用粒子滤波的方法之一。实验1到6在停车场（停车场1）的不同位置进行，其中收集了训练数据。实验7到10在不同的停车场进行（停车场2，停车场3）。表3呈现了实验的定量结果。

在PF中，粒子表示预测的车辆姿势，并使用恒定速度运动模型随机采样。每个粒子的权重对应于当前停车线特征与先前构建地图之间重叠像素的数量。随后，选择具有最高权重的粒子作为下一步的车辆姿势。地图是使用使用LaneNet提取的停车线创建的，并且使用选择的粒子姿势信息进行了合并。PF在位姿估计性能上表现不如改善后的混合鸟瞰图边缘语义视觉SLAM和提出的方法。这一缺点源于由于AVM失真误差导致地图生成的不准确性，从而降低了具有最高权重的粒子的准确性，进而导致地图不够精确。此外，在局部地图级别缺乏姿势更新使得错误在整个场景中累积。在图10中显示了每种方法在场景1和场景8中的估计轨迹。与使用修改后的混合鸟瞰边缘语义视觉SLAM相比，使用提出的方法时ATE的最大值减少了34.0%。误差的平均值减少了39.0%，均方根误差（RMSE）减少了37.9%。

图10. 基于粒子滤波的语义视觉SLAM、改善后的混合鸟瞰边缘语义视觉SLAM和提出的方法在场景1（a）和场景8（b）中的轨迹比较。紫色轨迹是基于粒子滤波的语义视觉SLAM的轨迹，浅蓝色轨迹是修改后的混合鸟瞰边缘语义视觉SLAM的轨迹，绿色轨迹是提出的方法的轨迹，橙色轨迹描述地面真实轨迹。图10中标记为可视化的红色点云地图是来自3D LiDAR的障碍点云。每个网格的大小为1米 × 1米

图11和图12显示了实验6的序列。正如图11a所示，不考虑受失真误差影响的停车线点的权重会导致姿势估计不准确，从而导致不准确的全局地图。随后，如图11b、c所示，使用不准确的全局地图进行的姿势更新未能准确纠正姿势。图11中的白色圆圈表示不准确构建的全局地图。相反，图12a表明，通过专注于具有最小失真误差的停车线点，准确的姿势估计导致准确的全局地图。因此，如图12b、c所示，结合由具有较低失真度的点组成的全局地图使得姿势更新更加精确。图12中的白色圆圈突显了与图11相比更准确构建的全局地图。此外，图12d中所示的车辆的最终姿势与图11d中所示的车辆的最终姿势相比更好地与实际情况对齐。

图11. 实验6中改善后的混合鸟瞰图边缘语义视觉SLAM的序列。(a-d) 表示在实验过程中捕获的一系列快照。绿色轨迹是估计的轨迹，橙色轨迹描述地面真实轨迹，橙色点云描述局部地图，而白色点云地图表示使用SLAM构建的全局地图。用于可视化的红色点云地图显示了不准确的建图过程。每个网格的大小为1米 × 1米

图12. 实验6中提出的方法的序列。(a-d) 表示在实验过程中捕获的一系列快照。绿色轨迹是估计的轨迹，橙色轨迹描述地面真实轨迹，橙色点云描述局部地图，而白色点云地图表示使用SLAM构建的全局地图。用于可视化的红色点云地图显示了不准确的建图过程。每个网格的大小为1米 × 1米

总结

本文提出了一种面向自动泊车的基于AVM的视觉SLAM框架，解决了AVM畸变误差的挑战。通过引入特征加权网络，根据畸变程度为停车线特征分配权重。提出了一种新颖的数据集创建方法，最小化了人为干预，并通过将其与实际停车场进行比较来验证使用该方法构建的理想停车线地图。通过实验证明，与改善后的混合鸟瞰图边缘语义视觉SLAM相比，所提出的方法将误差平均降低了39%。

该方法还提高了泊车后估计的车辆位姿的准确性。然而，在由于墙壁和停放车辆导致特征稀疏检测的环境中，与更多特征检测的环境相比，所提出的方法改进有限。需要针对具有不同形状的环境，如对角停车场，进行额外的数据训练，以有效应用所提出的方法。为了克服这些局限性，需要探索可与停车线一起利用的不同特征。在各种停车场景中进行进一步评估以推广所提出的方法是必要的。在包括动态障碍物和部分遮挡停车线的场景中进行实验也是至关重要的。此外，还需要在由不平整地面引起的畸变误差的环境中进行性能评估。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述：用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++：基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架

动态的城市环境中杆状物的提取建图与长期定位

非重复型扫描激光雷达的运动畸变矫正

快速紧耦合的稀疏直接雷达-惯性-视觉里程计

基于相机和低分辨率激光雷达的三维车辆检测

用于三维点云语义分割的标注工具和城市数据集

一种改善AVM误差用于自动泊车的AVM-based视觉SLAM方法

正文

请到「今天看啥」查看全文