专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
51好读  ›  专栏  ›  3DCV

清华最新!基于Transformers进行端到端图像到LiDAR地图定位

3DCV  · 公众号  ·  · 2024-03-17 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号

选择 星标 ,干货第一时间送达


点击加入 「3DCV」 技术交流群

作者:小柠檬 | 来源:3DCV

标题:Poses as Queries: End-to-End Image-to-LiDAR Map Localization With Transformers

添加微信:dddvision,备注:自动驾驶,拉你入群。文末附行业细分群

1、介绍

在这项研究中,我们基于学习的图像到激光雷达地图定位方法来实现低成本和高精度的车辆定位。在现有的工作中,姿势相关的信息或约束被认为包含在跨模态匹配信息中。他们通过一个简单的姿态回归模块直接根据匹配信息估计姿态,该模块由堆叠的卷积层和全连接层组成,如图1(a)所示,无法充分利用匹配信息,限制了姿态估计的性能。为此,我们提出了一种基于Transformer的神经网络,据我们所知,它应该是第一个将姿势隐式表示为高维特征向量的提议,在本工作中称为姿势查询。特别是,我们设计了一种新颖的POET模块,其中可以通过从跨模态特征之间的成本量中检索相关匹配信息来不断优化姿势查询,如图1 (b)所示。受益于所提出的POET模块,我们的网络在集成到迭代定位系统中时可以显着提高定位精度。

图1:姿势估计图(a)使用普通姿势回归模块或(b)使用建议的POET模块

2、主要贡献

  • 提出了一种新颖的POET模块,其中姿势隐式表示为高维特征向量,并且可以作为Transformer中的查询进行优化。通过应用该模块,可以实现激光雷达地图中单目相机的精确位姿估计。

  • 应用多假设聚合方法来减少所提出的网络的不确定性。我们对几个随机初始化的姿势查询进行并行优化,并聚合优化后的姿势查询以更稳定地估计。

  • 所提出的带有POET模块的网络被集成到迭代图像到LiDAR地图定位系统中。实验结果表明我们的方法可以实现较高的定位精度。

3、方法

在本节中,我们将详细描述所提出的图像到激光雷达地图定位网络的网络结构和训练方案。

3.1、总体结构

如图2所示,所提出的网络由RGB图像 以及地图投影图像,其表示为投影深度图像 ,并估计 图像相对于地图的位姿 。地图投影是通过将LiDAR地图中的相邻点云重新投影到给定初始姿态的虚拟图像平面上来生成的 。然后,图像 和深度 分别经过相应的编码器处理得到高维特征。应用相关性模块,我们得到图像和地图特征之间的成本量。然后,我们将位置嵌入添加到成本量中,并将成本量输入到建议的POET模块中。相对姿势 图像的姿势之间 和地图投影 期望获得图像的绝对位姿可以计算为

其中 表示位姿变换过程。

图2:所提出的图像到激光雷达地图定位网络的总体结构

3.2、POET

关于基于图像和LiDAR地图之间的匹配信息的姿态回归模块,我们提出了一种基于Transformer的新型模块POET。如图3所示,POET以成本体为输入,通过成本体中的相关匹配信息逐步优化图像与地图投影之间的相对位姿。在POET模块中,姿势在Transformer中被表示和优化为高维查询。

图3:POET

4、实验

4.1、设置

我们使用PyTorch库实现了建议的网络。所提出的网络使用ADAM优化器从头开始训练500个周期,批量大小为24,初始学习率为 在单个GeForce RTX 3090 GPU上。在深度图像生成过程中,我们使用遮挡估计滤波器来丢弃遮挡点。本项研究使用了KITTI 里程计数据集(KT)和北校区长期数据集(NCLT)。

4.2、与最先进技术的比较

为了证明我们提出的方法的有效性,我们首先在 KITTI 数据集上与最先进的方法进行比较,并评估更具挑战性的 NCLT 数据集上的性能。比较结果如表一所示。

表Ⅰ:与各种数据集上的SOTA的比较

表Ⅰ
图4:一些样本的可视化

4.3、 消融分析

图5:所提出的网络在不同数量的姿态查询下的性能分布。

表Ⅱ来自不同层和不同细化迭代的预测姿势的定位性能

表Ⅱ

表Ⅲ与基线的比较

表Ⅲ

表Ⅲ表明,我们的建议可以在KITTI的不同场景下实现分米级的定位精度,满足高水平自动驾驶的需求。

5、结论

我们通过提出一种新颖的图像到激光雷达地图定位网络来解决跨模式定位问题。网络分别提取图像特征和地图特征,然后计算它们之间的成本量作为图像到地图的匹配信息。然后,姿势被隐式表示为高维特征,即姿势查询,并通过提出的称为 POET 的姿势回归模块进行优化。位姿优化过程是通过Transformer架构中的注意力机制不断从成本量中检索相关信息来应用的,而前期的优化可以为后期的优化过程提供先验知识,从而使优化更加稳定和快速。此外,为了减少随机初始化姿态查询带来的不确定性,我们在每个POET中应用多个假设聚合策略来减少定位性能的偏差。所提出的定位网络在大规模室外场景上进行了全面分析,得出的结论是能够以更高的精度定位单目相机。实验证明该方法能够学习匹配跨模态数据并准确估计姿态,适合在多种场景下的高级自动驾驶中实际应用。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程:
3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

▲长按扫码学习3D视觉精品课程

3D视觉学习圈子







请到「今天看啥」查看全文