专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

点云配准新思路！DFLIOM：更快、更准、更省内存的LiDAR SLAM！

3DCV · 公众号 · · 2024-10-12 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d008，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：LiDAR Inertial Odometry And Mapping Using Learned Registration-Relevant Features

作者：Zihao Dong, Jeff Pflueger, Leonard Jung, David Thorne, Philip R. Osteen, Christa S. Robison, Brett T. Lopez, Michael Everett

机构：Northeastern University、University of California Los Angeles、DEVCOM Army Research Laboratory (ARL).

原文链接：https://arxiv.org/abs/2410.02961

1. 导读

SLAM是许多自主系统的重要功能，现代基于激光雷达的方法提供了有希望的性能。然而，对于长期任务，直接操作全部点云或对提取的特征进行操作的现有工作面临准确性和计算效率(例如，内存消耗)方面的关键权衡。为了解决这些问题，本文介绍了DFLIOM的几项关键创新。与以前依赖手工试探法和手工调整参数进行特征提取的方法不同，我们提出了一种基于学习的方法来选择与激光雷达SLAM点云配准相关的点。此外，我们用学习的特征提取器扩展了我们先前的工作，并且观察到我们的方法仅使用密集点云中大约20%的点就能够实现相似甚至更好的定位性能。我们证明DFLIOM在多个公共基准上表现良好，与最先进的方法(DLIOM)相比，定位误差减少了2.4%，内存使用减少了57.5%。虽然使用建议的网络提取要素需要额外的时间，但下游更快的处理时间弥补了这一点，从而在我们的硬件设置上使用20Hz激光雷达保持了实时性能。通过与几个手工制作的特征提取器进行比较，进一步证明了我们的基于学习的特征提取模块的有效性。

2. 引言

即时定位与地图构建（SLAM）技术，即提供精确状态估计和地图的能力，对于与新环境进行稳健且安全的交互至关重要。本文基于激光雷达里程计方法进行构建，这些方法通常使用点云配准算法，例如迭代最近点（ICP）算法的各种变体，来估计不同时刻位姿之间的变换。由于激光雷达传感器能够在各种环境条件下提供准确且远距离的深度测量，因此当前的基于激光雷达的里程计方法通常比基于视觉的方法更准确。然而，要实现稳健且高效的激光雷达里程计，仍面临多项研究挑战。

首要挑战在于开发适用于长时间任务的算法。例如，最先进的直接方法（注册整个点云而非特征）通过提出新颖的运动校正、关键帧和回环检测模块，在许多操作环境中实现了高精度。但是，使用密集点云（尽管经过轻微体素化滤波）会导致相对昂贵的配准（内存）成本，最终限制了长时间任务中的性能。另一种方法是基于特征的方法，其使用一系列手工设计的启发式方法来提取边缘和平面特征。与直接方法相比，基于特征的方法在计算上更为高效，但它们往往会丢弃有用信息，从而导致性能不够稳健。特别是，这些特征提取器没有明确考虑点云配准目标，并且仅基于点的坐标很难手工设计良好的特征提取启发式方法。例如，移动车辆上的边缘（瞬态）和建筑物的边缘（显著）对这些特征提取器而言看起来是相同的，因此仅依赖手工特征可能会丢弃有意义的语义上下文。

因此，另一个挑战是选择与SLAM或配准目标相关的点集子集。配准领域的一个有前景的近期方法是使用基于学习的关键点检测算法，这些算法可以在仅使用完整点云的一小部分的情况下找到精确的变换。与经典的基于特征的方法不同，无监督或弱监督学习方法可以探索更高维度的特征空间（例如，忽略瞬态对象），这是它们在复杂环境中具有韧性的关键。然而，为配准设计的现有关键点检测器并不适合用于SLAM。参考文献使用带有多个KPConv层的U-Net，这对于实时推理而言计算量过大，而实时算法通常会生成“超点”（集群内点的加权平均），这可能会降低相对远距离扫描之间的配准精度。不过，学习提取特征的另一个优势在于，这些表示和主干网络可以在SLAM系统的其他学习组件中重复使用（例如，回环检测和位置识别）。

3. 效果展示

DFLIOM生成的示例地图如图1所示。

4. 主要贡献

为此，本文提出了深度特征辅助的激光雷达惯性里程计与地图构建（DFLIOM），这是DLIOM的扩展，具有以下主要贡献：

• 设计了一个轻量级的学习特征提取器，该提取器选择对扫描到扫描和扫描到地图点云配准相关的点，从而在显著减少内存使用的情况下实现更好的定位精度；推荐课程：对于3D激光SLAM，LeGo-LOAM到底有多重要？

• 扩展了最先进的LIO系统（DLIOM），以利用所提出的特征提取器，并具备在复杂环境中回退到密集模式以维持稳健性能的能力；

• 演示了特征提取器优于手工设计特征提取器，所提出的SLAM系统在定位精度和内存使用方面均优于两个最先进的LIO系统（DLIO和DLIOM），并且能够在实时运行时实现这些优势，同时该方法还能泛化到新的本地收集的数据集上。

5. 方法

所提特征提取网络的架构。我们采用核点卷积（Kernel Point Convolution, KPConv）作为主干网络，用于从点云中提取更高维度的表征。受PointNet启发，我们使用共享多层感知器（Multilayer Perceptron, MLP）将点坐标映射到更高维度，作为位置嵌入。我们分别使用独立的共享MLP来预测显著性分数和独特性分数，并基于这些分数选择更重要的点。共享权重使得我们的网络足够轻量，能够进行实时推理。

特征提取后的示例点云。蓝色：选中的特征点。(a)：当仅选择最佳显著性特征时，会选中平行的墙壁，这些墙壁可能缺乏特征且与相邻扫描结果相似。(b)：当仅选择最佳独特性特征时，会选中机器人附近的详细特征，因此仅对局部尺度的扫描-扫描匹配有用。(c)：结合这两种特征，提取的点云特征丰富且覆盖良好。

6. 实验结果

7. 总结 & 未来工作

在本文中，我们提出了一种基于学习特征提取器的LIO（Lidar-Inertial Odometry，激光雷达-惯性里程计）系统DFLIOM，用于提取显著且独特的特征。与两种最先进的LIO系统DLIO和DLIOM相比，我们的方法在提升定位精度的同时，显著减少了内存使用，并且能够在20 Hz的激光雷达下实时运行。我们利用不同激光雷达采集的多个公共基准测试数据集以及校园内自主采集的数据集，验证了DFLIOM的性能。此外，我们还进行了消融研究，以展示所提特征提取器的有效性。未来的工作将探索在训练过程中融入配准（registration）的更多方法。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

「 3D视觉从入门到精通」知识星球

「3D视觉从入门到精通」知识星球 ，已沉淀6年，星球内资料包括：