专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
半月谈  ·  免票!半价!哪吒粉丝福利来啦 ·  昨天  
半月谈  ·  规范词积累的底层逻辑与实战技巧 ·  3 天前  
51好读  ›  专栏  ›  3DCV

嵌入式平台也能实时的稠密SLAM!coVoxSLAM:定位精度SOTA,运行时间百倍加速!已开源!

3DCV  · 公众号  ·  · 2024-10-31 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:coVoxSLAM: GPU Accelerated Globally Consistent Dense SLAM

作者:Emiliano Höss, Pablo De Cristóforis

机构:University of Buenos Aires

原文链接:https://arxiv.org/abs/2410.21149

代码链接:https://github.com/lrse-uba/coVoxSLAM

1. 导读

密集SLAM系统对于移动机器人是必不可少的,因为它提供定位,并允许在非结构化环境中导航、路径规划、避障和决策。由于不断增长的计算需求,GPU在密集SLAM中的使用正在扩展。在这项工作中,我们提出了coVoxSLAM,一种新颖的GPU加速的体积SLAM系统,它充分利用GPU的并行处理能力,即使在大规模环境中也能构建全局一致的地图。它被部署在不同的平台(离散和嵌入式GPU)上,并与最先进的技术进行了比较。使用公共数据集获得的结果表明,coVoxSLAM在保持准确定位的同时,在执行时间方面实现了显著的性能提升。

2. 引言

为了实现在未知环境中自主导航和交互的目标,移动机器人需要构建所观测世界的地图。由于机器人在移动过程中逐步估计其运动,这会导致姿态估计出现无界误差以及地图不一致。因此,在需要回环检测的SLAM(Simultaneous Localization and Mapping,即同时定位与地图构建)中,保持全局一致的地图是一项关键功能,因为它允许系统识别先前访问过的位置,并减少机器人轨迹和生成地图的累积误差。

一些著名的SLAM系统将原始传感器数据转换为用于地图构建的特征,已证明能够实时创建全局一致的地图。即便如此,由于从稀疏地图中提取表面形状和连通性的困难,这些基于特征的地图在定位以外的任务中使用受限。另一方面,密集地图不仅适用于姿态估计,还适用于路径规划、避障和自主导航。早期的密集SLAM系统基于光度束调整开发,而当前大多数系统使用深度学习。然而,这些系统仍计算密集,难以在大规模场景中实时运行。

以符号距离场(Signed Distance Fields,SDFs)表示的隐式曲面,已被KinectFusion证明是密集映射的有效表示。它使用截断符号距离场(Truncated Signed Distance Field,TSDF)作为体积表示,并使用快速迭代最近点(Fast Iterative Closest Point,ICP)进行姿态估计,以提供场景的实时融合密集模型。然而,它在无界扩展区域中存在局限性,并且在3D几何形状较差的环境中会出现跟踪失败。

使用SDFs生成全局一致地图的成本很高,因为随着数据量的增加,地图的全局优化迅速变得难以处理。解决此问题的一种替代方法是将重建的环境表示为子地图的集合。这种方法的优点是,在新的传感数据融合时,传感器姿态仅需要与当前子地图进行配准。Voxgraph通过提出使用基于欧几里得符号距离场(Euclidean Signed Distance Field,ESDF)的无对应点对齐来扩展了这一思想,ESDF表示一个体素网格,其中每个点都包含其到最近障碍物的欧几里得距离。Voxgraph使用Voxblox直接从TSDFs中增量构建ESDF,并利用截断半径内已经包含的距离信息。另一个增量构建全局ESDF地图的系统是FIESTA,它提出了一种精心设计的数据结构和一种新颖的ESDF更新算法。

3. 效果展示

微型飞行器在400米的搜索和救援训练场地飞行后的重建。四。在前景中,可以看到一大堆倒塌建筑的瓦砾。轨迹(绿色)还包含穿过建筑物的室内-室外转换。

4. 主要贡献

我们提出了一种新的GPU加速全局一致密集SLAM系统,称为coVoxSLAM,该系统在执行时间方面优于现有技术,同时不牺牲准确性。新系统甚至可以在嵌入式设备(如可安装在小型移动机器人上的设备)上实现实时运行。

5. 方法

coVoxSLAM的架构如图2所示。该系统由前端和后端组成。前端负责将传入的传感器数据整合到TSDF体积中,以包含或更新构建TSDF地图的体素,并将从TSDF传播到ESDF子地图的更新体素。创建的体素被分组到固定大小的块中,这些块又使用适当设计的哈希表进行索引。后端负责通过最小化三种姿态图约束(里程计、回环检测和子地图配准)的总误差,来估计最可能的子地图集合对齐。我们将在下文详细讨论这些组件。

6. 实验结果

在本节中,我们使用两个独特的数据集来验证我们的主张:四个在与Voxgraph一同提出的公共领域中使用的室外大规模数据集,以及nvBlox、Replica和Redwood中使用的两个室内合成房间规模数据集。前四个数据集对应于由搭载Ouster OS1 LiDAR的微型飞行器(MAV)六旋翼无人机执行的飞行任务,每个任务围绕一个为救援人员培训设计的灾区,轨迹长约400米。地面真实数据由RTK-GNSS系统生成。

进行实验的处理单元包括一台标准台式电脑(配备AMD Ryzen 9 5950x处理器和Nvidia GeForce RTX 2060 GPU)以及Nvidia Jetson Xavier AGX开发板。

1)TSDF时间:我们首先将coVoxSLAM与Voxblox的TSDF和Color的TSDF集成模块进行比较。图4a显示了几个点云的加速情况。Flight 1至4是四个大规模地图,它们显示了30倍至140倍的加速,平均加速为100倍。最后两个数据集Replica和Redwood是小型室内数据集,它们平均加速50倍。与nvBlox相比,这分别提高了2倍和1.5倍,而nvBlox针对最后两个数据集报告了对Voxblox的38倍和25倍的加速。这证明使用光线投射来集成TSDF优于nvBlox中使用的投影映射。这是考虑TSDF + Color集成的情况。最后,图4b显示了当增加体素数量时,该方法的扩展情况。我们的目标是展示当体素数量增加时,光线投射方法几乎呈线性扩展。

2)ESDF时间:我们针对ESDF集成模块,将coVoxSLAM与Voxgraph进行比较。图5显示了四个数据集中集成的几个点云的加速情况。它显示了10倍至50倍的增量加速。

3)后端时间:我们计算coVoxSLAM与Voxgraph的比较结果,Voxgraph在CPU上使用Ceres来计算位姿图优化过程。图6显示了四个数据集中多次执行的coVoxSLAM与Voxgraph实现的加速情况。它显示了2倍至14倍的增量加速。

4)哈希表压力测试:我们使用一个合成数据集来单独对哈希表进行压力测试。我们的目标是证明其在不同加载因子下的鲁棒性。如图7所示,当加载因子低于85%时,它工作得无缝衔接。这远远超出了我们的需求,因为在操作模式下,加载因子从未超过50%。该测试在哈希表中执行了5000万次插入操作,每次插入的稳定时间为十毫秒。

5)RMSE:RMSE误差是根据机器人的轨迹和室外大规模数据集的地面真实数据计算得出的。表I显示了Voxgraph和在PC上运行的coVoxSLAM的类似误差。它还显示了系统在嵌入式设备(如Jetson Xavier AGX)上运行的准确性。

7. 总结 & 未来工作

在本文中,我们提出了一种新颖的GPU加速系统coVoxSLAM,用于实时构建全局一致的体积地图。前端和后端都设计为完全在GPU上运行,以最大化效率并避免CPU和GPU之间不必要的数据传输冲突。我们的系统实现了位姿图优化算法,以解决GPU上的后端最小二乘问题,结果表明,该系统在保持相同准确性的同时,提高了运行时间。该系统针对离散和嵌入式GPU进行了优化。我们提供的实验表明,coVoxSLAM比其他最先进的方法(如最近发布的nvBlox库)更快,实现了1.5倍至2倍的加速。我们的光线投射合并算法优于当前的投影映射替代方案,同时为TSDF集成器采用更好的加权技术选项提供了便利。我们已将系统的源代码发布在GitHub上,并附有示例和说明,以方便社区使用并确保所示实验的可重复性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d008

3D视觉从入门到精通 知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文