专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
中国航务周刊  ·  【年报】国际原油海运市场2025年展望 ·  3 天前  
中国航务周刊  ·  【年报】中国对外贸易2024年回顾与2025年展望 ·  3 天前  
天津日报  ·  一轮船突发爆炸!船上载有13万吨燃油 ·  2 天前  
天津日报  ·  一轮船突发爆炸!船上载有13万吨燃油 ·  2 天前  
中国航务周刊  ·  【展商推介】上华国际,邀您莅临“2025国际 ... ·  4 天前  
中国航务周刊  ·  【货主论坛】“2025跨境冷链与国际贸易协同 ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

超越VINS-Fusion!最强视觉惯性框架SuperVINS即将开源!

计算机视觉工坊  · 公众号  ·  · 2024-09-03 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

SLAM(即时定位与地图构建)技术已成为机器人自主智能导航领域的关键焦点。它不仅能够使机器人准确确定自身位置,还能持续感知周围环境。目前,研究人员正积极探索将视觉传感器与惯性测量单元有效结合的方法。该融合过程遵循一个清晰的总体架构,包括传感器数据输入、视觉前端特征提取、输入数据跟踪、后端姿态估计与优化以及回环检测。

经过多年的广泛研究,视觉惯性SLAM领域涌现出众多开创性工作。这些工作不仅被后续研究人员不断研究和完善,还产生了重大影响。其中一些显著例子包括VINS-mono、VINS-Fusion、ORBSLAM3、OpenVINS等。尽管这些算法被视为经典佳作,但它们确实存在一定的局限性,特别是在快速移动环境、弱纹理环境以及光照不足的环境中表现不佳。因此,越来越多的研究人员正致力于开发能够在极端环境中表现出色的高精度、高鲁棒性SLAM系统。

低级几何特征不足以处理复杂环境。先进的深度学习方案可以通过学习和利用场景数据中的隐式特征信息来弥补这一局限。与固定的算法模型不同,深度学习模型不需要明确表达这些信息。在SLAM领域,已有一些将深度学习算法结合起来的工作,这些工作可以分为三类。第一类是将深度学习特征应用于视觉里程计,如SuperPoint SLAM[5]所示。该解决方案侧重于创建无需传感器融合或回环检测优化的视觉里程计。第二类采用端到端的方法,如DeepVO[6],用于视觉里程计。然而,这种方法在解释其原理和实现满意的姿态估计与建图效果方面面临挑战。第三类是将当前的三维重建技术与深度学习相结合。研究人员将显式或隐式的三维表示方法集成到姿态优化中,以感知环境,例如高斯溅射SLAM(MonoGS)[7]。这种将场景表达融入姿态估计的方法已引起广泛关注。然而,它需要大量的计算能力,并且实时性能不佳。因此,有必要不断探索更有效地、更合理地利用深度学习特征的SLAM框架,同时提供可解释性和实时性能。

为了解决这些问题,本文提出了一种融合深度学习技术的视觉惯性SLAM系统。该系统在VINS-Fusion框架的基础上,利用深度学习特征点和描述符进行SLAM的前端处理和回环检测阶段。与传统几何特征不同,深度学习特征能够更全面、可靠地提取图像特征,使其在复杂环境中特别有效。此外,使用深度学习特征描述符提高了回环检测的准确性,使本文的系统能够更精确地选择回环帧。在SLAM系统的前端特征匹配中,本文采用了LightGlue作为轻量级特征匹配网络。与依赖汉明距离计算的传统二进制描述符相比,LightGlue在捕捉特征点相似性方面表现更好。该方法在实时性能和准确性之间取得了平衡,很好地满足了SLAM特征匹配的要求。为了将LightGlue集成到系统中,本文将特征匹配方法转换为ONNX模型,并使用onnxruntime进行模型部署。在回环检测方面,本文利用DBoW3视觉词袋模型训练基于深度学习特征的SuperPoint词袋,使SLAM系统能够使用SuperPoint[9]词袋进行实时、准确的位置识别。

下面一起来阅读一下这项工作~

1. 论文信息

标题:SuperVINS: A visual-inertial SLAM framework integrated deep learning features

作者:Hongkun Luo, Chi Guo, Yang Liu, Zengke Li

机构:武汉大学

原文链接:https://arxiv.org/abs/2407.21348v1

代码链接:https://github.com/luohongk/SuperVINS

2. 摘要

在本文中,我们提出了通过结合深度学习特征和深度学习匹配方法来增强VINS-Fusion的方法。我们实现了深度学习词袋特征的训练,并利用这些特征进行回环检测。此外,我们在深度学习特征匹配模块中引入了RANSAC算法以优化匹配。SuperVINS是VINS-Fusion的改进版本,在定位精度、鲁棒性等方面表现更优。特别是在低光照和快速抖动等挑战性场景中,传统几何特征无法充分利用图像信息,而深度学习特征则擅长捕获图像特征。为了验证我们提出的改进方案,我们使用开源数据集进行了实验。我们从定性和定量两个角度对实验结果进行了全面分析。结果表明,该基于深度学习的SLAM系统方法是可行且有效的。为了促进该领域的知识交流,我们将本文的代码公开。您可以在以下链接找到代码:https://github.com/luohongk/SuperVINS。

3. 效果展示

图1展示了经典几何特征与应用于SLAM的深度学习特征之间的比较。在黑暗环境中,显然只能提取到有限数量的几何特征,导致地图点稀疏。这是因为传统方法依赖于低级几何特征,在处理复杂环境时存在固有局限性。

4. 主要贡献

本文的贡献可以概括如下:

本文在VINS-Fusion框架的基础上进行了改进。前端部分用深度学习特征点和描述符替换了原有的几何特征和LK光流跟踪算法。同时,也采用了深度学习特征匹配方法进行特征匹配。

为了应对极具挑战性的场景,本文将深度学习特征应用于整个SLAM系统。将深度学习特征集成到VINS-Fusion的每个ROS节点中,通过主题发布有效结合了SLAM前端和回环检测。此外,还使用深度学习特征进行词袋回环检测。

本文分别为SuperPoint[9]单独训练了词袋模型,并训练了一个适用于Euroc、TUM和KITTI数据集的深度学习词袋模型。这为后续研究人员实现回环检测解决方案提供了可行的思路。

本文使用公共数据集进行了实验,验证了改进算法的有效性。同时,还开源了一个实时深度学习视觉惯性SLAM代码。开源仓库的地址为:https://github.com/luohongk/SuperVINS。这将有效促进SLAM研究人员之间的技术交流。

5. 基本原理是啥?

本文提出的SuperVINS框架基于著名的视觉惯性SLAM框架VINS-Fusion。SuperVINS遵循与VINS-Fusion相同的架构设计,但在此基础上进行了优化和改进。具体的算法流程图如图3所示。算法的主要组成部分包括前端深度学习特征提取与跟踪、后端位置优化以及深度学习闭环检测。深度学习特征提取有多种方案可供选择,本文可作为灵活替换深度学习方法的参考。此外,本文还使用DboW3的开源代码,以SuperPoint结合XFeat[18]特征为例,展示了词袋模型的训练过程。

首先,将相机数据和IMU数据输入系统。系统利用SuperPoint和LightGlue对连续两帧图像的特征进行匹配,并进行预积分。在匹配过程中,采用RANSAC算法对LightGlue的特征匹配结果进行优化。完成前端优化后,特征同时被发送到负责闭环检测的节点。SuperVINS构建关键帧,这些关键帧随后用于位置估计和优化。位置计算完成后,系统将关键帧的特征、位置和点云地图传输到闭环检测节点。闭环检测节点利用DboW3进行特征检索,并进行位图优化。该系统利用深度学习特征提取足够数量的特征点,并改进特征匹配。相比传统的几何特征,在整个SLAM系统中使用带匹配优化的深度学习特征显著解决了极端场景下遇到的各种挑战。

6. 实验结果

在本节中,我们比较了OKVIS、VINS-Mono-Noloop、VINS-Mono-loop、VINS-Fusion-Noloop、VINS-Fusion-loop和SuperVINS等框架。根据表II提供的信息,我们可以看出SuperVINS在MH01、MH05、V102、V201、V202和V203等序列上表现更好。然而,在某些序列上它可能稍逊一筹。一方面,VINS-Mono和VINS-Fusion都针对正常环境进行了很好的优化,并能够有效处理这些环境。另一方面,本实验的有效性也受到了用于词袋训练的数据集的影响。虽然SuperVINS并未在所有序列上都有所提升,但其改进策略仍具有一定价值。

7. 总结 & 未来工作

在本文中,我们介绍了SuperVINS,一个在其前端和回环检测中都利用深度学习的SLAM系统。SuperVINS是对VINS-Fusion系统的增强,我们在其中集成了SuperPoint和LightGlue。我们已经在工程环境中成功实现了SuperVINS。为了训练词袋模型,我们分别为数据集进行了训练,并实现了DBoW3词袋模型的灵活训练。我们使用EuRoC数据进行了全文实验,并从定性和定量角度对原始算法和改进后的算法进行了分析。我们还对两者进行了详细比较。结果表明,SuperVINS在各种极端场景下实现了更高的定位精度和更强的鲁棒性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d008

3D视觉知识星球

3D视觉从入门到精通 」知识星球,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接







请到「今天看啥」查看全文