0. 论文信息
标题:MCVO: A Generic Visual Odometry for Arbitrarily Arranged Multi-Cameras
作者:Huai Yu, Junhao Wang, Yao He, Wen Yang, Gui-Song Xia
机构:Wuhan University
原文链接:https://arxiv.org/abs/2412.03146
代码链接:https://github.com/JunhaoWang615/MCVO
1. 导读
使多摄像机视觉SLAM系统更容易建立并且对环境更鲁棒一直是视觉机器人关注的焦点之一。现有的单目和双目视觉SLAM系统具有窄的FoV,并且在无纹理环境中是脆弱的,具有退化的精度和有限的鲁棒性。因此,多相机SLAM系统正受到关注,因为它们可以为具有宽FoV的纹理退化提供冗余。然而,当前的多相机SLAM系统面临巨大的数据处理压力和精心设计的相机配置,导致任意排列的多相机系统的估计失败。针对这些问题,我们提出了一种适用于任意布置的多摄像机的通用视觉里程计,该方法可以实现度量尺度的状态估计,并且摄像机的布置具有高度的灵活性。具体来说,我们首先设计一个基于学习的特征提取和跟踪框架,以转移多个视频流的CPU处理压力。然后,我们使用相机之间的刚性约束来估计用于鲁棒SLAM系统初始化的度量尺度姿态。最后,我们在SLAM后端融合多摄像机的特征,实现鲁棒的姿态估计和在线尺度优化。此外,多摄像头功能有助于改善姿势图优化的循环检测。在KITTI-360和MultiCamData数据集上的实验验证了我们的方法对任意放置的摄像机的鲁棒性。与其他立体和多摄像机视觉SLAM系统相比,该方法具有更高的姿态估计精度和更好的泛化能力。
2. 引言
视觉同步定位与地图构建(vSLAM)是机器人技术和自主导航领域的一项基础技术,它使系统能够利用视觉传感器估计自身相对于环境的运动。传统的单目或立体SLAM系统往往需要严格的相机配置,并且严重依赖惯性测量单元(IMUs)来实现真实尺度的位姿估计和地图构建。然而,这些方法受到视野(FoV)狭窄的限制,在相机放置灵活性至关重要的环境中表现不佳,例如大多数配备6个不同相机的汽车。最近,多相机视觉SLAM在这些情况下展现了更强的鲁棒性,能够覆盖更多的周围视觉场景,为纹理较差的环境提供冗余信息。它为无人机在复杂环境中导航和配备周围多相机的自动驾驶等应用开辟了新的可能性。
然而,当前的多相机视觉SLAM系统在实际应用中仍面临挑战。一方面,相机数量的增加虽然提供了信息冗余,但不可避免地带来了数倍的数据处理压力。大多数现有方法采用传统的特征关联方法,如ORB,这导致CPU使用率急剧增加,且难以平衡后端非线性优化的资源,从而要求高性能CPU或无法实现实时性。另一方面,对于多相机视觉里程计(MCVO)系统来说,准确的尺度估计也颇具挑战性。现有方法大多通过多个双目设置或添加IMUs来估计尺度,这需要精心配置相机的视野重叠或相机与IMU传感器之间的外部校准,使得系统配置的灵活性和尺度估计的准确性之间难以平衡。因此,本文的主要目标是通过解决任意排列的多相机系统的特征关联计算压力和尺度估计问题,来实现鲁棒且通用的多相机视觉里程计。
推荐课程:
扩散模型入门教程:数学原理、方法与应用
。
为了应对这些挑战,我们提出了一种通用的多相机视觉里程计系统,即MCVO,它仅采用任意方向和位置上的多个刚性捆绑相机。我们首先从准确性和效率的角度分析了最先进的特征关联方法,并设计了一个基于学习的特征提取和跟踪框架,以转移多视频流CPU处理的计算压力。然后,我们使用结构从运动(SfM)方法,基于每个相机对齐位姿之间的刚性约束,初始化SLAM系统以获得真实尺度的机体位姿。在后端,我们融合多相机特征以实现鲁棒的位姿估计和尺度优化。多相机特征还进一步在词袋(BoW)模型中串联,用于闭环检测。通过在KITTI-360和MultiCamData数据集上进行严格测试和实际应用,我们旨在展示我们的系统在提高跨不同领域自主体的能力方面的有效性,同时提供前所未有的灵活性和通用性。所提出系统的亮点包括:(i)它仅要求外部参数,即可使用任意方向放置的多个相机。(ii)通过消除对IMU的依赖,并提供处理任意配置相机的灵活性,它仅专注于视觉信息,无论相机是否重叠,从而实现真实尺度估计和在线优化,进而提高准确性和鲁棒性。(iii)此外,它能够容纳多种相机类型,包括但不限于鱼眼相机和标准针孔相机,使其适用于广泛的应用范围。
3. 效果展示
提议的MCVO系统示意图。在KITTI-360数据集上使用两个鱼眼和一个针孔摄像头进行状态估计的示例。与使用前置立体摄像机的ORBSLAM3相比,所提出的MCVO获得了更好的性能。
4. 主要贡献
主要贡献如下:
• 我们为任意排列的多相机提出了一个通用的视觉SLAM系统框架,并设计了前端多相机特征检测和匹配、系统初始化、后端优化和闭环的新颖方案。
• 我们综合考虑了现有的最优特征关联方法,并设计了基于SuperPoint的提取器和LK跟踪前端,转移了CPU的计算压力,提高了特征匹配的稳定性,最终为多目SLAM的稳定性和效率提供了保障。
• 我们提出了一种基于多相机轨迹一致性的SLAM尺度估计策略,该策略兼容不同的相机模型,无论相机视野是否重叠,都表现出强大的泛化能力和稳定性。
5. 方法
我们提出的通用多相机视觉里程计框架如图2所示。框架的主要输入是同步的多相机视频序列。多个相机预先刚性捆绑并校准,具有已知的内部和外部参数。输出是真实环境中具有度量尺度的6自由度(6-DoF)机器人位姿。该流程包括四个组件:前端特征提取、位姿和度量尺度初始化、后端优化和闭环。为了加速多相机特征关联的前端,我们采用了具有GPU加速的特征提取和3优先级特征选择。然后,我们使用多相机位姿和外部参数初始化具有度量尺度的机体位姿的多相机系统。为了确保运动尺度的真实性,我们在后端优化期间对尺度偏差进行了自适应相关处理。鉴于多相机系统具有更大的视野,我们设计了一种更鲁棒的多相机全方位闭环检测算法。我们还使用位姿图约束进一步优化了闭环中的机体位姿。
6. 实验结果
ATE的量化结果如表I和图5所示。与立体ORB-SLAM3和VINS-Fusion相比,MCVO在KITTI360的大多数序列上实现了显著更低的旋转误差和具有竞争力的平移误差,这主要得益于多相机设置提供的宽广视场(Field of View, FoV)以及前端的高精度和鲁棒性。较小的尺度误差进一步证明了我们的尺度估计策略的有效性。MultiCamSLAM方法无法完成KITTI360上的大多数序列。这个问题之所以出现,是因为KITTI360数据集是在高速行驶过程中采集的,导致帧间位移较大。MultiCamSLAM在处理显著的帧间位移时表现不佳,阻碍了三角测量和初始化。与MCVO在ORB特征上的比较进一步显示了我们的前端设计的鲁棒性。此外,MCVO在MultiCamData上表现出强劲的性能和鲁棒性。它在精度上优于VINS-Fusion,与ORB-SLAM3相比仅略有不足。这种精度上的轻微降低主要是由于室内走廊中存在大量白色墙壁,这些白色墙壁会引入噪声,从而影响多相机视觉里程计(Visual Odometry, VO)。与同样采用非重叠相机设置的MultiCamSLAM相比,MCVO在不同序列上实现了更高的精度和更好的泛化能力。
图6展示了KITTI360数据集第00序列上不同方法的相对位姿误差(Relative Pose Error, RPE)结果。MCVO的位姿漂移最小,显著优于其他方法。这一改进在很大程度上归功于多相机设置中场景的广泛覆盖以及鲁棒高效的前端。扩展的视场为状态估计提供了更强的约束,从而提高了位姿估计的准确性。此外,鲁棒的前端确保了即使在低质量场景中也能进行准确的特征跟踪。这些结果验证了MCVO在状态估计方面的有效性。
为了进一步定性分析性能,我们在图7中绘制了KITTI360数据集第00和05序列上不同方法的轨迹。ORB-SLAM3和VINS-Fusion在第00序列上表现出较大的旋转误差。相比之下,MCVO在这种情况下展示了更高的稳定性和准确性。此外,我们方法的整体轨迹更加平滑,位置估计更加稳定。
7. 总结 & 未来工作
本文提出了一种通用的多相机视觉里程计系统,该系统在相机设置上具有高度的灵活性,可以支持不同类型的相机,无论视场是否重叠。多相机的任意排列不仅提高了SLAM系统的灵活性,还实现了仅使用相机进行鲁棒的、真实尺度的位姿估计。设计的学习型特征关联前端利用GPU有效缓解了CPU在多相机数据处理方面的计算压力,并提高了特征匹配的稳定性。在实验过程中,多相机特征在尺度初始化、后端优化和回环检测方面的系统功能得到了充分验证。与最先进方法的比较进一步证明了MCVO在状态估计方面的有效性和鲁棒性。未来的工作将侧重于将MCVO部署到更多平台上。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球