专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
他化自在天  ·  2月第4周祝福语「二笑江湖」 & ... ·  23 小时前  
他化自在天  ·  《从艺术家,取长补短》(营销艺术入门1/la ... ·  2 天前  
廣告狂人  ·  “好炸鸡自有答案”,系列整活简直王炸! ·  3 天前  
销售与市场  ·  投入上千万,商超巨头扎堆拜师胖东来 ·  3 天前  
他化自在天  ·  《爆改产品整活用(阳谋级推广入门1/Last ... ·  3 天前  
51好读  ›  专栏  ›  3DCV

无惧光照变化!ORB-SfMLearner:ORB引导的VO突破里程计上限

3DCV  · 公众号  ·  · 2024-09-21 00:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:ORB-SfMLearner: ORB-Guided Self-supervised Visual Odometry with Selective Online Adaptation

作者:Yanlin Jin, Rui-Yang Ju, Haojun Liu, Yuzhong Zhong

机构:Rice University、National Taiwan University、Carnegie Mellon University、Sichuan University

原文链接:https://arxiv.org/abs/2409.11692

1. 引言

从单目视频中估计相机自我运动对于各种计算机视觉和机器人任务至关重要。特别是最近,关于3D表示的集中研究导致了对相机姿态估计的更高要求。传统方法在帧间寻找匹配项,并通过极线几何恢复相机变换,而基于学习的自监督方法则通常同时推断深度和自我运动,并随后通过光度重建误差建立自监督约束。近年来,基于学习的方法因其快速推断和从数据中学习高级特征的能力而得到了广泛研究。

然而,基于学习的视觉里程计(VO)仍面临几个挑战,这些挑战限制了其应用。首先,深度和自我运动预测的准确性仍不及传统方法。其次,由于神经网络的黑箱性质,决策过程不易理解,降低了对系统的信任度。最后,也是最重要的一点,基于学习的VO在面对未见过的测试场景时会出现显著的性能下降,因为通常存在较大的领域差异。即使在自动驾驶领域内,车辆速度和天气变化等因素也可能产生重大影响。我们甚至发现,模型在某些已见过的、但显示出一定领域差异的训练样本上的性能也很差,这表明其泛化能力和拟合能力有限。

为解决这些问题,已提出了几项工作。在更大的数据集上进行训练可能有助于减轻领域差异的影响并实现更高的准确性。Wang等人使用合成数据尝试进行大规模VO训练。然而,由于现实环境的复杂性,收集足够数量的数据具有挑战性,并且还需要显著更长的训练时间。当前基于学习的方法的自监督性质提供了另一种解决方案。一些近期工作关注在测试期间对预训练的VO模型进行在线微调。这种边测试边学习的方法证明非常有效。然而,在直接在整个测试集上进行训练无法产生满意结果的场景中,在线微调难以奏效。因此,仍需要更稳健的训练策略以使模型能够独立实现更好的性能。

本文展示了几个简单而有效的方法,以开发一个更具泛化性和可解释性的深度VO估计系统。我们注意到,由于光照和天气等因素,输入图像的风格可能会有所不同。因此,我们旨在引导网络的注意力集中在更稳定的特征上。受传统同时定位与地图构建(SLAM)方法ORB-SLAM的启发,我们将ORB特征增强集成到管道中。我们进一步通过在PoseNet中设计交叉注意力层来探索ORB特征的影响,结果提供了对ORB引导的令人信服的解释。在基于ORB引导的VO基础上,我们进一步提出了选择性在线适应以增强其泛化性。我们通过消融研究证明了所提方法的有效性,并且我们的评估结果优于之前的单目自监督最先进(SOTA)VO工作。

2. 摘要

尽管进行了广泛的研究,深度视觉里程计仍然面临着准确性和普遍性的限制,这阻止了它的更广泛应用。为了应对这些挑战,我们提出了一种定向快速旋转简报(ORB)引导的视觉里程计,并命名为ORB-SfMLearner。我们提出了一种新颖的使用ORB特征进行基于学习的自我运动估计的方法,从而得到更加鲁棒和准确的结果。我们还引入了交叉注意机制来增强PoseNet的可解释性,并揭示了车辆的行驶方向可以通过注意权重来解释,这是该领域的一个新的探索。为了提高泛化能力,我们的选择性在线自适应允许网络快速、选择性地调整到不同领域的最佳参数。在KITTI和vKITTI数据集上的实验结果表明,我们的方法在自我运动准确性和推广性方面优于现有的深度视觉里程计方法。

3. 效果展示

在KITTI里程计02、07、08和09上的定性结果。尽管三种比较方法采用了类似的自监督和网络设计,但我们的方法预测的全局轨迹与真实轨迹更为接近,且不会出现长距离预测轨迹漂移的问题。

4. 主要贡献

我们的贡献包括:

• 我们提出了一种有效且简单的ORB增强方法,用于自监督VO学习,提高了其准确性。我们的PoseNet从ORB特征中学习,并在KITTI数据集上实现了SOTA自我运动估计。这种简洁的增强方法显示出其在更广泛的视觉任务中的应用潜力。

• 为了增强网络学习过程的可解释性,我们直观地探索了ORB特征的影响。作为最早在PoseNet内部探索可解释性的工作之一,我们旨在为相关研究提供见解。 推荐课程: ORB-SLAM3理论讲解与代码精析(第2期)

• 我们对VO系统进行了优化,以提高其在训练和在线适应阶段的泛化性。我们的在线适应策略能够基于当前数据快速优化网络参数,并选择最佳参数以输出精细化的预测。

5. 方法

我们旨在构建一种视觉里程计(VO)流程,该流程利用更稳定的特征并自我适应以克服不同测试场景的变化。如图1所示,以单目视频中的连续两帧(It, It+1)作为输入,我们的流程首先通过提取ORB特征来增强图像数据。然后,我们将原始RGB数据和提取的ORB特征输入到两个单独的编码器中。我们应用交叉注意力机制来权衡编码后的ORB特征相对于RGB特征的重要性。之后,将融合后的特征输入到解码器中,以预测两帧之间的相对6D相机姿态。同时,我们的DepthNet每次从It和It+1中分别获取一张原始图像输入,并输出当前帧的视差估计。

6. 实验结果

7. 总结 & 未来工作

本文提出了一种结合自注意力优化(SOA)的ORB增强视觉里程计(ORB-augmented VO)。ORB特征引导网络的注意力集中在关键区域,利用原始数据中的更稳定特征来预测自我运动。因此,我们的模型在KITTI里程计数据集的所有轨迹上都展示了优越的姿态精度。此外,交叉注意力模块展示了ORB特征如何指导RGB特征的提取,提供了一定程度的可解释性。我们观察到,注意力权重较高的区域对应于车辆的转弯方向。此外,由于最优参数的自适应调整,我们的ORB-SfMLearner在不同领域下都能很好地工作。总体而言,ORB增强的引入提高了我们模型姿态估计的准确性和可解释性,而SOA则进一步增强了其泛化能力。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d008

3D视觉从入门到精通 知识星球

「3D视觉从入门到精通」知识星球 ,已沉淀6年,星球内资料包括: 秘制视频课程近20门







请到「今天看啥」查看全文