经典的基于几何的VO在有利条件下表现良好,但在光照变化、运动模糊和传感器噪声等挑战性情况下表现不佳。为了应对这些挑战,提出了端到端的基于深度学习的技术,但在与训练数据不同的条件下测试时性能下降。为了解决各种技术存在的限制,引入了一种新的混合VO框架。该框架利用网络来确定点对应关系,同时保留几何优化来确定姿态。广义上讲,有两种类型的混合方法:密集方法,为每个像素识别对应关系,和稀疏方法,仅为选定数量的像素确定对应关系以增强效率。与之相反,许多当前的方法要么采用密集监督技术,需要大量标签,要么采用无监督技术,无法保证一致的结果。监督技术需要精确的光流(或深度)和相机位置。然而,在许多真实世界的数据集中获得准确的光流是非常困难的。另一方面,无监督技术不需要注释,但在很大程度上依赖于光度一致性和图像清晰度的假设。此外,根据这些假设开发的模型容易受到运动模糊和光照变化等挑战的影响。仅姿态监督出现为稀疏混合方法中平衡模型准确性、在复杂场景中的鲁棒性和标注成本的可行策略,部分原因是姿态真值可以通过各种方法在真实世界中轻松获得。然而,仅依靠姿态监督实现良好性能也存在挑战。缺乏地面真值像素级对应关系使得光流监督复杂化,导致流估计中的歧义。此外,采用随机跟踪参考选择的稀疏混合VO方法简化了该过程,但在跟踪中创建了另一层歧义。这些层次的歧义在各种常见场景中都是有问题的,并且在条件如过度曝光或光照变化显著时降低了鲁棒性。
这篇文章,
两种极其简单的设计可以消除对密集光流标签的依赖,并提高在新环境中的泛化能力,从而产生仅姿态监督的模型
。首先,作者发现自监督的单应性预训练阶段可以显著改善网络从姿态标签学习光流的能力,提供方向指导。其次,作者发现将光流补丁提取策略从随机选择改为显著选择可以导致更稳健的姿态估计。实验中展示了这两种简化技术在已建立的基准上实现了可比较的性能,并显著增强了泛化能力,在真实世界的测试中超越了最先进的方法。
下面一起来阅读一下这项工作~
标题:Salient Sparse Visual Odometry With Pose-Only Supervision
作者:Siyu Chen, Kangcheng Liu, Chen Wang, Shenghai Yuan, Jianfei Yang, Lihua Xie
机构:南洋理工大学、纽约州立大学布法罗分校
原文链接:https://arxiv.org/abs/2404.04677
视觉里程计(VO)对于自主系统的导航至关重要,以合理的成本提供准确的位置和方向估计。尽管传统的VO方法在某些条件下表现出色,但它们在面对诸如光照变化和运动模糊等挑战时表现不佳。基于深度学习的VO虽然更具适应性,但在新环境中可能会面临泛化问题。为了解决这些缺点,本文提出了一种新颖的混合视觉里程计(VO)框架,利用仅姿态监督,提供了鲁棒性和广泛标记需求之间的平衡解决方案。我们提出了两种成本效益和创新设计:自监督的单应性预训练,用于从仅姿态标签中增强光流学习;以及基于随机补丁的显著点检测策略,用于更准确地提取光流补丁。这些设计消除了训练过程中对密集光流标签的需求,并显著提高了系统在各种复杂环境中的泛化能力。我们的仅姿态监督方法在标准数据集上实现了竞争性能,并在极端和未知情景中具有更强的鲁棒性和泛化能力,甚至与基于密集光流监督的最新方法相比。
在一个具有显著光照变化的会议室中,比较不同方法的泛化能力
。近似轨迹涉及在两个循环中以几乎相同的路径绕桌子行走,并且初始路径和结束路径大致对齐。由于缺乏真实的序列,通过在四幅图像中呈现轨迹,并根据初始和最终阶段轨迹的重叠程度来评估性能。
(1)是第一个研究基于稀疏光流的混合视觉里程计,并仅使用姿态监督。作者揭示了一种开创性的自监督单应性预训练方法,用于光流。该方法使网络能够改进其光流估计能力,并从仅一个图像中加强特征表示,这对后续仅依赖姿态监督的稀疏光流视觉里程计任务是有利的。
(2)在提出的系统中引入了显著点检测模块和显著补丁细化步骤。显著点检测模块识别出具有显著图像特征的点,努力保留有价值的补丁,同时丢弃不必要的补丁,显著补丁细化训练步骤增强了网络与显著补丁的协作,从而提高了准确性和可靠性,特别是在单调环境中。
(3)大量实验表明,仅姿态监督方法在一个公共数据集上实现了竞争性结果,在三个公共不同数据集上取得了更好的结果,并且在极端和未见场景中比具有密集光流监督的最先进方法具有更大的鲁棒性和泛化能力。
方法概述。
采用CNN从显著补丁提取模块中提取特征和补丁。这些补丁通过使用估计的姿态和深度重新投影到相邻帧,并且计算重新投影位置的邻域特征的相关性映射。相关性映射以及补丁上下文信息与流估计网络一起被馈送,以获取光流和置信度权重。然后,加权的束调整层被应用以获取姿态和补丁深度。这个序列------重投影、相关性映射计算、流估计和束调整------被迭代N次以获取最终的姿态和深度。
自监督训练过程的示意图。
绿色三角形和圆圈分别表示显著补丁和随机选择的补丁。黄色正方形表示估计的流量。相应的点通过同胚适应获得,作为流量训练和特征训练的基础真值。
随机选择补丁的比较。
绿色方块表示所选补丁。第一行显示了DPVO的随机补丁选择策略,第二行显示了这篇文章的显著补丁选择策略。与随机选择策略相比,该方法可以提供更有意义甚至更多的补丁。
在TartanAir的训练和测试集上的准确性。如表I所示,该方法与经典方法ORB-SLAM3、DSO和COLMAP进行了比较。还提供了基于深度学习的方法,如DROID-VO和DPVO。DPVO的结果报告为所有实验的5次运行的平均结果,并使用默认配置。该方法可以实现16个序列中的9个超越先前的方法,并与最佳分数相比具有可比的平均结果。
表II、表III显示了该方法与现有方法ORB-SLAM3、DSO、TartanVO、DROID-VO和DPVO在TUM、EuRoC上的结果。作者将图像调整为320 × 240,并像DROID-SLAM和DPVO一样跳过每一帧。由于图像被降采样,因此NMS半径选为1。经典方法在具有大运动的序列中失败,而基于深度学习的方法可以处理。
照明测试
。评估该方法对比SOTA方法的鲁棒性,使用OIVIO数据集,在黑暗环境中使用机载照明进行拍摄。传统方法,特别是直接方法在光照变化下表现不佳。该方法在平均ATE上相比最佳先前结果有13.6%的改进。
这篇文章介绍了一种不需要标记的光流数据的稀疏混合视觉里程计方法。作者利用同态自监督预训练来教导流估计网络运动信息,有利于像仅姿态监督的视觉里程计这样的下游任务训练。为了增加在真实场景中的鲁棒性和准确性,作者引入了显著补丁选择和细化模块。在四个公开数据集和一个实时演示中,展示了强大的泛化能力、鲁棒性和准确性。所提方法的一个局限性是在具有极高数量动态对象的情况下,其鲁棒性较弱,这可以在未来的工作中进一步改进。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉精品课程:
3dcver.com
3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。
▲长按扫码学习3D视觉精品课程
3D视觉学习圈子
3D视觉从入门到精通知识星球
、国内成立最早、6000+成员交流学习。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。