0. 这篇文章干了啥?
几十年来,深度估计一直是计算机视觉领域的一个基本要素,在自动驾驶、虚拟现实、机器人技术和场景重建等领域有着广泛的应用。虽然多视图几何的原理早已为人所知,但深度学习的兴起使得单视图深度预测成为可能。
大多数用于单目深度估计的自监督方法都使用光度损失来评估连续视频帧之间的视图合成,这与传统的监督学习不同,后者依赖于从激光雷达等昂贵传感器获取的显著真实深度数据。自监督方法因其成本效益而备受关注,因为它们消除了对真实数据的需求。因此,由于可用视频数据的丰富性,它们可以在更大的数据集上进行训练,从而提高了泛化能力,如先前研究所示,与监督方法相比具有优势。
然而,在自监督方法中,基线宽度的重要性尚未得到与多基线立体视觉领域相同程度的探索。在多基线立体视觉中,存在一个一致的趋势:较窄的基线会带来更容易的像素匹配问题,但会导致较差的深度估计。
尽管较宽的基线在准确性方面具有潜在优势,但当前的自监督单目深度(SSMD)方法,如Monodepth2(MD2),在其重建过程中使用了较窄的基线。MD2通过使用包含一个后续帧和一个先前连续帧的源图像来重建目标图像。此外,它还利用与目标图像相关的窄立体帧来辅助重建过程。尽管可以使用更大的单目基线,但Lokender等人的研究表明,在更大的时间窗口上使用更宽的基线会带来诸如亮度不一致和遮挡增加等挑战,从而使得使用更大的基线成为一个复杂的问题。
有人可能会考虑一种直接的方法:结合大基线和小基线,并根据最准确的图像重建来更新深度估计。然而,这种方法会显著偏向于小基线,因为那些图像中的深度不准确会导致较低的光度误差。
亮度-对比度线索在我们的方法中起着至关重要的作用,它们依赖于这样一个事实:离相机更近的物体往往看起来比远处的物体更亮。此外,虽然传统的基于图像的度量标准已被证明是有用的,但我们旨在通过也研究基于边缘的度量标准来加强更宽基线的案例,从而更准确地描述人类如何从二维图像中感知深度。此外,我们还分析了点云度量标准,以验证我们的深度估计在三维应用中的适用性。
在本文中,我们利用宽单目基线来实现最先进的(SotA)深度预测。我们提出的方法BaseBoostDepth在图像和基于边缘的度量标准上均优于MD2。特别地,我们的方法更强烈地依赖于从输入图像中提取的亮度-对比度线索。这些线索显著增强了我们的深度估计中的边界定义,而无需任何基于边缘的监督。据我们所知,我们是首个观察到亮度-对比度线索在自相似多尺度深度(SSMD)估计中的重要性的研究。
下面一起来阅读一下这项工作~
1. 论文信息
标题:BaseBoostDepth: Exploiting Larger Baselines For Self-supervised Monocular Depth Estimation
作者:Kieran Saunders, Luis J. Manso, George Vogiatzis
机构:Aston University、Loughborough University
原文链接:https://arxiv.org/pdf/2407.20437
代码链接:https://github.com/kieran514/baseboostdepth
官方主页:https://kieran514.github.io/BaseBoostDepth-Project/
2. 摘要
在多基线立体视觉领域,传统观念普遍认为,增加基线间距通常可以显著提升深度估计的准确性。然而,当前主流的自监督深度估计架构主要使用最小帧间距和受限的立体基线。虽然可以使用更大的帧间距,但我们研究表明,由于亮度变化显著和遮挡区域增加等各种因素,这会导致深度质量下降。为了应对这些挑战,我们提出的方法
BaseBoostDepth
采用了一种受课程学习启发的优化策略,以有效利用更大的帧间距。然而,我们证明仅采用受课程学习启发的策略并不足够,因为更大的基线仍然会导致位姿估计的漂移。因此,我们引入了增量位姿估计来增强位姿估计的准确性,从而在所有深度指标上实现了显著改善。此外,为了提高模型的鲁棒性,我们引入了误差诱导重建,该重建通过向位姿估计中添加误差来优化重建。最终,我们的最终深度网络在基于图像、边缘和点云的度量标准上,在KITTI和SYNS-patches数据集上均达到了最先进的性能,同时没有在测试时增加计算复杂度。
3. 效果展示
我们展示了相较于先前的技术水平,基于边缘的深度有了显著的提升。
4. 主要贡献
我们提出了以下四个主要贡献:
• 基于课程学习的优化策略——该策略涉及通过两个阶段(预热和增强)的训练,逐步实现从小基线到宽单目基线的过渡。
• 三重最小化——受多基线立体视觉的启发,我们通过从未来和过去帧的三元组中重建目标图像(中心帧)来最小化误差,从而有效利用来自不同基线的多个重建。
• 增量姿态估计——为了解决在大基线上姿态估计中的显著漂移问题(倾向于低估),我们引入了增量姿态估计。该技术涉及将姿态估计过程分解为较大间隔内的更小增量。
• 误差诱导重建——除了使用增量姿态估计外,我们还对姿态估计应用控制误差来优化重建。
为了系统地评估每个贡献,我们进行了详细的消融研究,并在KITTI和SYNS数据集上展示了SotA性能。
5. 基本原理是啥?
我们提出了BaseBoostDepth,它采用了一种受课程学习启发的优化策略,该策略分为预热和增强两个阶段。我们的方法能够准确估计深度,并明确界定物体边界。与以往方法不同,我们有效地利用了更宽的基线,并观察到了亮度-对比度线索的更大影响,从而实现了最先进的深度估计。我们的方法是深度骨干无关的,允许任何预训练或从头开始的深度网络得到增强,并实现增强的物体边界定义。整体框架的概述如图2所示。
6. 实验结果
在表2中,我们将之前的最佳技术水平(SotA)结果与BaseBoost-Depth的不同变体进行了比较。从头开始训练的版本取得了与MD2相当的性能。然而,当将增强阶段应用于预训练的深度网络时,我们观察到了显著的性能提升。我们的方法通过利用增强阶段的所有贡献,始终优于原始方法,并且BaseBoostDepth∗预先使用SQLdepth深度主干和预训练权重,为给定分辨率设定了新的最佳技术水平(SotA)基准。
为了真正展示使用大基线的好处,我们在表3中使用SYNS-patches数据集对我们的深度估计进行了评估,以便与其他最佳技术水平(SotA)模型进行比较。我们的分析表明,无论使用哪种深度主干,利用我们的增强阶段都能提高SYNS数据集上基于图像、边缘和点云的度量的性能。将使用预训练ImageNet权重训练的Monodepth2与BaseBoostDepth进行比较,我们保持了相似的基于图像的度量性能,但在基于边缘的度量上取得了显著改进,并在点云度量上表现出色,这证明了我们在三维空间中的准确性。
7. 总结 & 未来工作
我们的研究表明,通过利用更宽的基线,可以改进自监督单目深度估计,并提升图像、边缘和点云度量标准。传统上,在深度估计中避免使用更宽的基线,因为人们认为存在局限性,并且在使用最小聚合时忽略了更宽的基线。然而,通过实施我们受课程学习启发的策略,并仔细指导姿态估计,我们为基于边缘的深度改进带来了巨大的好处。我们的增强策略与深度主干网络无关,可以从预热阶段开始初始化,也可以使用预训练权重。此外,我们的改进在测试时不会增加任何计算成本。我们预计,我们的发现将推动未来更精细的细节自适应研究的发展。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
「
3D视觉从入门到精通
」
知识星球
「
3D视觉从入门到精通