多视角深度估计在各种基准测试中已经取得了令人印象深刻的性能。然而,几乎所有当前的多视角系统都依赖于给定的理想相机姿态,这在许多现实世界场景中是无法获得的,例如自动驾驶。在这项工作中,我们提出了一个新的健壮性基准,用于评估在各种噪声姿态设置下的深度估计系统。
令人惊讶的是,我们发现当前的多视角深度估计方法或单视角与多视角融合方法在给定噪声姿态设置时会失败。为了应对这一挑战,我们提出了一种单视角和多视角融合的深度估计系统,该系统自适应地整合了高置信度的多视角和单视角结果,以实现健壮且准确的深度估计。自适应融合模块通过基于包裹置信度图动态选择两个分支之间的高置信度区域来执行融合。因此,当面对无纹理场景、不准确校准、动态对象以及其他降质或挑战性条件时,系统倾向于选择更可靠的分支。
我们的方法在健壮性测试中优于最先进的多视角和融合方法。此外,在给定准确姿态估计的情况下,我们在具有挑战性的基准测试(KITTI和DDAD)上取得了最先进的表现。
项目网站:https://github.com/Junda24/AFNet/
1 Introduction
从图像中估计深度是计算机视觉领域中一个长期存在的问题,并且具有广泛的应用。对于基于视觉的自动驾驶系统来说,感知深度是理解道路物体相关性以及建模三维环境地图不可或缺的模块。自从深度神经网络被应用于解决各种视觉问题以来,基于CNN的方法已经在各种深度基准测试中占据主导地位。
根据输入格式,它们主要分为多视图深度估计和单视图深度估计。多视图方法在给定正确深度、相机校准和相机姿态的假设下,估计深度,认为像素在视图间应该是相似的。它们依赖于极线几何来三角测量高质量的深度。然而,多视图方法的准确性和鲁棒性在很大程度上依赖于相机的几何配置以及视图间的对应匹配。
首先,需要相机有足够的平移来进行三角测量。在自动驾驶场景中,车辆可能会在交通灯前停下或原地掉头,这会导致三角测量失败。此外,多视图方法在自动驾驶场景中普遍存在的动态物体和无纹理区域上表现不佳。另一个问题是移动车辆上的SLAM姿态优化。在现有的SLAM方法中,噪声是不可避免的,更不用说具有挑战性和不可避免的情况了。
例如,一个机器人或自动驾驶汽车可能会在多年没有重新校准的情况下运行,导致姿态出现噪声。相比之下,单视图方法依赖于对场景的语义理解和平面投影线索,它们对无纹理区域、动态物体不敏感,且不依赖于相机姿态。然而,由于其性能受到尺度模糊的影响,仍然远不如多视图方法。在这里,我们倾向于思考是否可以将这两种方法的优势结合起来,以实现自动驾驶场景中鲁棒且准确的单目视频深度估计。
尽管在之前的工作中已经探索了基于融合的系统,但它们都假设理想的摄像机姿态。结果是,当给定姿态噪声时,融合系统的性能甚至比单视图深度估计还要差。为了解决这个问题,我们提出了一种新颖的自适应融合网络,以利用多视图和单视图方法的优点,并减轻它们的缺点,在保持高精度的同时,也提高了系统在噪声姿态下的鲁棒性。具体来说,我们提出了一个双分支网络,即一个针对单目深度线索,而另一个利用多视图几何。两个分支都预测一个深度图和一个置信度图。
为了补充在多视图分支的成本聚合中丢失的语义线索和边缘细节,我们首先在解码器部分融合单目特征。我们进一步设计了一个自适应融合(AF)模块来实现最终的合并深度。除了预测的置信度之外,我们还设计了一个包装置信度图,通过使用预测的深度和提供的摄像机姿态进行多视图纹理一致性检查。我们可以轻易地注意到当姿态或深度不准确,或者出现动态物体时,投影的不一致性。通过使用这种提出的置信度图进行逐像素融合,我们可以最终实现更加鲁棒的深度。
我们的贡献总结如下。
-
提出了AFNet,以自适应地融合单视图和多视图深度信息,从而实现更稳健和准确的深度估计。它在KITTI 和 DDAD 数据集上的性能均达到了最先进水平。
-
我们是首个提出多视角与单视角深度融合网络的研究者,旨在减轻现有多视角方法在噪声姿态下的失效问题。我们提出了一个新的鲁棒性测试基准,以探索在噪声姿态下多视角方法的有效性,以此来证明这一点。我们的方法在噪声姿态下优于所有其他经典多视角方法。
-
我们的AF模块可以提高动态对象区域的性能,这些区域无法通过经典的多视图深度估计方法得到很好的处理。
3 Method
Method Overview
我们旨在估计一个参考图像
的深度
,给定
个源图像
、相机内参和相机姿态。
图2概述了AFNet,它由三个部分组成,即
单视图深度模块
、
多视图深度模块
和
自适应融合模块
。此外,提出了一个
姿态校正模块
,以确保在大噪声姿态下的鲁棒性,具体细节可以在补充材料中找到。
Single-view and Multi-view Depth Module
在系统中,使用ConvNeXt-T作为骨干网络来提取4个尺度的特征
(
= 1, 2, 3, 4),其中
是图像的索引,
是尺度。提取的4尺度特征维度分别为
。
单视角分支。
遵循[43]的研究构建了一个多尺度解码器来融合骨干特征,并获得深度特征
。通过在通道维度上对
的前256个通道应用softmax,我们得到深度概率体积
。特征的最后一个通道作为单视角深度的置信度图
。最后,通过软加权求和计算单视角深度。
具体如下:
其中,
表示在以对数为基准的均匀空间中从
到
采样的箱(bins),这代表了深度搜索范围,
表示在
中相应的概率。
多视图分支。
多视图分支与单视图分支共享同一个基础网络,以提取参考图像和源图像的特征
。我们采用反卷积将低分辨率特征上采样至四分之一分辨率,并与初始四分之一特征
结合,用于构建代价体。通过按照[44]将源特征变换到参考相机的假设平面上,形成特征体。
为了在没有大量计算的情况下获得鲁棒匹配信息,我们保留了特征的光谱维度并构建了4D代价体,然后通过两个3D卷积层将通道数减少到1。深度假设的采样方法与单视图分支一致,但采样数量仅为128,即初始代价体
。
然后使用堆叠的2D沙漏网络进行正则化,以获得最终的多视图代价体
。为了补充单视图特征丰富的语义信息以及由于代价正则化而丢失的细节,我们使用残差结构将单视图深度特征
和代价体结合,获得融合深度特征
,如下所示:
在使用2D沙漏网络聚合
之后,后续操作与单视图分支完全相同。多视图分支的置信度图
和最终的深度预测
同样以回归方式获得。
Adaptive Fusion Module
为了获得最终准确且鲁棒性的预测,我们设计了自适应选择(AF)模块,如图2所示,在两个分支之间自适应地选择最准确的深度作为最终输出。我们通过三个置信度图进行融合,其中两个是由两个分支分别生成的置信度图
和