0. 论文信息
标题:Stereo Anything: Unifying Stereo Matching with Large-Scale Mixed Data
作者:Xianda Guo, Chenming Zhang, Youmin Zhang, Dujun Nie, Ruilin Wang, Wenzhao Zheng, Matteo Poggi, Long Chen
机构:Wuhan University、Xi’an Jiaotong University、Waytous、University of Bologna、Rock Universe、Chinese Academy of Sciences、University of California
原文链接:https://arxiv.org/abs/2411.14053
代码链接:https://github.com/XiandaGuo/OpenStereo
1. 导读
立体匹配一直是三维视觉中的一个关键组成部分,旨在找到双目图像对之间的匹配点以恢复深度信息。在这项工作中,我们介绍了StereoAnything,一个非常实用的鲁棒立体匹配解决方案。我们的目标不是专注于一个专门的模型,而是开发一个通用的基础模型,能够处理不同环境中的双目图像。为此,我们通过收集标记的双目图像并从未标记的单目图像生成合成双目对来扩大数据集。为了进一步丰富模型在不同条件下的概括能力,我们引入了一个新的合成数据集,通过添加基线、摄像机角度和场景类型的可变性来补充现有数据。我们在五个公共数据集上广泛评估了我们的模型的零射击能力,展示了它对新的、看不见的数据进行归纳的令人印象深刻的能力。
2. 引言
计算机视觉领域目前正在经历一场革命,这得益于物体识别、图像分割和单目深度估计等基础模型的发展,这些模型在各种下游任务中展现出强大的零样本学习和少样本学习能力。
立体匹配是实现深度感知和观测场景三维重建的基础,在机器人技术、自动驾驶和增强现实等应用中发挥着关键作用。然而,由于获取准确的视差真实值(GT)数据极为困难,立体匹配中基础模型的探索仍然有限。尽管已经发布了众多立体数据集,但充分利用这些数据集进行训练颇具挑战。此外,即使将这些已标注的数据集结合起来,也不足以训练出一个理想的基础模型。
“从单目到立体”(Stereo-from-mono)是一项开创性研究,旨在直接从单目图像生成立体图像对和视差图,以克服这些挑战。然而,该方法仅创建了50万个数据样本,考虑到训练稳健的基础模型所需的规模,这一数量相对有限。尽管这一努力在减少对昂贵立体数据收集的依赖方面迈出了重要一步,但所生成的数据集仍不足以构建能够很好地泛化到各种真实世界条件的大规模模型。
在本研究中,我们介绍了StereoAnything,这是一个用于立体匹配的基础模型,旨在为任何一对经过校正的立体图像提供高质量的视差估计,无论场景复杂性或环境条件如何。我们的主要焦点是创建一种高度泛化和可扩展的解决方案,能够处理各种场景。为了实现这一宏伟目标,我们采用了一种以大规模扩展训练数据集为中心的策略,确保模型能够接触到各种各样的场景。为了充分利用现有的立体数据集,我们使用了大量公开的已标注立体数据集作为训练数据的核心部分,并创建了一个新的合成数据集StereoCarla,以进一步提高可用训练数据的质量、数量和多样性。此外,受“从单目到立体”方法和新的单目深度基础模型成功的启发,我们通过从单目图像生成的大量合成立体数据来补充训练。通过结合传统的立体数据集和新生成的基于单目的立体对,我们创建了一个多样且全面的训练集,使StereoAnything能够在各种环境中表现出色,确保稳健且准确的深度预测。这种真实数据和合成数据的结合有助于我们克服数据稀缺性的限制,最终推动立体匹配能力的边界,提高跨领域的泛化能力。
3. 效果展示
StereoAnything在不同的看不见的场景中展示了令人印象深刻的泛化能力。
提出的StereoCarla数据集。第一行示出了不同基线下的左目图像(第1列)和右目图像(第2-6列)。第二行展示了深度图(第一列)和相应的视差图(第二至第六列)。第三行描绘了来自不同水平视角和升高视点的左图像。
4. 主要贡献
我们的贡献可以概括如下:
• 我们首先通过深入研究不同合成数据集对训练立体模型性能的影响,强调了扩展已标注立体数据集规模的重要性。
• 然后,我们构建了一个新的合成数据集StereoCarla,以更好地在不同场景下泛化并提升性能。与现有数据集相比,StereoCarla具有独特的视角和基线。
• 我们通过有效地结合合成立体数据和多样化的未标注单目图像来进一步扩展训练数据,以训练立体网络。
• 我们的最终数据集使得训练的立体模型在所有现有网络中展现出最强的零样本学习能力。
5. 现有数据集
现有数据集
我们首先回顾现有的已标注立体数据集和未标注单目数据集。表1总结了本研究中涉及的现有已标注数据集,将它们分为训练集和测试集,并列出了它们的特性。
5.1 训练数据集
5.1.1 已标注立体数据集
为了充分利用现有的立体数据集,我们使用了大量公开的已标注立体数据集作为训练数据的核心部分。
Sintel
来源于计算机生成的电影,提供密集的真实值标签,分为训练数据集(1064对立体图像)和测试集(564对立体图像)。
推荐课程:
聊一聊经典三维点云方法,包括:点云拼接、聚类、表面重建、QT+VTK等
。
SceneFlow
是一个包含室内和室外场景的合成数据集。它是立体匹配中最常用的数据集之一,为预训练的立体匹配算法提供了宝贵的真实值。
CREStereo
通过结合不同位置具有随机颜色和亮度的各种照明条件,重点关注真实世界场景中的挑战性场景。
FallingThings
是一个大规模合成数据集,旨在推动3D物体检测和姿态估计方面的研究,同时提供已标注的立体图像。
InStereo2K
介绍了一个包含2000多对高质量、半密集真实值视差的真实世界室内立体图像对的数据集。
Spring
提供了6000对高分辨率图像,每对图像的分辨率为210万像素,涵盖47个不同的场景。
UnrealStereo4K
是一个高分辨率的合成立体数据集,包含800万像素的立体对。
Argoverse
是一个用于3D跟踪和运动预测的数据集。它包含5530张面向前方的立体图像用于训练,1094张用于测试,分辨率为2056×2464,在真实驾驶环境中采集。
VirtualKITTI2
利用Unity照明和后处理技术的进步生成了一个数据集,该数据集在生成的图像和KITTI的真实图像之间差异最小。它包括21260对立体图像。
Tartanair
是一个大规模合成数据集,专为推动视觉SLAM的发展而设计。它提供了多种模拟环境,具有不同的照明条件、天气效果和动态对象,其中包括306637对立体图像。
DynamicStereo
因其扩展序列和非刚性对象(如动物和人类)的存在而与众不同。该数据集包含484/20/20个序列,分别用于训练/验证/测试。
5.1.2 未标注单目数据集
为了增强立体匹配模型的鲁棒性,我们纳入了来自四个公开数据集的2027万张未标注单目图像的大规模集合。表2提供了这些数据集的全面概述,它们将在训练过程中用于生成更多的合成立体对。
3.2. 测试数据集
为了评估立体匹配模型的零样本泛化性能,我们选择了五个以其多样性和准确真实值标注而闻名的数据集。
KITTI 2012和KITTI 2015数据集
是立体匹配中广泛使用的基准数据集,具有稀疏的LiDAR真实值视差,包含从不同驾驶场景捕获的真实世界图像。KITTI 2012包含194对训练图像和195对测试图像,而KITTI 2015包含200对训练图像和200对测试图像。
Middlebury
专注于室内环境,提供15/15对高分辨率立体图像用于训练和测试,这些图像使用结构光系统获得了半密集真实值标注。
ETH3D
包含27/20对灰度立体图像用于训练和测试,这些图像从室内和室外场景采集,使用Faro Focus X 330激光扫描仪获得了半密集真实值标注。
DrivingStereo
是一个大规模立体数据集,包含超过18万张图像,涵盖了各种真实世界的驾驶场景。稀疏真实值标注来自LiDAR扫描,并通过深度神经网络进行后处理。
6. StereoCarla数据集
为了扩展现有立体匹配数据集的多样性和数量,我们使用了CARLA模拟器来收集新的合成立体数据。CARLA是一个广泛使用的开源自动驾驶研究模拟器,使我们能够创建一系列逼真的虚拟环境,这显著提高了我们数据收集过程的灵活性。与之前的立体数据集相比,我们的方法提供了更多样化的设置,提供了不同的基线和新颖的相机配置,从而丰富了立体数据的多样性。
下面,我们详细介绍主要的设计考虑因素:
多种基线
。我们收集了基线距离分别设置为10厘米、54厘米、100厘米、200厘米和300厘米的数据,与现有数据集相比,这一范围要广泛得多。这些基线变化使模型能够更好地泛化到两个相机之间距离差异很大的场景,例如在真实世界应用中切换不同的硬件配置。
水平视角
。我们收集了四个不同的水平视角的数据。具体来说,我们捕获了直接水平视图(0度)以及5度、15度和30度的轻微和中等旋转角度的图像。这些不同的方向提供了更稳健的数据,因为它们模拟了立体相机系统在运动或场景视点发生变化时自然发生的变化。这种角度变化对于增强模型的鲁棒性至关重要,使其更能适应现实世界中的视角变化。
俯瞰视角
。此外,为了模拟一组多样化的环境和视角,我们将立体相机对放置在车辆上方10米的高度,从水平视图和30度向下倾斜的角度捕获场景。这一独特视角提供了有关场景整体布局的更多信息,这对于理解近地面细节和大多数现有数据集中缺失的更广泛上下文元素特别有用。