图 1. 概述:给定一个不受约束的图像集合,即一组具有未知相机姿势和内在参数的照片,我们提出的方法 DUSt3R 输出一组相应的点图,从中我们可以直接恢复通常难以一次性估计的各种几何量,例如相机参数、像素对应关系、深度图和完全一致的 3D 重建。请注意,DUSt3R 也适用于单个输入图像(例如,在这种情况下实现单目重建)。我们还展示了在没有已知相机参数的情况下获得的 DTU、Tanks and Temples 和 ETH-3D 数据集上的定性示例。对于每个样本,从左到右:输入图像、彩色点云和使用阴影渲染以更好地查看底层几何图形。
unset
unset
摘要:
unset
unset
在实际应用中,多视角立体重建 (MVS) 需要首先估计相机参数,例如内在参数和外在参数。这些参数通常繁琐且难以获取,但它们对于在 3D 空间中三角剖分相应像素是必不可少的,而三角剖分是所有性能最佳的 MVS 算法的核心。在这项工作中,我们采取了相反的立场,并引入了
DUSt3R
,这是一种
用于任意图像集合的密集和无约束立体 3D 重建的全新范例
,即无需事先了解相机校准或视点姿势即可进行操作。我们将成对重建问题视为点图的回归,从而放宽了通常的投影相机模型的硬约束。我们表明,这种形式可以顺利地统一单目和双目重建情况。在提供两张以上图像的情况下,我们进一步提出了一种简单但有效的全局对齐策略,该策略在公共参考框架中表达所有成对点图。我们的网络架构基于标准 Transformer 编码器和解码器,使我们能够利用强大的预训练模型。我们的公式直接提供了场景的 3D 模型以及深度信息,但有趣的是,我们可以无缝地从中恢复像素匹配、相对和绝对相机。在所有这些任务上进行的详尽实验表明,所提出的 DUSt3R 可以统一各种 3D 视觉任务,并在单目/多视图深度估计以及相对姿势估计上设定新的 SoTA。总之,DUSt3R 使许多几何 3D 视觉任务变得简单。
unset
unset
1.引言
unset
unset
基于图像的无约束多视角密集 3D 重建是计算机视觉领域长期研究的几个最终目标之一。简而言之,该任务旨在根据给定的一组特定场景的照片,估计该场景的 3D 几何和相机参数。它不仅具有测绘、导航、考古、文化遗产保护、机器人等众多应用,而且也许更重要的是,它在所有 3D 视觉任务中占有特殊的地位。事实上,它涵盖了几乎所有其他几何 3D 视觉任务。因此,现代 3D 重建方法汇集了各个子领域数十年来的进步成果,例如关键点检测和匹配、稳健估计、运动结构 (SfM) 和捆绑调整 (BA)、密集多视图立体 (MVS) 等。
在本文中,我们介绍了
DUSt3R
,这是一种全新的方法,用于从未校准和未调整姿势的相机中进行密集无约束立体 3D 重建。
主要组件是一个网络,它可以仅从一对图像中回归密集而准确的场景表示,而无需有关场景或相机的先验信息(甚至没有内在参数)。
生成的场景表示基于具有丰富属性的 3D 点图:它们同时封装了 (a) 场景几何、(b) 像素和场景点之间的关系以及 (c) 两个视点之间的关系。仅从这个输出中,就可以直接提取几乎所有场景参数(即相机和场景几何)。这是可能的,因为我们的网络联合处理输入图像和生成的 3D 点图,从而学习将 2D 结构与 3D 形状关联起来,并有机会同时解决多个最小问题,从而实现它们之间的内部“协作”。
为了融合来自多个图像对的预测,我们重新审视了点图情况下的捆绑调整 (BA),从而实现了全尺寸 MVS。我们引入了一个全局对齐程序,与 BA 相反,它不涉及最小化重新投影误差。相反,我们直接在 3D 空间中优化相机姿势和几何对齐,这在实践中速度很快并且表现出出色的收敛性。我们的实验表明,在具有各种未知传感器的实际场景中,重建在视图之间是准确且一致的。我们进一步证明,相同的架构可以无缝处理现实生活中的单目和多视图重建场景。重建示例如图 1 和随附视频所示。
总之,
我们的贡献有四个方面。
首先,我们提出了第一个整体端到端 3D 重建流程,该流程从未校准和未摆姿势的图像中进行,统一了单目和双目 3D 重建。其次,我们为 MVS 应用引入了点图表示,使网络能够在规范框架中预测 3D 形状,同时保留像素和场景之间的隐式关系。这有效地消除了通常透视相机公式的许多限制。第三,我们引入了一个优化程序,以在多视图 3D 重建的背景下全局对齐点图。我们的程序可以毫不费力地提取经典 SfM 和 MVS 流程的所有常见中间输出。从某种意义上说,我们的方法统一了所有 3D 视觉任务,并且大大简化了传统的重建流程,相比之下,DUSt3R 显得简单易用。第四,我们在一系列 3D 视觉任务中展示了良好的性能,特别是我们的一体化模型在单目和多视图深度基准以及多视图相机姿势估计上取得了最先进的结果。
unset
unset
2.相关工作
unset
unset
为了节省篇幅,我们在此总结了 3D 视觉中最相关的工作,并请读者参阅 C 节中的附录以获得更全面的回顾。
运动结构(SfM)
旨在重建稀疏的 3D 地图,同时从一组图像中联合确定相机参数。传统流程从多幅图像之间的关键点匹配获得的像素对应关系开始,以确定几何关系,然后进行捆绑调整以联合优化 3D 坐标和相机参数。最近,SfM 流程经历了重大改进,特别是将基于学习的技术融入其子流程。这些改进包括高级特征描述、更准确的图像匹配、特征度量细化和神经捆绑调整。尽管取得了这些进步,但 SfM 流程的顺序结构仍然存在,使其容易受到每个单独组件中的噪声和错误的影响。
直接 RGB 转 3D。
最近,提出了一些旨在从单个 RGB 图像直接预测 3D 几何形状的方法。由于该问题本质上是不适当的,无需引入额外的假设,因此这些方法利用从大型数据集中学习强大 3D 先验的神经网络来解决歧义问题。这些方法可以分为两类。第一组利用类级对象先验。例如,Pavllo 等人提出学习一个模型,该模型可以在给定大量 2D 图像的情况下从单个图像中完全恢复形状、姿势和外观。虽然这种方法很强大,但它不允许从看不见的类别中推断物体的形状。第二组工作与我们的方法最接近,而是专注于一般场景。这些方法系统地建立在现有的单目深度估计 (MDE) 网络之上或重新使用它们。深度图确实编码了一种 3D 信息,与相机内在函数相结合,可以直接产生像素对齐的 3D 点云。例如,SynSin 通过在了解所有相机参数的情况下渲染特征增强深度图,从单个图像执行新视点合成。如果没有相机本征,一种解决方案是通过利用视频帧中的时间一致性来推断它们,要么通过强制执行全局对齐等,要么通过利用具有光度重建损失的可微分渲染。另一种方法是明确学习预测相机本征,这使得与 MDE 结合时可以从单个图像执行度量 3D 重建。然而,所有这些方法本质上都受到深度估计质量的限制,这对于单目设置来说可以说是不适定的。
相比之下,我们的网络同时处理两个视点以输出深度图,或者更确切地说是点图。至少在理论上,这使得来自不同视点的射线之间的三角测量成为可能。过去曾提出过用于 3D 重建的多视图网络。它们本质上是基于构建可微分 SfM 管道的想法,复制传统管道但对其进行端到端训练。然而,为此,需要地面实况相机内在函数作为输入,输出通常是深度图和相对相机姿势。相比之下,我们的网络具有通用架构并输出点图,即 3D 点的密集 2D 场,它可以隐式处理相机姿势并使回归问题更好地呈现。
点图。
使用点图集合作为形状表示对于 MVS 来说是相当违反直觉的,但它在视觉定位任务中被广泛使用,无论是在场景相关的优化方法中还是在场景无关的推理方法中。同样,视图建模是单目 3D 重建工作和视图合成工作中的一个常见主题。其思想是将规范的 3D 形状存储在多个规范视图中以在图像空间中工作。这些方法通常通过渲染规范表示来利用显式透视相机几何。
unset
unset
3.方法
unset
unset
在深入研究我们的方法的细节之前,我们首先介绍点图的基本概念。
点图。
在下文中,我们将 3D 点的密集 2D 场表示为点图
。与其对应的分辨率为 W × H 的 RGB 图像 I 相关联,X 形成图像像素和 3D 场景点之间的一一映射,即对于所有像素坐标
,
。我们在此假设每条相机光线都照射到一个 3D 点,即忽略半透明表面的情况。
相机和场景。
给定相机本征
,观察到的场景的点图 X 可以直接从真实深度图 D ∈
获得,即
。这里,X 在相机坐标系中表示。在下文中,我们将相机 n 的点图
表示为
,在相机 m 的坐标系中表示:
图 2. 网络 F 的架构。首先使用共享 ViT 编码器以连体方式对场景的两个视图 (I 1 , I2 ) 进行编码。然后将得到的标记表示 F 1 和 F 2 传递给两个 Transformer 解码器,这两个解码器通过交叉注意不断交换信息。最后,两个回归头输出两个相应的点图和相关的置信度图。重要的是,这两个点图在第一幅图像 I 1 的同一坐标系中表示。网络 F 使用简单的回归损失进行训练(等式 4)。
网络架构。
我们的网络 F 的架构受到 CroCo 的启发,因此很容易从 CroCo 预训练中获益。如图 2 所示,它由两个相同的分支(每个图像一个)组成,每个分支都包含一个图像编码器、一个解码器和一个回归头。两个输入图像首先由相同的权重共享 ViT 编码器以连体方式编码,产生两个标记表示 F1 和 F2 :
绝对姿态估计
(也称为视觉定位)同样可以通过多种不同的方式实现。令 I Q 表示查询图像,I B 表示可获得 2D-3D 对应关系的参考图像。首先,可以根据 XQ,Q 估计 I Q 的内在函数。一种可能性是获取 I Q 和 I B 之间的 2D 对应关系,进而得到 I Q 的 2D-3D 对应关系,然后运行 PnP-RANSAC。另一种解决方案是获取 I Q 和 I B 之间的相对姿态,如前所述。然后,我们根据 XB,B 和 I B 的真实点图之间的比例,通过适当缩放将该姿态转换为世界坐标。
3.4.全局对齐
到目前为止,我们提出的网络 F 只能处理一对图像。现在,我们针对整个场景提出了一种快速而简单的后处理优化方法,可以将从多幅图像预测的点图对齐到联合 3D 空间中。这要归功于我们的点图的丰富内容,它在设计上包含两个对齐的点云及其相应的像素到 3D 映射。