DUSt3R：轻松实现几何 3D 视觉

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-08-28 00:04

正文

23年CVPR来自芬兰一所大学和欧洲Naver Labs 的论文“DUSt3R: Geometric 3D Vision Made Easy”。

在实际应用中，多视角立体视觉重建 (MVS) 需要首先估算相机参数，例如内参数和外参数。这些参数通常很繁琐且难以获取，但它们对于在 3D 空间三角化，相应像素是必不可少的，而三角化是所有性能最佳的 MVS 算法核心。这项工作采取了相反的立场，引入 DUSt3R，这是一个用于任意图像集合的密集和无约束立体 3D 重建的全新范例，即无需事先了解相机标定或视点姿势即可进行操作。将成对重建问题视为点图的回归，从而放宽了通常投影相机模型的硬约束。这种公式可以顺利地统一单目和双目重建情况。在提供两张以上图像的情况下，进一步提出一种简单但有效的全局对齐策略，该策略在公共参考系中表达所有成对点图。该网络架构基于标准 Transformer 编码器和解码器，这能够利用强大的预训练模型。该公式直接提供了场景的 3D 模型以及深度信息，但有趣的是，可以无缝地从中恢复像素匹配、相对和绝对相机。对所有这些任务进行的详尽实验表明，所提出的 DUSt3R 可以统一各种 3D 视觉任务，并在单目/多视图深度估计以及相对姿势估计上设定新的 SoTA。总之，DUSt3R 使许多几何 3D 视觉任务变得简单。

如图是DUSt3R概述：给定一个不受约束的图像集合，即一组具有未知相机姿势和内在特性的照片，提出的方法 DUSt3R 输出一组相应的点图，从中可以直接恢复通常难以一次性估计的各种几何量，例如相机参数、像素对应关系、深度图和完全一致的 3D 重建。DUSt3R 也适用于单个输入图像（例如，在这种情况下实现单目重建）。展示的有在不知道相机参数的情况下获得的 DTU、Tanks & Temples 和 ETH-3D 数据集 [1, 50, 107] 上的定性示例。对于每个样本，从左到右：输入图像、彩色点云，并使用阴影渲染以更好地查看基础几何。

最后，现代 SfM 和 MVS 流程归结为解决一系列最小问题：匹配点、寻找基本矩阵、三角测量点、稀疏重建场景、估计相机并最终执行密集重建。考虑到最近的进展，这个相当复杂的链路当然在某些情况下是一种可行的解决方案 [31、70、76、142、145、147、162]，但结果相当不能令人满意：每个子问题都不能完美解决，而且会给下一步添加噪音，从而增加整个流程的复杂性和工程工作量。在这方面，每个子问题之间缺乏沟通就很能说明问题了：如果它们互相帮助，似乎更合理，例如，密集重建应该自然受益于为恢复相机姿势而构建的稀疏场景，反之亦然。最重要的是，这个流程中的关键步骤很脆弱，在许多情况下容易中断 [58]。例如，SfM 中用于估计所有相机参数的关键阶段通常会在许多常见情况下失败，比如当场景视图数量较少时[108]，对于具有非Lambertian表面的物体[16]，在相机运动不够大的情况下[13]，等等。这是令人担忧的，因为最终“ MVS 算法的好坏取决于输入图像的质量和相机参数” [32]。

定义一个3维点的密集2维场的表示为一个点图 X。与对应的分辨率为 W × H 的 RGB 图像 I 相关联，X 形成图像像素和3维场景点之间的一一映射，即 Ii,j ↔ Xi,j ，对于所有像素坐标 (i,j) ∈ {1...W} × {1...H}。假设每条相机光线都照射到一个三维点，即忽视半透明表面的情况。

给定相机内参矩阵 K，可以直接从真实深度图 D 获得观察场景的点图 X，即 Xi,j =K^-1 [iDi,j, jDi,j, Di,j]。这里，X 在相机坐标系中表示。将相机 n 看到的点图 Xn 在相机 m 的坐标系中表示为 Xn,m：

网络 F 的架构灵感来自 CroCo [149]，因此很容易从 CroCo 预训练 [148] 中获益。如图所示，它由两个相同的分支（每个图像一个）组成，每个分支都包含一个图像编码器、一个解码器和一个回归头。两个输入图像首先由相同的权重共享 ViT 编码器 [27] 以 Siamese 方式编码，产生两个token表示 F1 和 F2：