Omni-Scene：以自我为中心稀疏视图场景重建的全高斯表征

计算机视觉深度学习和自动驾驶 · 公众号 · · 2025-01-20 00:05

正文

24年12月来自西湖大学和浙大的论文“Omni-Scene: Omni-Gaussian Representation for Ego-Centric Sparse-View Scene Reconstruction”。

先前的研究采用基于像素的高斯表征，已经在前馈稀疏视图重建中证明其有效性。然而，这种表示需要跨视图重叠才能实现准确的深度估计，而且面临着目标遮挡和截锥体截断的挑战。因此，这些方法需要以场景为中心的数据采集来保持跨视图重叠和完整的场景可见性以避免遮挡和截断，这限制了它们在以场景为中心重建中的适用性。相反，在自动驾驶场景中，更实用的范例是以自我为中心的重建，其特点是跨视图重叠最小，但遮挡和截断频繁。因此，基于像素表征的局限性阻碍了先前的研究在这个任务中的效用。鉴于此，本文对不同的表征进行深入分析，并引入全高斯（Omni-Gaussian）表征和定制的网络设计来补充它们的优势并弥补缺点。实验表明，该方法在以自我为中心重建方面明显优于 pixelSplat 和 MVSplat，并且在以场景为中心的重建方面取得了与先前研究相当的性能。此外，利用扩散模型扩展该方法，开创 3D 驾驶场景的前馈多模态生成。

如图所示通过在现实世界中捕获的或由 2D 扩散模型合成的六张周围图像，可以基于全高斯表征生成高质量的 3D 高斯，进行以自我为中心的场景重建和新视图合成。

从稀疏观测中重建 3D 场景是计算机视觉和图形学中的一项关键任务。最近的研究 [1–22] 将 3D 结构先验作为归纳偏差集成到神经网络中，从而能够在一次前向传递中预测隐式神经场 [23]、光场 [10] 或显式 3D 高斯 [24] 以进行场景重建。值得注意的是，由于基于光栅化的渲染效率和 3D 高斯 [24] 的显式性质，基于高斯的方法 [13–22] 在推理速度和视觉质量方面都比基于神经场 [1–9] 或光场 [10–12] 的方法更胜一筹。通常，这些方法假设观察的输入视图之间存在较大的重叠。因此，他们可以利用多视图交叉注意 [16, 18, 22]、外极线 [13] 或成本体 [14, 21] 等技术来学习像素级跨视图相关性，然后以适当的尺度推断出每个像素的深度。因此，他们可以进一步预测每个像素的高斯分布，并使用深度沿像素射线将它们反投影到 3D 以进行场景重建。所有这些方法的共同特点是使用基于像素的高斯表征。

虽然利用基于像素高斯表征的工作取得了巨大的成功，但它们对输入视图之间存在大量重叠提出了强有力的假设。这意味着必须捕捉围绕场景的输入视图图像。否则，由于尺度模糊性，它们将无法预测准确的每像素深度 [13]。与这种以场景为中心的重建相比，一种更实际的情况，特别是对于自动驾驶系统来说，是以自我为中心的重建，只能从刚性安装在汽车周围的摄像机获取输入视图，并且只有相邻摄像机之间才存在最小的重叠（<15％）。以前基于像素表征的方法无法进行以自我为中心的重建。尽管预测每个像素的深度很困难，但它们的失败可以归因于基于像素表征固有的两个潜在弱点，如下图的情况 1 和 2 所示。在情况 1 中，当目标新视图中的目标在输入视图中被遮挡时（例如，图（a）中汽车后面的树），基于像素表征只能依靠非遮挡目标的 2D 局部特征来推断被遮挡目标，这在它们的外观彼此相差很大时尤其会失败。在情况 2 中，当新视图中的目标落在输入视图截锥体之外时（例如，图 2(a) 中的路灯顶部），基于像素表征无法通过沿像素射线的反投影来预测高斯的位置。

这两种情况也对 3D 感知任务（如 3D目标检测 [25–27] 和占用预测 [28–30]）提出了挑战，这些任务需要感知部分被遮挡或截断的目标。现有的 3D 感知工作采用基于体的表征，如鸟瞰图 (BEV) 网格 [25–27] 和 3D 体素 [28–30] 作为解决方案。由于体在 3D 空间中是空间连续的，2D 输入中缺少的内容可以通过 3D 级的邻居来补充。此外，利用相机投影知识实现3D-到-2D交叉注意[25]，可以直接将2D特征提升到3D空间，而不必依赖跨视图重叠进行基于深度的2D-到-3D反投影。直观地，推测可以在重建任务中使用基于体的高斯表征（即用体中的体素表征高斯），以最大限度地减少对跨视图重叠的依赖，并减轻遮挡和截断带来的不良影响。然而，如图的情况3和4所示，这种表示也有缺点。由于体的有界性（即在汽车周围H×W×Z范围内有界），基于体的高斯不能重建远离汽车的元素（例如，图（a）情况 3 中的天空）。此外，对具有立方复杂度的体进行编码特征会限制体积分辨率，可能导致缺乏细节（例如，图（a）中情况 4 中的房屋）。

神经重建和渲染。最近的方法 [23、24、34–38] 利用神经渲染和重建技术，可以将场景建模为可学习的 3D 表示，并通过迭代反向传播实现 3D 重建和新视图合成。NeRF [23] 因其在重建场景中捕捉高频细节的能力而得到认可。然而，它在渲染过程中需要对每条射线进行密集查询，尽管随后努力加速 [35、36]，但仍然导致高计算需求，限制了其实时能力。3D 高斯splatting (3DGS) [24] 通过使用 3D 高斯明确建模场景并采用高效的基于光栅化的渲染流水线来缓解这个问题。尽管 3DGS 和 NeRF 及其变型 [34、37、39、40] 在单场景重建中表现出色，但它们通常需要每个场景进行优化和密集场景捕获，从而使重建过程耗时且不可扩展。

具有隐 3D 表示的前馈重建。这一系列工作将隐式 3D 先验（例如 NeRF [23] 或光场 [10]）合并到其网络中以实现前馈重建。基于 NeRF 的方法 [1–9] 利用具有多视图交叉注意的 Transformer [8、16、18、22]，或采用投影 3D 先验（如极线 [1–3、13]）和成本体 [4–7、14、21] 来估计辐射场以进行重建，这继承了 NeRF 渲染昂贵的光线查询过程。因此，这些方法在训练和推理阶段都非常耗时。相比之下，基于光场的方法 [10–12] 可以通过直接基于光线-到-图像的交叉注意回归每条光线的颜色来绕过 NeRF 渲染，这牺牲了可解释性来提高效率。然而，由于缺乏可解释的 3D 结构，它们无法重建场景的 3D 几何形状。

使用 3D 高斯进行前馈重建。最近利用 3DGS 的方法 [13–22] 可以同时实现可解释性和效率。通常，它们在网络中采用类似于基于 NeRF 的方法的 3D 先验（例如，极线 [13]、成本体 [14, 21] 和多视图交叉注意 [16, 18, 22]），并使用基于像素的高斯表征来预测沿射线的逐像素高斯分布，以便进行重建。然而，这种基于像素的表征依赖于大的跨视图重叠来预测深度，并且受到目标遮挡和截锥体截断的影响，因此仅适用于场景为中心的重建，适用性有限。

Omni-Scene 是一种以自我为中心稀疏视图重建的前馈方法，其整体流程如图所示。如图 (a) 所示，接受 K 个周围图像 I = {I^i } 作为输入，这些图像是在一帧内捕获或合成的。利用 DINO 目标 [42] 预训练的 ResNet-50 [41] 主干网络为 I 提取 4 倍下采样特征 F = {F^i }。然后，如图 (b)-(c) 所示，这些特征被共享并输入到体生成器（volume generator）和像素装饰器（pixel decorator）中，以分别预测基于体的高斯 G/V 和基于像素的高斯 G/P。利用体-像素协作设计（volume-pixel collaboration design），包括基于投影的特征融合和深度引导的训练分解，实现 G/V 和 G/P 之间的特征交互，并在训练期间区分它们的属性。通过融合 G/V 和 G/P，可以获得用于重建的全高斯 G。

体生成器

体生成器旨在使用基于体的高斯函数预测粗略的 3D 结构。主要挑战是如何将 2D 多视图图像特征提升到 3D 体空间，而无需明确维护密集体素。用三平面Transformer来解决这个问题。然后，提出体解码器来预测体素锚定的高斯 G/V。

三平面Transformer 。由于 H×W×Z 的立方复杂度，将体表示为体素并为每个体素编码特征的成本很高。因此，求助于三平面将体分解为三个轴对齐的正交平面 HW、ZH 和 WZ。一些目标级 3D 重建工作 [8, 43, 44] 也采用三平面表示来压缩体。然而，它们要么依赖于三平面和图像之间密集的每像素交叉注意 [43, 44]，要么要求输入图像也与三平面轴对齐 [8] 才能进行直接 2D 级特征编码。它们都不适合具有更大体尺度和无约束数据收集的真实场景。

受最近 3D 感知方法 [25, 30] 的启发，三平面 Transformer 利用可变形交叉注意来实现 2D 和 3D 空间之间稀疏但有效的空间相关性。这里以 HW 平面的特征编码为例进行说明。如上图 (b) 所示，定义一组网格状的可学习嵌入 Q/HW 作为 Transformer 的平面查询，其中 C 表示嵌入通道。然后，对于位于 (h, w) 处的查询 q/h,w，将其扩展为沿 Z 轴均匀分布的多个 3D pillar 点，并通过投影回输入视图来计算它们在 2D 空间中的参考点 Ref^2D/h,w。由于这种透视投影的稀疏性质，只有来自 1∼2 个输入视图的最相关 2D 特征才会被 q/h,w 关注，从而平衡效率和特征表达。上述操作，即跨图像可变形注意，在上图 (b) 中用紫色虚线箭头表示。其推到如下：

考虑到查询 pillar 点可能被遮挡或位于任何输入视图的截锥体范围之外，进一步利用跨平面可变形注意来丰富这些点的跨平面上下文。具体来说，对于查询 q/h,w，将其坐标 (h, w) 投影到 HW、ZH 和 WZ 平面上，获得三组参考点 Ref^3D/h,w = Ref^HW/h,w ∪ Ref^ZH/h,w ∪ Ref^WZ/h,w。这里 Ref^HW/h,w 表示 HW 平面内 q/h,w 的邻居。Ref^ZH/h,w 和 Ref^WZ/h,w 是 ZH 和 WZ 平面上的正交投影，源自沿 Z 轴均匀采样 (h,w) 的 pillar 点。利用 Ref^3D/h,w，从不同平面提取上下文信息，从而增强特征，如上图 (b) 中红色虚线箭头所示。推导如下：

对所有平面的查询重复这两个交叉注意，可以获得具有丰富语义和空间上下文的三平面特征，而不依赖于跨视图重叠，这对于以前仅依赖于基于像素高斯表示的方法 [13, 14] 是必要的。

体解码器。提出体解码器来估计体素锚定高斯。具体而言，给定位于 (h, w, z) 的体素，首先将其坐标投影到三个平面上，通过双线性插值获得平面特征，然后逐平面求和以得出聚合体素特征 f/h,w,z 。然后，将三个线性层附加到 f/h,w,z 以预测 V 高斯 {G^v} 的参数 (δ/v, α/v, s/v, q/v, c/v)}。每个高斯 G^v 锚定在 (h, w, z) 附近，并根据偏移量 δ/v 移动到新位置 μ/v。其余参数 α/v、s/v、q/v、c/v 分别表示不透明度、尺度、旋转四元数和 RGB 颜色。对所有体素重复相同的操作，获得基于体高斯 G/V，其中 D 是高斯参数的维度。

像素装饰器

像素装饰器由多视图 U-Net 和像素解码器组成，分别负责提取跨视图相关特征和预测基于像素的高斯 G/P。由于 G/P 是与细粒度图像空间对齐获得的，因此它可以为粗体素锚定高斯 G/V 添加细节。此外，由于 G/P 可以不投影到无限远的位置，因此它可以用远距离高斯补充体边界 G/V。

多视图 U-Net 。多视图 U-Net 将图像特征 {F^i} 和 Plucker 射线嵌入 {S^i} 连接为输入，其中 {S^i} 可以提供额外的相机姿势信息 [16]。受最近 2D 扩散 Transformer方法 [45] 引入的补丁 tokens 压缩的启发，将补丁交叉注意应用于多视图 U-Net，实现有效的跨视图相关性，如上图 (c) 所示。然后，可以为每个输入视图获取 3D 感知特征 {^Fˆi} 来解码高斯函数。

像素解码器。像素解码器首先通过双线性插值将 U-Net 特征 {^Fˆi} 上采样到原始图像分辨率，然后通过几个卷积层来解码每个高斯 G/p 的逐像素深度 d/p 和高斯参数 (δ/p、α/p、s/p、q/p、c/p)。为了获得中心位置 μ/p，首先使用 d/p 将像素从射线原点 o 反投影到沿 p 射线方向 r/p 的粗略位置，然后使用学习的偏移量 δ/p 对其进行细化。反投影过程推导如下：

Omni-Scene：以自我为中心稀疏视图场景重建的全高斯表征

正文

请到「今天看啥」查看全文