专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

ETH开源 | 超真实重建！SplatFormer：第一个3DGS点Transformer模型！

3DCV · 公众号 · · 2024-11-17 00:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入「 3D视觉从入门到精通」知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

一句话总结：我们分析了新的视图合成方法的分布外（OOD）相机视图和介绍一个数据驱动的3D Transformer，旨在优化3D高斯分布图元，以提高极端相机场景中的质量。

0. 论文信息

标题：SplatFormer: Point Transformer for Robust 3D Gaussian Splatting

作者：Yutong Chen, Marko Mihajlovic, Xiyi Chen, Yiming Wang, Sergey Prokudin, Siyu Tang

机构：ETH Zürich、University of Maryland, College Park、ROCS, University Hospital Balgrist, University of Zürich

原文链接：https://arxiv.org/abs/2411.06390

代码链接：https://github.com/ChenYutongTHU/SplatFormer

官方主页：https://sergeyprokudin.github.io/splatformer/

1. 导读

3D Gaussian Splatting (3DGS)最近转变了真实感重建，实现了高视觉保真度和实时性能。然而，当测试视图偏离训练期间使用的相机角度时，渲染质量会显著下降，这给沉浸式自由视点渲染和导航应用带来了重大挑战。在这项工作中，我们对3DGS和相关的新视图合成方法进行了全面的评估。通过使用合成和真实世界的数据集创建不同的测试案例，我们证明了大多数现有的方法，包括那些结合了各种正则化技术和数据驱动先验的方法，很难有效地推广到OOD视图。为了解决这一限制，我们引入了SplatFormer，这是第一个专门设计用于高斯splats的点变压器模型。SplatFormer将在有限训练视图下优化的初始3DGS集作为输入，并在单次正向传递中对其进行细化，从而有效地去除OOD测试视图中的潜在伪像。据我们所知，这是直接在3DGS集上成功应用点变压器的第一次，超越了以前多场景训练方法的限制，以前的多场景训练方法在推理期间只能处理有限数量的输入视图。我们的模型显著提高了极端新颖视图下的渲染质量，在这些具有挑战性的场景中实现了最先进的性能，并优于各种3DGS正则化技术、为稀疏视图合成定制的多场景模型和基于扩散的框架。

2. 引言

新颖视角合成（NVS）专注于将2D RGB图像转换为沉浸式3D场景，使用户能够在增强现实（AR）和虚拟现实（VR）环境中自由导航。

传统上，这个问题通常通过标准的新颖视角插值协议来解决，其中测试视角沿输入视角的轨迹以固定间隔进行采样。基于该协议，已经出现了多种NVS方法，其中3D高斯溅射（3DGS）因在视角插值中实现实时和高保真结果而最近备受关注。然而，AR和VR应用不仅要求输入视角之间的平滑过渡，还要求能够从输入分布之外的视角探索新的感兴趣区域。例如，用户可能希望从较高的视角观察场景，而这样的视角通常不会出现在捕捉到的视图中。尽管新颖视角插值取得了显著进展，但这种分布外新颖视角合成（OOD-NVS）任务仍然研究不足，特别是在评估协议和方法论方面。

一个相关领域的研究涉及从稀疏或单目输入视角进行3D重建，其中方法通常需要幻想未见内容。虽然幻想对创意应用有益，但在需要精确重建的设置中可能是不受欢迎的，例如手术过程的3D可视化，并且在典型的日常捕捉场景中也是不必要的。

我们认为OOD-NVS对于日常捕捉场景具有实际意义，但研究界在很大程度上忽略了它。为了研究这个问题，我们从ShapeNet、Objaverse 1.0和Google Scanned Objects据集中渲染3D资产。当仅限于低高度输入时，现有的NVS方法在OOD视角上表现不佳，这凸显了需要一种新方法来解决这个问题。

大量研究工作致力于使用不足的输入视角进行稳健的3D重建。首先，一些3DGS变体通过神经辐射场（Mihajlovic等人，2024）中的隐式偏差或几何一致性项来正则化高斯属性。其次，许多方法试图利用来自外部数据集的先验。例如，一些方法使用立体估计器来监督渲染的深度图，但这些方法面临尺度模糊问题。某些方法在大型数据集上预训练特征网格，但这些先验通常仅限于单个对象类别。其他方法使用来自预训练扩散模型的2D先验，但在处理多视角不一致性方面存在困难。此外，一些前馈模型从少数输入视角预测3D基元，但由于计算限制，它们处理的图像不超过四张，限制了其利用密集多视角输入的能力。这些方法大多仅通过视角插值或稀疏视角重建进行评估，未能解决在OOD-NVS设置中遇到的伪影问题。

为OOD-NVS定义一个隐式正则化是一个重大挑战。我们假设解决这个问题需要仔细考虑三个关键方面：1）利用来自大规模数据集的通用先验；2）确保渲染的3D一致性；3）充分利用所有输入视角的丰富几何信息。为了满足这些需求，我们提出了SplatFormer，这是一种新型的学习型前馈3D变换器，设计用于处理高斯溅射。SplatFormer优化了一个使用所有输入视角初始化的3DGS集合，将其转换为一个新的增强集合，该集合在OOD条件下产生多视角一致的2D渲染，且伪影更少。

我们的方法首先从输入视角优化3DGS。虽然这种初始3D表示有效地集成了从捕捉图像中获得的多视角信息，但我们观察到，高斯溅射的形状、外观和空间结构会偏向输入视角分布。这通常会导致拉长的高斯溅射，这些溅射仅覆盖投影在输入视角上的薄区域，从而导致表面覆盖稀疏。此外，这些溅射可以形成从输入视角看是正确的但呈现显著伪影的无序几何结构，当在OOD视角下渲染时尤其明显。

与以往依赖于手工制作的正则化技术的工作不同，我们采用了点变换器，这是一种设计用于3D场景理解的基于注意力的架构，来处理3DGS，将其作为具有高斯属性（作为特征）的点云集合。点变换器中的注意力机制学会了捕捉嵌入在3DGS中的多视角信息，重点关注由初始3DGS预先计算的空间结构内的局部邻域。它输出残差，这些残差被添加到输入的高斯属性中。

然后，从新颖视角渲染更新后的3DGS，并最小化渲染图像和真实图像之间的光度误差以训练SplatFormer。我们使用ShapeNet和Objaverse 1.0制作了大量训练对，包括初始的、有缺陷的3DGS集合，以及同分布和OOD视角的真实图像，这得益于3DGS的快速优化和大规模3D和多视角数据集的可用性。通过在该数据集上进行训练，SplatFormer学习了用于精炼3DGS的通用先验，有效去除了OOD视角中的伪影，同时保持了3D一致性。

我们使用提出的OOD-NVS评估协议将SplatFormer与基线模型进行了比较。我们的实验表明，一旦经过训练，SplatFormer显著减少了3DGS OOD视角渲染中的伪影，在ShapeNet和Objaverse测试场景中的定量和定性结果方面均表现出实质性改进。此外，我们还证明了SplatFormer的去伪影能力能够推广到先前未见数据集中的新对象类别，如Google Scanned Objects，以及现实世界的捕捉。

3. 效果展示

想象一下你在博物馆里捕捉一尊雕像。通过改变相机的高度并围绕物体行走，你可能会捕捉到其大部分特征。然而，相机角度的空间分布可能不均匀，甚至严重倾斜，从而产生某些分布外视角，其中物体的某些部分仅被稀疏覆盖。图1展示了一个示例，其中输入视角是从用户视角捕获的，围绕物体以不同但接近的高度角进行拍摄。分布外（OOD）目标视角从自上而下的视角观察物体，这与输入分布存在显著差异。我们将这一挑战定义为分布外新颖视角合成（OOD-NVS）。

4. 主要贡献

我们做出以下贡献：

• 我们引入了OOD-NVS，这是一种新的实验协议，专门设计用于评估NVS方法在从分布外的新颖视角渲染3D场景时的性能。我们的结果表明，现有方法很难在OOD-NVS协议下泛化；推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

• 我们提出了SplatFormer，这是一种新型的学习型模型，用于精炼有缺陷的3D高斯溅射，以减轻OOD视角中的伪影。SplatFormer是第一个将点变换器应用于3DGS处理的方法，有效利用了来自密集输入视角集合的多视角信息，并学习了3D渲染先验以去除伪影；

• 我们证明了SplatFormer在OOD-NVS任务上显著提高了基于3DGS的方法的性能，在以对象为中心的场景中取得了显著增益，同时还展示了在无界环境中应用的潜力。

5. 方法

3DGS的局限性。虽然溅射基元的直接优化使3DGS能够紧密适应输入图像，但这通常会导致过拟合，因为灵活的基元会过于精确地贴合单个像素。高斯分布的平滑连续特性支持有效的插值，但仅当测试视角与训练视角相似时才成立。为了证明这一局限性，我们进行了一项受控实验（图2），模拟了一个典型场景，即用户围绕物体旋转时捕捉图像。当从分布外（OOD）视角进行渲染时，就会出现挑战，如较高的相机角度，这是AR和VR应用的关键要求，它们要求从所有视角进行一致的3D渲染。

关键观察结果。如图2所示，随着测试相机高度的增加，重建质量显著下降，这凸显了3DGS在处理OOD视角时的一个关键局限性。挑战在于使表示对这样的视角变化具有鲁棒性，同时保持3DGS的优势，如实时渲染和与基于光栅化的工具的兼容性。将先验和约束纳入3DGS的优化中以解决这一局限性是一项复杂任务。以前的方法曾尝试使用几何约束和数据驱动先验来解决这个问题。然而，如后文（表1）所示，这些方法在实现稳健的新颖视角合成方面存在不足，这强调了需要更有效的解决方案。我们认为解决这个问题需要纳入三个关键方面：利用来自大规模数据集的通用先验、确保渲染的3D一致性以及充分利用所有输入视角的丰富几何信息。

解决方案：SplatFormer。我们提出了SplatFormer，这是一种新颖的基于学习的前馈3D神经模块，用于对高斯溅射（splat）进行操作，从而能够从分布外（Out-Of-Distribution，OOD）视角实现稳健的新视角合成。如图2所示，当测试视角与输入视角偏差较大时，我们的方法仍能保持较高的视觉质量。SplatFormer通过可学习参数θ进行参数化，通过捕捉空间关系并对溅射之间的相互作用进行建模，从而克服了对输入视角的偏差。受擅长学习数据中复杂关系的Transformer架构启发，我们采用此方法对3D高斯溅射进行前馈细化。

重建过程（图3）始于一组经过校准的输入图像，我们使用第3节中描述的3DGS优化过程，从这些图像中生成溅射基元。由于这些溅射对输入视角存在偏差，我们应用SplatFormer进行前馈细化，以实现稳健的分布外新视角合成。SplatFormer采用基于Point Transformer V3（PTv3）架构的Transformer编码器-解码器层的分层序列，并使用大量3D形状和2D渲染损失进行训练。这种监督通过分层网络架构强制实施空间规则性，利用大规模数据集中的通用先验，并通过多视图一致渲染监督确保细化溅射的3D一致性，从而细化溅射基元。

6. 实验结果

分布外新视角合成（OOD-NVS）的结果。定性结果（图4）显示，LaRa产生了模糊的输出，而MipNeRF360存在浮动伪影，SplatFields则平滑掉了精细细节。2DGS和3DGS均出现尖峰伪影。相比之下，SplatFormer显著减少了3DGS中存在的伪影，完成了表面重建，甚至恢复了某些几何属性，如交错结构。尽管我们的方法在高频纹理细节方面仍面临挑战，但在分布外视角的保真度和一致性方面优于先前的方法，这结果在我们中展示的明显定量改进（表1）中也得到了支持。

3D与2D去噪。另一种改进分布外新视角合成渲染的策略是使用2D图像恢复方法。为了探索这一点，我们使用了一种最先进的图像恢复方法Diff-BIR来对3DGS渲染进行去噪。DiffBIR由两个级联模型组成：第一阶段是图像到图像的回归器，用于去除伪影；第二阶段是基于扩散的生成器，用于填充缺失的细节。我们使用ShapeNet-OOD训练集中的OOD 3DGS渲染和真实图像对这两个阶段进行了训练。为了解决去噪图像中的多视图不一致问题，我们还使用生成的图像对3DGS进行了重新训练。该实验与Sp2360类似，后者使用级联2D扩散先验从稀疏视图输入对3DGS进行正则化。如表3所示，虽然2D去噪方法改进了原始的3DGS，但与SplatFormer相比性能显著较差，且无法恢复几何细节。

7. 总结 & 局限性 & 未来工作

在多样化的观看条件下对3D资产进行逼真渲染对于增强现实（AR）和虚拟现实（VR）应用至关重要。在本文中，我们引入了一个新的分布外（OOD）新视角合成测试场景，并证明了包括使用正则化技术和数据驱动先验在内的大多数神经渲染方法，在测试视角与训练集偏差较大时，质量会大幅下降，这凸显了需要更稳健的渲染技术。作为解决该问题的一个初步步骤，我们提出了SplatFormer，这是一种新型的点Transformer模型，旨在克服3D高斯溅射在处理OOD视角方面的局限性。通过单次前向传递细化3DGS表示，SplatFormer在这些场景中显著提高了渲染质量，并实现了最先进的性能，优于为稀疏和密集视图输入设计的先前方法。我们模型的成功进一步凸显了将Transformer集成到逼真渲染工作流程中的潜力。

局限性和未来工作。我们的方法有几个局限性，为未来工作提供了方向。首先，尽管在所有考虑的基线方法中表现最佳，但它仍然难以重建精细细节和复杂纹理。其次，通过扩展训练示例和增强合成光照的真实性，可以改进对真实世界捕获的泛化能力。第三，将我们的方法应用于细化2DGS可能会进一步改进OOD-NVS结果。最后，训练我们的方法以去除无界场景中和具有更广泛OOD相机设置的OOD-NVS伪影将很有价值。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。