专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

超过Dust3r！腾讯新作FreeSplatter：无姿势稀疏视图重建的突破性框架！

3D视觉工坊 · 公众号 · · 2024-12-22 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0.这篇文章干了啥？

这篇文章提出了 FreeSplatter ，一个高效且可扩展的框架，旨在解决无姿势稀疏视图重建问题。通过使用单流变压器架构并在统一框架中预测多视图高斯图，FreeSplatter 能够同时实现高质量的 3D 建模和实时相机姿势估计。该框架提供了两种模型变体，分别用于物体中心和场景级重建，展现了优于现有方法的重建质量和姿势估计精度。此外，FreeSplatter 在下游应用（如文本/图像到3D内容创作）中具有巨大潜力，能够解放用户从复杂的相机姿势对齐工作中。尽管如此，文章也指出，FreeSplatter 的预训练阶段依赖深度数据，且需要分别针对物体中心和场景级任务训练不同的模型，未来工作将探讨如何进一步优化这些限制。

下面一起来阅读一下这项工作~

1. 论文信息

论文题目：FREESPLATTER: POSE-FREE GAUSSIAN SPLATTING FOR SPARSE-VIEW 3D RECONSTRUCTION

作者：Jiale Xu, Shenghua Gao等

作者机构：ARC Lab, Tencent PCG等

论文链接：https://arxiv.org/pdf/2412.09573

2. 摘要

现有的稀疏视角重建模型高度依赖准确已知的相机姿态。然而，从稀疏视角图像中推导相机外参和内参面临重大挑战。在这项工作中，我们提出了FreeSplatter，一种高可扩展的前馈式重建框架，能够从未校准的稀疏视角图像中生成高质量的三维高斯分布，并在数秒内恢复其相机参数。FreeSplatter基于简化的Transformer架构构建，包含顺序的自注意力模块，促进多视角图像标记之间的信息交换，并将其解码为像素级的三维高斯原语。预测的高斯原语位于统一的参考坐标系中，允许通过现成的求解器进行高保真度的三维建模和即时的相机参数估计。为了适应物体中心和场景级别的重建，我们在广泛的数据集上训练了FreeSplatter的两个模型变种。在这两种场景中，FreeSplatter在重建质量和姿态估计精度方面均优于现有的最先进方法。此外，我们展示了FreeSplatter在提升下游应用生产力方面的潜力，如文本/图像到三维内容的创作。

3. 效果展示

对于未校准的稀疏视图图像，我们的FreeSplatter可以重建像素级的3D高斯图像，从而在几秒钟内实现高保真的新视图渲染和即时相机姿态估计。FreeSplatter可以处理以对象为中心(向上)和场景级别(向下)的场景。

对象为中心的稀疏视图重构。我们展示了来自谷歌扫描对象数据集的6个样本。值得注意的是，LGM和InstantMesh(第二行和第三行)的结果是用真实值相机姿势(和内在)生成的，而我们的结果(第四行)是以完全无姿势的方式生成的。

基于scannet++的场景级重建。pixelSplat和MVSplat的结果是在真实值输入姿态下获得的，而Splat3R和我们的结果是无姿态的。

基于CO3Dv2的场景级重建。

4. 主要贡献

提出了 FreeSplatter 框架 ：我们提出了一个高可扩展性的无姿势稀疏视图重建框架 FreeSplatter。该框架通过利用单流 Transformer 架构，能够在统一的框架中预测多视角高斯图，从而实现高保真度的 3D 建模和即时相机姿势估计。推荐课程：彻底搞懂大模型数学基础剖析、原理与代码讲解
提供了两种模型变体 ：针对物体中心和场景级重建任务，我们分别提出了两种模型变体。两者均表现出优越的重建质量和姿势估计精度，能够在不同任务上提供出色的性能。
无姿势的稀疏视图重建 ：我们展示了 FreeSplatter 在不依赖相机姿势的情况下，实现了出色的 3D 重建效果，挑战了传统的基于姿势的重建方法，进一步推动了无姿势重建技术的发展。
增强下游应用生产力 ：FreeSplatter 在文本/图像到 3D 内容创作等下游应用中具有巨大潜力，可以解放用户免于处理复杂的相机姿势，大大提高生产力。

5. 基本原理是啥？

单流 Transformer 架构 ：FreeSplatter 利用 Transformer 模型中的单流架构，将多视角图像数据作为输入，通过 Transformer 网络的编码器-解码器结构对这些图像进行处理，从而生成一个统一的多视角高斯图。这种方法避免了传统 3D 重建方法中对相机姿势的依赖，使得重建过程更加高效和灵活。
多视角高斯图的预测 ：在 3D 建模过程中，FreeSplatter 通过预测多个视角的高斯分布图来进行稀疏视图重建。每个高斯图代表了场景或物体的一部分特征信息，模型通过整合这些图像数据来构建完整的 3D 形状。高斯图的使用使得模型能够处理复杂的几何结构，并有效地捕捉细节和纹理。
无姿势重建与相机姿势估计 ：与传统的 3D 重建方法不同，FreeSplatter 不依赖于已知的相机姿势，而是通过其单流 Transformer 架构实现了无姿势重建。它能够根据输入图像生成高精度的 3D 重建结果，并同时进行相机姿势的估计。相机姿势的估计是通过在统一的框架中同时进行 3D 建模和姿势预测来完成的。
任务特定模型变体 ：FreeSplatter 提供了两种模型变体，分别用于物体中心的重建和场景级重建。每种变体都针对不同的应用场景进行了优化，确保了在不同任务中都能够获得优秀的性能。
应用于下游任务 ：FreeSplatter 的无姿势特性使其在多个下游任务中具有巨大的应用潜力，尤其是在文本/图像到 3D 内容创作中。由于不再需要复杂的相机姿势对齐，它大大简化了 3D 内容生成的流程，提高了生产效率。

6. 实验结果

物体中心和场景级重建

FreeSplatter-O vs. PF-LRM
FreeSplatter-O 在物体中心的稀疏视图重建任务中显著优于 PF-LRM (Wang et al., 2024a)，在 OmniObject3D 和 GSO 数据集上，FreeSplatter-O 的 PSNR 提升分别超过了 5 和 7 分。具体而言，FreeSplatter-O 不仅在视觉细节保留上表现更好，而且在重建精度和清晰度上也优于 PF-LRM。通过比较，可以看到 InstantMesh 和 LGM 等现有的大型重建模型（基于3D高斯和三平面NeRF），尽管它们是基于相机姿势的，但仍然无法与 FreeSplatter-O 在稀疏视图重建任务中的表现相提并论，特别是在没有准确相机姿势的情况下，FreeSplatter-O 的表现仍然优异。
FreeSplatter-O vs. LGM, InstantMesh
在与基于姿势的大型重建模型 LGM 和 InstantMesh 的比较中，FreeSplatter-O 在所有评估指标上都超越了这些基于姿势的模型，特别是在 GSO 和 OmniObject3D 数据集上的性能提升超过 5 和 7 点。这表明 FreeSplatter-O 无需相机姿势即可生成更高质量的 3D 重建结果。
FreeSplatter-S vs. PixelSplat, MVSplat
在场景级重建任务中，FreeSplatter-S 在大多数指标上优于 PixelSplat 和 MVSplat ，这两个模型需要相机姿势信息。通过在 ScanNet++ 数据集上的实验，FreeSplatter-S 展现了出色的重建质量和更强的泛化能力。 PixelSplat 和 MVSplat 由于依赖于相机姿势，存在一定的局限性，而 FreeSplatter-S 作为无姿势模型，依然能够在泛化性和重建质量上保持领先。
FreeSplatter-S vs. Splatt3R
相比于 Splatt3R （一种无姿势高斯重建方法），FreeSplatter-S 在场景级重建任务中的表现更加优异。Splatt3R 利用了 MASt3R 模型进行 3D 点回归，但由于其架构冻结和高斯头部训练限制，表现受到约束。而 FreeSplatter-S 采用了端到端训练方法，能够同时优化高斯位置和其他属性，从而实现更高的重建精度。

相机姿势估计

FreeSplatter-O vs. MASt3R
在物体中心数据集上，FreeSplatter-O 显示了相较于 MASt3R 的显著性能提升，特别是在无背景的渲染物体中心数据集上，MASt3R 的表现较差，主要是因为其训练数据与这些合成图像之间存在显著的领域差距。而在场景级数据集（如 ScanNet++ 和 CO3Dv2 ）上，FreeSplatter-S 与 MASt3R 相比，尽管表现略有差距，但依然保持竞争力。由于 FreeSplatter-S 使用了三个数据集（相较于 DUSt3R/MASt3R 更广泛的训练集），因此它的训练范围较小，未来的工作将集中在通过扩展数据集来进一步提高性能。

消融实验

输入视角数量的影响
实验表明，输入视角的数量对重建质量有显著影响。通过对 GSO 样本进行实验，发现随着输入视角数量的增加，重建质量明显提高。相关结果在附录中的 Figure 16 中详细展示。
像素对齐损失的影响
我们还研究了像素对齐损失的作用，通过去除像素对齐损失进行训练，结果显示，缺少像素对齐损失时，所有评估指标（如 PSNR、SSIM、LPIPS）都有显著下降。附录中的 Figure 15 展示了视觉效果，证明应用像素对齐损失后，生成的图像质量更高。

应用

FreeSplatter 展示了在 3D 内容创作领域的巨大潜力。通过将其集成到传统的 3D 生成管道中，FreeSplatter 极大简化了无姿势的 3D 重建任务，尤其在 文本/图像到3D 内容创作中，减少了对复杂相机姿势的依赖。具体来说，用户只需要将多视角图像输入到 FreeSplatter 中，无需再关心相机姿势对齐的问题，从而提高了生产效率。附录中的 Figure 6 展示了通过 MVDream 和 Zero123++ 模型生成的 3D 图像，FreeSplatter 在多视角一致性方面展现出了更强的鲁棒性，能够生成更加清晰的 3D 重建结果。

7. 总结 & 未来工作

在本研究中，我们提出了 FreeSplatter，这是一个高可扩展性的无姿势稀疏视图重建框架。通过利用单流 Transformer 架构，并在统一的框架中预测多视角高斯图，FreeSplatter 实现了高保真度的 3D 建模和即时相机姿势估计。我们提供了两种模型变体，分别用于物体中心和场景级重建，两者均展示了优越的重建质量和姿势估计精度。FreeSplatter 还表现出在提升下游应用生产力方面的巨大潜力，如文本/图像到 3D 内容创作，这可以使用户摆脱处理复杂相机姿势的困扰。

局限性。 尽管 FreeSplatter 展现了良好的性能，但其预训练阶段依赖于深度数据，这使得在没有深度标签的数据集上进行训练变得较为复杂，例如 RealEstate10K 和 MVImgNet（Yu et al., 2023）。此外，FreeSplatter 需要两个不同的模型变体来处理物体中心和场景级重建，而如果有一个统一模型能够同时处理这两个任务，将会更加理想。我们将这一点作为未来的工作方向。

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM