专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

3DGS应用层最新进展：3DGS 和NeRF 哪个会赢？（粉丝福利，免费送书）

计算机视觉研究院 · 公众号 · · 2024-09-20 12:30

正文

点击蓝字关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID ｜ 计算机视觉研究院

学习群 ｜ 扫码在主页获取加入方式

计算机视觉研究院专栏

Column of Computer Vision Institute

3DGS应用层最新进展：3DGS 和NeRF 哪个会赢？

福利见文末

3DGS在大规模场景和自动驾驶中的进展

2024 年伊始，浙江大学与理想汽车的研发团队提出了一种名为Street Gaussians的模型化方法，该方法主要用于动态城市场景建模，通过动静合成能力实现场景仿真。与《三维视觉新范式：深度解析NeRF与3DGS技术》一书9.5节中 NeRF 在自动驾驶里的应用一致，该方法是在自动驾驶仿真方向上使用 3DGS 实现的版本。二者的 street Gauussians 的框架性与UniSim、Mars 和 Emerne rf 等逻辑一致，如背景和车辆分离建模，车辆动态建模，车辆可被添加、移除等。 Street Gaussians 的算法流程如图所示。

类似于 MARS，Street Gaussians 通过标注将场景背景和动态车辆分离，并分别建模。不同之处在于，Street Gaussians 使用三维高斯对各模块进行建模，并生成各三维高斯的位置、透明度、协方差等信息。在颜色外观方面，背景被指定了球谐函数系数，而动态车辆则绑定了一个四维球谐函数模型。因此其整体的渲染效果非常好，可以实现高分辨率的实时渲染。

训练阶段的损失函数设计与此相似，主要包括颜色的重建损失、重建后与真值的语义损失和对漂浮物的正则约束，其中以重建损失为主。

由于场景中的背景、道路等与动态的车辆是完全分离的，可以在场景中操控车辆的位置和行为进行仿真，因此 Street Gaussians 的功能与 MARS 相当。从模拟的结果看，Street Gaussians的渲染速度可达 133fps，远超 NeRF。

截至本文编写时，此项研究尚未开源，因此其效果无法复现。从理论上看，实现这样的速度并不意外，使用 3DGS 进行自动驾驶模拟和仿真的应用的结果也在预期内。这充分展示了3DGS 对场景构建、场景合成及编辑的强大能力。

3DGS在数字人重建方向的进展

在三维表达应用中，数字人生成领域的活跃程度一向颇高。这是因为它在学术研究方面具有丰富的可挖掘和产出点，同时拥有巨大的商业价值。无论是在 NeRF 还是 3DGS 领域，都有针对图像、单目视频、多视角视频等方面进行的数字人重建的大量研究。以 3DGS 方向为例，短短几个月内就出现了几十项研究成果，其中最引人关注的是来自苹果、马克斯·普朗克研究所和苏黎世联邦理工学院的成果 Human Gaussian Splats（HUGS）。从生成目标上看，它与浙江大学提出的面向动态人体建模的可动画 NeRF 高度相似。但从性能上看，HUGS 使用单目视频，在 30 分钟内即可使用 50 ∼ 100 帧图像学习到可生成动画的数字人，远远超越了 NeRF方案。HUGS 的算法流程如图所示。

HUGS 使用 Human in 4D 对输入的每张图像估计出 SMPL 模型的位姿参数和身体参数，同时将人体与静态场景分离，对静态背景进行 3DGS 建模。人体部分的参数化是通过人体三维高斯的典范空间以及特征三平面实现的，从而实现了整个空间的表达。

为了生成渲染人体所需的参数，HUGS 设计了三个不同的 MLP：DA、DG 和 DD，分别用于预测颜色的球谐函数系数、不透明度，以及位置的平均位移、旋转和伸缩，也用于线性混合蒙皮（LBS）。因此，可以通过时间查询来获取控制数据和数字人的位姿，然后与背景融合，使用 3DGS 渲染方法得到最终的图像。

除 HUGS 外，还有大量的使用 3DGS 进行数字人表示的成果，如 GaussianAvatars、GauHuman、3DGS-Avatar和 Human101等，它们均体现了 3DGS 技术在数字人生成与表达上的有效性和优势。

3DGS在文本生成三维模型上的进展

由于基于文本或图像的生成式三维建模正在如火如荼地发展，相应地，在 3DGS 领域，利用文本或单图生成 3DGS 三维表示的研究不断被提出，并且已经成功地实现了与 NeRF 一样的视觉效果，同时其生成速度超过了 NeRF。其中，最早的一项成果是由北京大学、南洋理工大学和百度公司联合提出的 DreamGaussian。从其命名可以看出，该技术利用了扩散模型生成 3DGS模型。具体而言，DreamGaussian 提出了一种三维生成的框架方法，结合了网格生成和 UV 空间的纹理优化方法，从而能够通过单张图像或文本生成三维模型。从算法结构上看，这有点儿像DreamFusion 的 3DGS 版本。DreamGaussian 可以在 2 分钟内生成高质量且带纹理的网格，相比之前的三维生成方法，速度提升了十倍。DreamGaussian 的算法流程如图所示。

DreamGaussian 的生成过程可以分为以下三个阶段。

1）生成式高斯喷溅

该阶段的目标是利用给定的文本或图像生成一个相应的初始的 3DGS 表达。首先，使用一组标准尺度的、不旋转的三维高斯点来随机初始化 3DGS 表达。然后，在训练过程中不断增加三维高斯点的密度，以拟合输入的先验图像信息，并使用 SDS 对生成结果进行评分，以指导优化过程。如果输入的是图像，则使用前文提到的 Zero-1-to-3 算法生成一个二维扩散模型的先验，以优化扩散模型的学习；如果输入的是文本，则使用 Stable Diffusion 生成目标图像，然后定义SDS 损失来引导优化。

2）提取三维网格

该阶段的目标是利用学习到的 3DGS 表达生成一个带纹理的网格。这部分本应是 3DGS 的基础任务，但到目前为止，只有 SuGaR 的工作专注于网格提取部分，而且其实际测试结果仍有待改进。直接强行提取网格的方法较为低效，因此 DreamGaussian 提出了一个基于分块的局部密度查询方法来获得基础几何体，然后展开 UV 并使用几何的反向映射方法将颜色烘焙到 RGB纹理中。最后，可以使用后处理方法对生成的网格进行几何优化，使结果更为平滑。

3) UV 空间的纹理优化

直接从 3DGS 导出的图像纹理通常较为模糊，受到 SDEdit 的启发，研究者使用任意视角渲染一张模糊的图像，然后通过噪声扰动该图像，使用降噪方法获得一个优化后的纹理图像。通常来说，通过 50 次迭代就能获得质量更高的纹理图像。DreamGaussian 的生成效果如图所示。

可见，一方面，DreamGaussian 的算法流程与 DreamFusion 有许多相似之处，但它能够获得更好的效果；另一方面，达到更好的效果时，所需的生成时间明显减少了。这正是显式表达的优势，通过预测表面相关的结构，可以更直接地得到对物体本身的描述。

在此之后，又陆续出现了 DreamGaussian4D、Align Your Gaussians和 4DGen等三维空间动画级别的生成算法。尽管它们都处于早期阶段，但该领域的技术路径已经清晰可见。

3DGS后期编辑

在 3DGS 生成完毕后，还可以进行后续编辑操作。ETH 的研究团队提出的 Gaussian Group-ing正是此类工作的典范。该方法同时完成了重建任务与分割任务，使得建模过程中得到丰富的物体级别的切割及语义支持。重建完成后，可以进行物体移除、插入合成、重上色等操作，而无须重新训练。Gaussian Grouping 的算法流程如图所示。

首先，在二维空间中通过 SAM 方法进行切分，为场景中的所有物体生成相应的掩码。然后，在不同的视图中匹配掩码的 ID，从而得到具有视角一致性的物体切分效果。接着，利用这个结果进行场景 3DGS 的表达学习，期间对每个物体进行区分，并且清晰地知道它们在 3DGS中的位置及语义信息。最后，通过学习得到的 3DGS 进行正常渲染。

由于场景中的所有物体都是单独表达的，所以后期编辑较为容易。例如，对于物体的移除，只需要删除对应物体的三维高斯点；对于物体位置的调换，只需调整两个独立的三维高斯集合的位置；对于修复任务，只需要移除目标物体，并对该区域使用二维的修复工具（如LAMA）进行处理, 等等。Gaussian Grouping 的后期处理效果与 SPIn-NeRF 的对比如图所示。

Gaussian Grouping 的后期处理效果与 SPIn-NeRF 相当，在有些情况下甚至更佳，且处理速度数倍于 SPIn-NeRF。其主要原因是 3DGS 采用了点云式的显式表达，使几何调整变得更为容易，无须在后期编辑前经历混合表达的构造等过程。此外，同一时期有更多场景编辑的成果被提出，如 GaussianEditor[230] 等，它们都展示了强大的几何和外观调整能力。

3DGS在游戏中的应用

由于 3DGS 对传统图形管线的兼容性远超 NeRF，截至本书编写时，已有多家公司、组织及个体成功地在传统渲染引擎上实现了对 3DGS 的支持。当前，Unreal Engine、Unity 3D 的官方插件商店中已上架 3DGS 的渲染插件，且 Blender 的相关插件也已有可用版本。相较于 NeRF，3DGS 实现这一里程碑的速度更快，且有更多的人具备达成此项成就的能力，这无疑是对该行业蓬勃发展的积极预示。

一些读者可能会纠结 3DGS 和 NeRF 哪个会赢，哪个是未来，应该学习哪个。3DGS 和NeRF 就像同一条大道上的两辆马车，本质上都在追求真实的建模与渲染效果，没有所谓的输赢或对错之分。两种技术的适用场景不同，更多的技术分支也会使整体技术的演化速度加快。如果必须狭义地认为 NeRF 需要 MLP 来构建场景，而 3DGS 则不能使用 MLP，就过于教条了。未来很可能是两者相互融合、取长补短的过程，站在研究者和技术人员的角度，更应关注使用哪些技术解决了什么样的问题。例如，3DGS 使用的底层技术都是在过去已经存在的，它是在NeRF 的启发下将已有技术重新组合和优化的产物。

3DGS 是三维视觉领域的重大突破，有无尽的潜力等待读者去挖掘，它将与 NeRF 技术一起，开启三维沉浸式媒体技术的新纪元。

国内首本NeRF/3DGS 巨作来啦！扫描半价购买！

本书一经上市，便上榜 人工智能热卖榜TOP榜 ，可见大家对三维视觉的关注度之高，也希望通过这本书和社区平台，能够解决新手入门困难和从业人员存在信息差与认知差的问题，让优秀的技术更易于在行业中得到应用。




 


如果喜欢本文
欢迎

3DGS应用层最新进展：3DGS 和NeRF 哪个会赢？（粉丝福利，免费送书）

正文

请到「今天看啥」查看全文