ICLR'25高分开源！Grendel：3DGS的分布式训练！PSNR暴涨！

3D视觉工坊 · 公众号 · · 2025-02-02 09:35

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：On Scaling Up 3D Gaussian Splatting Training

作者：Hexu Zhao, Haoyang Weng, Daohan Lu, Ang Li, Jinyang Li, Aurojit Panda, Saining Xie

机构：New York University、Pacific Northwest National Laboratory

原文链接：https://arxiv.org/abs/2406.18533

代码链接：https://daohanlu.github.io/scaling-up-3dgs/

1. 导读

三维高斯分布(3DGS)由于其优越的视觉质量和渲染速度而越来越受欢迎。然而，3DGS训练目前在单个GPU上进行，由于内存限制，限制了其处理高分辨率和大规模3D重建任务的能力。我们介绍了格伦戴尔，这是一个分布式系统，旨在划分3DGS参数并在多个GPU上并行计算。由于每个高斯影响渲染像素的一个小的动态子集，格伦戴尔采用稀疏的所有对所有通信来将必要的高斯传输到像素分区，并执行动态负载平衡。与现有的每次使用一个相机视图图像进行训练的3DGS系统不同，格伦戴尔支持使用多个视图进行批量训练。我们探索了各种优化超参数缩放策略，发现简单的sqrt(批量大小)缩放规则非常有效。使用大规模、高分辨率场景的评估表明，格伦戴尔通过在多个GPU上放大3DGS参数来提高渲染质量。在碎石数据集上，我们通过在16个GPU上分布4040万高斯分布来实现27.28的测试PSNR，相比之下，在单个GPU上使用1120万高斯分布来实现26.28的PSNR。

2. 效果展示

3D高斯Splatting (3D GS)已经成为新颖的3D视图合成的新兴和流行的技术。它的流行是因为它提供了比以前类似的方法(如NeRF)更快的训练和渲染。然而，大多数现有的3D GS管道仅限于使用单个GPU进行训练，当将3D GS应用于更高分辨率或更大规模的场景时，内存和计算约束成为瓶颈。为了解决这些限制，我们的系统支持快速分布式训练，增加高斯数和更大批量，以提高重建质量。

使用我们的分布式3D高斯渲染系统Grendel进行的两幅大规模高分辨率场景重建。这两幅图像都是使用16个GPU渲染的。左图和右图分别使用4000万和2400万个高斯表示。Grendel为这两幅场景都实现了最先进的质量(PSNR)。

3. 主要贡献

我们描述了Grendel的设计和实现，这是一个可扩展、内存高效、自适应的分布式训练系统，适用于3DGS。Grendel允许批量3DGS训练进行扩展，并在多达32个GPU上运行。推荐课程：实时400FPS！高精NeRF/Gaussian SLAM定位与建图。

我们探索了3DGS的大批量训练动态，以确定一个简单的sqrt(batchsize)学习率缩放策略，该策略能够对大于1的批量大小进行高效、无需超参数调优的训练。

我们表明，Grendel能够实现高分辨率的大规模场景渲染:我们使用16个GPU，为MegaNERF的大规模碎石场景渲染4K图像。为了这个场景，Grendel使用了4040万个高斯函数，实现了27.28的PSNR，超过了当前最先进的水平。所需的内存超过了单个GPU的容量，因此在没有Grendel技术的情况下，很难以这种质量渲染这个场景。

4. 方法

我们设计Grendel来利用3D GS固有的混合并行性。对于表现出高斯并行性的任务，如投影、颜色计算和参数存储，Grendel将高斯分布在GPU上。对于逐像素渲染和损失计算，像素分布在GPU上。然后，Grendel利用空间局部性，使用稀疏的全对全通信将高斯信号传输到指定的GPU。此外，Grendel采用了一个动态负载平衡器，该平衡器利用来自先前训练迭代的观察来划分图像，旨在最小化工作负载不平衡。