0. 论文信息
标题:On Scaling Up 3D Gaussian Splatting Training
作者:Hexu Zhao, Haoyang Weng, Daohan Lu, Ang Li, Jinyang Li, Aurojit Panda, Saining Xie
机构:New York University、Pacific Northwest National Laboratory
原文链接:https://arxiv.org/abs/2406.18533
代码链接:https://daohanlu.github.io/scaling-up-3dgs/
1. 导读
三维高斯分布(3DGS)由于其优越的视觉质量和渲染速度而越来越受欢迎。然而,3DGS训练目前在单个GPU上进行,由于内存限制,限制了其处理高分辨率和大规模3D重建任务的能力。我们介绍了格伦戴尔,这是一个分布式系统,旨在划分3DGS参数并在多个GPU上并行计算。由于每个高斯影响渲染像素的一个小的动态子集,格伦戴尔采用稀疏的所有对所有通信来将必要的高斯传输到像素分区,并执行动态负载平衡。与现有的每次使用一个相机视图图像进行训练的3DGS系统不同,格伦戴尔支持使用多个视图进行批量训练。我们探索了各种优化超参数缩放策略,发现简单的sqrt(批量大小)缩放规则非常有效。使用大规模、高分辨率场景的评估表明,格伦戴尔通过在多个GPU上放大3DGS参数来提高渲染质量。在碎石数据集上,我们通过在16个GPU上分布4040万高斯分布来实现27.28的测试PSNR,相比之下,在单个GPU上使用1120万高斯分布来实现26.28的PSNR。
2. 效果展示
3D高斯Splatting (3D GS)已经成为新颖的3D视图合成的新兴和流行的技术。它的流行是因为它提供了比以前类似的方法(如NeRF)更快的训练和渲染。然而,大多数现有的3D GS管道仅限于使用单个GPU进行训练,当将3D GS应用于更高分辨率或更大规模的场景时,内存和计算约束成为瓶颈。为了解决这些限制,我们的系统支持快速分布式训练,增加高斯数和更大批量,以提高重建质量。
使用我们的分布式3D高斯渲染系统Grendel进行的两幅大规模高分辨率场景重建。这两幅图像都是使用16个GPU渲染的。左图和右图分别使用4000万和2400万个高斯表示。Grendel为这两幅场景都实现了最先进的质量(PSNR)。
3. 主要贡献
我们描述了Grendel的设计和实现,这是一个可扩展、内存高效、自适应的分布式训练系统,适用于3DGS。Grendel允许批量3DGS训练进行扩展,并在多达32个GPU上运行。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
我们探索了3DGS的大批量训练动态,以确定一个简单的sqrt(batchsize)学习率缩放策略,该策略能够对大于1的批量大小进行高效、无需超参数调优的训练。
我们表明,Grendel能够实现高分辨率的大规模场景渲染:我们使用16个GPU,为MegaNERF的大规模碎石场景渲染4K图像。为了这个场景,Grendel使用了4040万个高斯函数,实现了27.28的PSNR,超过了当前最先进的水平。所需的内存超过了单个GPU的容量,因此在没有Grendel技术的情况下,很难以这种质量渲染这个场景。
4. 方法
我们设计Grendel来利用3D GS固有的混合并行性。对于表现出高斯并行性的任务,如投影、颜色计算和参数存储,Grendel将高斯分布在GPU上。对于逐像素渲染和损失计算,像素分布在GPU上。然后,Grendel利用空间局部性,使用稀疏的全对全通信将高斯信号传输到指定的GPU。此外,Grendel采用了一个动态负载平衡器,该平衡器利用来自先前训练迭代的观察来划分图像,旨在最小化工作负载不平衡。
5. 实验结果
6. 总结
我们已经描述了Grendel,一个分布式3D高斯训练系统。我们的评估表明,Grendel可以从超出预期的大场景中渲染出高分辨率高质量的图像,并且它展示了近乎完美的性能和内存可扩展性。我们计划开源Grendel,以便社区可以更轻松地实验基于3DGS的重建技术,用于大型场景。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、