0. 论文信息
标题:GaussianSpa: An "Optimizing-Sparsifying" Simplification Framework for Compact and High-Quality 3D Gaussian Splatting
作者:Yangming Zhang, Wenqi Jia, Wei Niu, Miao Yin
机构:University of Texas at Arlington、University of Georgia
原文链接:https://arxiv.org/pdf/2411.06019
代码链接:https://github.com/miaoyin390/GaussianSpa
官方主页:https://gaussianspa.github.io/
1. 导读
3D Gaussian Splatting (3DGS)已成为新视图合成的主流,利用高斯函数的连续聚合来模拟场景几何。然而,3DGS需要大量的内存来存储大量的高斯数据,这阻碍了它的实用性。为了应对这一挑战,我们引入了GaussianSpa,这是一个基于优化的简化框架,用于紧凑和高质量的3DGS。具体来说,我们将简化公式化为与3DGS训练相关联的优化问题。相应地,我们提出了一种有效的“优化-稀疏化”解决方案,交替解决两个独立的子问题,在训练过程中逐渐对高斯分布施加强稀疏性。我们在各种数据集上的综合评估表明GaussianSpa优于现有的最先进的方法。值得注意的是,与普通3dg相比,GaussianSpa在真实世界的深度混合数据集(10)上实现了0.9 dB的平均PSNR改善,且高斯更少。
2. 引言
新视角合成已成为计算机视觉和图形学领域的关键方向,推动了虚拟现实、增强现实和沉浸式媒体体验等应用的发展。最近,神经辐射场(NeRF)在该领域崭露头角,因为它能够基于神经网络将场景表示为连续的体积函数,从而从稀疏的输入视角生成高质量、逼真的图像。然而,NeRF通常需要大量的计算资源和较长的训练时间,这使得它在实时应用和大规模重建方面不太实用。
三维高斯溅射(3DGS)已成为一种强大的替代方案,它利用高斯函数的连续聚合来建模场景的几何形状和外观。与依赖神经网络来近似体积辐射场的NeRF不同,3DGS直接使用一组高斯函数来表示场景。这种方法在捕捉细节和平滑过渡方面表现出色,在训练和渲染速度方面具有显著优势。
与NeRF相比,3DGS在保持较高视觉保真度的同时降低了计算开销,使其更适合需要质量和性能的交互式应用。
尽管具有诸多优点,但3DGS面临着巨大的内存需求,这阻碍了其实用性。主要问题是,表示复杂场景需要存储大量高斯函数,这些函数会消耗大量内存。每个高斯函数都会占用内存空间来存储其参数,包括位置、协方差和颜色属性。在密集采样的场景中,高斯函数的数量庞大,导致内存使用量超过了典型硬件的容量,这使得处理高分辨率场景变得困难,并限制了其在资源受限环境中的适用性。
现有工作,如Mini-Splatting、LightGaussian、LP-3DGS、EfficientGS和RadSplat,主要通过移除一定数量的高斯函数来缓解这个问题。诸如剪枝和采样等技术旨在根据手工制作的准则(如不透明度、重要性分数(命中计数)、主导基元和二进制掩码)丢弃不重要的高斯函数。然而,这些准则通常仅从单个启发式角度来确定高斯点的重要性,这在动态场景或不同光照条件下限制了其鲁棒性。此外,一次性突然移除可能会导致永久丢失对视觉合成至关重要的高斯函数,即使经过长期训练,也难以恢复原始性能。因此,虽然这些方法可以在一定程度上减轻内存和存储负担,但它们通常会导致渲染结果不佳,出现细节丢失和视觉伪影,从而降低了合成视角的质量。
在本文中,我们提出了一个基于优化的简化框架GaussianSpa,用于实现紧凑且高质量的三维高斯溅射。在所提出的框架中,我们将3DGS简化制定为目标高斯数量下的约束优化问题。然后,我们为所制定的问题提出了一种高效的“优化-稀疏化”解决方案,通过将其分解为两个简单的子问题,并在“优化”步骤和“稀疏化”步骤中交替求解。GaussianSpa不是永久移除一定数量的高斯函数,而是将“优化-稀疏化”算法融入训练过程,逐渐对训练后的高斯函数施加显著的稀疏属性。因此,我们的GaussianSpa可以同时最大限度地保留原始高斯函数的信息,并减少到所需数量的高斯函数,从而提供紧凑的3DGS模型,并实现高质量的渲染。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
3. 效果展示
我们提出了GaussianSpa,实现了高质量和紧凑的视图合成,具有出色的细节渲染。与现有的最先进的方法Mini-Splatting相比,我们的GaussiansSpa可以用更少的Gaussian更准确地捕捉细节丰富的纹理和背景。
基于人为标准的剪枝方法的PSNR曲线。所有方法在迭代25K时都去除了85%的高斯分布。
4. 主要贡献
我们的贡献可以概括如下:
• 我们提出了一个通用的3DGS简化框架,将简化目标制定为优化问题,并在3DGS训练过程中求解。在求解所制定的优化问题时,我们提出的框架逐渐将高斯函数限制到目标稀疏性约束中,而不显式移除特定数量的点。因此,GaussianSpa可以最大限度地保留信息,并将其平滑地转移到稀疏高斯函数中,这些函数来自原始模型。
• 我们为所制定的问题提出了一种高效的“优化-稀疏化”解决方案,该方案可以以可忽略的成本融入3DGS训练,分别解决两个子问题。在“优化”步骤中,我们使用梯度下降法优化附加正则化项的原始损失函数。在“稀疏化”步骤中,我们将辅助高斯函数解析地投影到约束的稀疏空间中。
• 我们通过在各种复杂场景上进行的大量实验对GaussianSpa进行了全面评估,结果表明,与现有方法相比,其渲染质量有所提高。特别是,与基本的3DGS相比,GaussianSpa使用的高斯函数数量减少了高达10倍,在Mip-NeRF 360和Tanks&Temples数据集上平均提高了0.4 dB,在Deep Blending数据集上提高了0.9 dB。此外,我们还进行了各种视觉质量评估,结果表明,GaussianSpa能够高质量地渲染细节和稀疏的三维高斯视图。
5. 方法
在提出的将“优化-稀疏化”集成的训练过程中,高斯函数表现出显著的稀疏性特征。换句话说,一定数量的高斯不透明度接近零,这意味着这些高斯函数对渲染几乎没有贡献,因此可以直接移除。随着冗余高斯函数的适当移除,我们的简化3DGS模型在轻微调整后即可表现出优越的性能,甚至略高于原始3DGS。GaussianSpa的总体工作流程如图3所示。
我们可视化了在Room场景上训练的高斯不透明度分布随峰值信噪比(PSNR)的演变,如图4所示。观察发现,GaussianSpa的高斯不透明度分布与原始3DGS明显不同——在GaussianSpa中,“零”高斯函数与其余高斯函数之间存在明显差距,而PSNR则持续增加。这意味着GaussianSpa已成功对“非零”高斯函数施加了显著的稀疏属性并保留了信息。在25K次迭代时,我们移除了所有“零”高斯函数,并进行了轻微调整,进一步提高了性能,最终获得了一个紧凑且高质量渲染的模型。
6. 实验结果
表1总结了与各种现有方法相比的定量结果。该表显示,我们提出的高斯空间(GaussianSpa)在所有三个指标上都优于基线方法3DGS,且使用的高斯点数量显著更少。具体而言,在将高斯点减少6倍后,高斯空间仍比原始3DGS的峰值信噪比(PSNR)提高了0.4分贝(dB)。与其他基于标准的简化方法(包括EAGLES、Mini-Splatting、Taming 3DGS和CompGS)以及基于可学习掩码的方法(CompactGaussia和LP-3DGS)相比,我们的高斯空间在使用更少高斯点的情况下仍表现出显著改进。特别是,与LP-3DGS相比,高斯空间在甚至减少3倍高斯点的情况下仍实现了高达0.7 dB的PSNR提升。这些结果从数量上证明了高斯空间的优越性。
我们还绘制了关于Room和Kitchen场景中高斯点减少率的质量曲线(,展示了高斯空间对于不同数量剩余高斯点的鲁棒性。图7显示,在多个高斯点减少率下,高斯空间平均比最先进的方法Mini-Splatting高出0.5 dB。
7. 总结 & 未来工作
在本文中,我们提出了一种基于优化的3DGS简化框架——高斯空间(GaussianSpa),用于紧凑且高质量的稀疏视图合成。高斯空间将3DGS简化问题表述为一个在高斯不透明度上具有稀疏性约束的约束优化问题。然后,我们提出了一种“优化-稀疏化”解决方案,以在3DGS训练过程中高效地解决该问题。我们在多个数据集上对提出的高斯空间进行了综合评估,包括定量结果和定性分析,证明了与现有最先进方法相比,在使用更少高斯点的情况下,高斯空间在渲染质量上具有优越性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
「
3D视觉从入门到精通
」