专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
51好读  ›  专栏  ›  计算机视觉工坊

嫌3DGS又慢又占内存?LocoGS:96倍压缩!2.4倍加速!更高渲染质量!

计算机视觉工坊  · 公众号  ·  · 2025-01-22 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Locality-aware Gaussian Compression for Fast and High-quality Rendering

作者:Seungjoo Shin, Jaesik Park, Sunghyun Cho

机构:POSTECH、Seoul National University

原文链接:https://arxiv.org/abs/2501.05757

1. 导读

我们提出了局部感知的3D高斯分布(3DGS)框架LocoGS,该框架利用3D高斯分布的空间相干性对体积场景进行紧凑建模。为此,我们首先分析了3D高斯属性的局部一致性,并提出了一种新的位置感知3D高斯表示,该表示使用具有最小存储需求的神经场表示来有效地编码局部一致性高斯属性。在新的表示之上,LocoGS经过精心设计,具有额外的组件,如密集初始化、自适应球谐带宽方案和针对不同高斯属性的不同编码方案,以最大限度地提高压缩性能。实验结果表明,对于典型的真实世界3D数据集,我们的方法优于现有的紧凑高斯表示的绘制质量,同时从54.6×到96.6×压缩存储大小和从2.1×至2.4×渲染速度比3DGS快。甚至我们的方法也显示了平均2.4×在压缩性能相当的情况下,渲染速度高于最先进的压缩方法。

2. 效果展示

图5:Mip-NeRF360场景的定性结果。渲染速度、LPIPS和存储大小在每个子图的底部显示。

3. 引言

三维表示技术的进步推动了新视角合成的发展,其目标是对体积场景进行建模,以渲染出逼真的新视角图像。神经辐射场(Neural Radiance Field,NeRF)及其变体在一组RGB图像和相应相机参数的基础上,于神经渲染方面展现出了令人瞩目的性能。辐射场技术的进展主要集中在提高渲染质量、加快收敛速度以及提升渲染速度上。

最近,三维高斯溅射(3D Gaussian Splatting,3DGS)提出了一种高效的基于点的三维表示方法,该方法使用被称为三维高斯体的显式基元来表示体积场景。虽然现有的辐射场在实际应用中需要在渲染质量和渲染速度之间做出权衡,但3DGS作为一种具有前景的三维表示方法,相较于之前的方法具有显著优势,包括高渲染质量和实时渲染速度。

尽管3DGS性能出众,但由于需要显式存储大量高斯参数,因此其对存储成本的要求很高。尤其是,表示一个三维场景需要大量高斯体,数量可能高达数百万个,尤其是在处理复杂场景时,而每个高斯体又包含多个显式属性,包括位置、颜色、不透明度和协方差。因此,存储大小很容易超过1GB。因此,迫切需要一种紧凑的3DGS表示方法,以满足实际三维表示中对存储空间的小需求。 推荐课程: 实时400FPS!高精NeRF/Gaussian SLAM定位与建图

为解决3DGS过高的存储需求,最近已有一些尝试,如剪枝技术,该技术会剪除贡献较小的高斯体。此外,还引入了量化技术,通过离散化的数据表示来呈现高斯属性,从而降低存储需求。然而,尽管这些方法的压缩性能显著,但超过一定阈值的过度量化会显著降低渲染质量,因为其压缩仅基于属性值的全局分布,而未考虑局部上下文。另一种值得注意的工作是基于锚点的方法。这些方法通过采用视图自适应神经高斯属性和一种新颖的渲染方案(该方案可在统一的渲染管道中解压神经高斯属性并共同渲染高斯体),展示了出色的压缩比和渲染质量。尽管其压缩性能出众,但其渲染方案所需的渲染时间比3DGS多30%,这使其在需要高速渲染的应用中不太实用,例如,在移动设备上渲染大规模场景。

为实现高压缩性能,同时保持3DGS渲染管道的渲染效率,本文提出了一种新的局部感知紧凑3DGS框架LocoGS。高斯体在附近的高斯体之间表现出强烈的局部一致性。受此启发,我们的框架引入了一种新的三维高斯表示方法,该方法利用了高斯体的空间一致性。我们的表示方法采用了基于网格的神经场表示,能够对体积场景中的连续物理量进行紧凑建模。具体而言,我们的表示方法将局部一致的高斯属性编码到多分辨率哈希网格中,该网格可使用稀疏体素网格表示来表征基于点的表示的稀疏分布结构。与基于锚点的方法不同,我们的表示方法无需任何修改即可使用原始的3DGS渲染管道,从而保持了原始管道的渲染效率。

除了局部感知的三维高斯表示方法外,我们的框架还采用了多个组件来最小化存储需求,并提升渲染速度和质量。具体而言,我们的框架采用了密集点云初始化、高斯剪枝、自适应球谐(Spherical Harmonics,SH)带宽方案以及专为不同高斯属性定制的量化和编码方案。结合所有这些,我们的方法在渲染质量上优于现有的紧凑高斯表示方法,同时实现了54.6倍至96.6倍的压缩存储大小和2.1倍至2.4倍的渲染速度(相较于3DGS)。我们的方法还展示了比最先进的压缩方法HAC平均高出2.4倍的渲染速度,同时保持了相当的压缩性能。

4. 主要贡献

我们的贡献总结如下:

• 我们提出了LocoGS,这是一种局部感知的紧凑3DGS框架,利用三维高斯体的局部一致性来实现高压缩比和渲染速度。

• 为此,我们分析了高斯体的局部一致性(这在以前的工作中一直被忽视),并提出了一种局部感知的三维高斯表示方法。

• 在新颖表示的基础上,LocoGS精心设计了额外的组件,如密集初始化、高斯剪枝、自适应SH带宽方案以及针对不同高斯属性的量化和编码方案,以最大限度地提高压缩性能。

• 实验结果表明,LocoGS在压缩性能和渲染速度方面明显优于现有方法。

5. 方法

图2展示了我们的表示的概览。给定一个高斯基元,我们通过输入其位置来检索与其隐式属性相对应的局部特征。然后,将局部特征输入到每个属性的多层感知器(Multi-Layer Perceptron,MLP)中:归一化尺度、旋转、不透明度以及残差SH系数。

最后,得到高斯体G的协方差矩阵。同样地,可以得到完整SH系数。为了使用我们的表示来表示无界场景,我们采用了坐标收缩方案来进行神经场表示。

图3展示了基于局部感知的三维高斯表示的LocoGS的压缩和解压缩管道。给定目标场景的一组输入图像,我们的压缩管道首先执行LocoGS表示学习步骤,以学习目标场景的紧凑表示,并通过量化和编码进一步压缩学习到的属性。对于解压缩,我们的方法执行解码和反量化以重建LocoGS表示。然后,从LocoGS表示中,它重建了一个传统的高斯表示,该表示以显式形式存储所有属性,以实现高效渲染。

一旦获得目标场景的三维高斯表示,我们还将进一步压缩显式属性和隐式属性,以实现更紧凑的存储大小。图3展示了编码过程的概览。为了压缩显式属性,我们为不同的属性采用了不同的编码方案。具体而言,我们采用了几何点云压缩(Geometry-based Point Cloud Compression,G-PCC)来压缩位置,这是MPEG针对几何点云压缩的标准编解码器。对于其他属性,我们采用了熵编码。然而,虽然熵编码方案保留了数据的顺序,但G-PCC没有做到这一点,因此在编码后会丢失位置与其他显式属性之间的关联。因此,为了保持位置与其他显式属性之间的关联,我们在编码属性之前首先沿着莫顿曲线对高斯体进行排序。在解压缩阶段,我们通过在解码后对位置进行排序来重建位置与其他属性之间的关联。

6. 实验结果

7. 总结 & 局限性

在本文中,我们介绍了LocoGS,这是一种局部感知的紧凑3DGS框架,旨在解决高斯基元对存储的大量需求。为此,我们首先探索了高斯属性的局部一致性,并利用这些属性来设计了一种存储高效的表示方法。基于这种新颖的表示方法,我们提出了一个精心设计的框架,并加入了额外的组件,以最大限度地提高压缩性能。我们的实验证明,与现有方法相比,我们的方法在存储大小、渲染质量和渲染速度方面表现出色的压缩性能。

局限性:尽管性能出众,但我们的表示方法的训练时间比现有方法更长,每个场景大约需要一个小时。此外,由于需要对哈希网格和高斯属性进行梯度计算,我们的表示学习过程比3DGS需要更多的内存空间,这对大规模场景提出了挑战。因此,需要通过采用优化技术来加速神经表示的计算,从而提高训练效率。我们的方法假设了一个立方体形状、以对象为中心的场景来设置哈希网格的超参数,这可能对大规模场景中的复杂结构不太有效。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球







请到「今天看啥」查看全文