专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
51好读  ›  专栏  ›  计算机视觉工坊

上交开源HAC++:100倍压缩3D GS!更高质量!

计算机视觉工坊  · 公众号  ·  · 2025-01-24 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:HAC++: Towards 100X Compression of 3D Gaussian Splatting

作者:Yihang Chen, Qianyi Wu, Weiyao Lin, Mehrtash Harandi, Jianfei Cai

机构:Shanghai Jiao Tong University, Monash University

原文链接:https://arxiv.org/abs/2501.12255

代码链接:https://github.com/YihangChen-ee/HAC-plus

1. 导读

3D Gaussian Splatting (3DGS)是一种很有前途的新视图合成框架,具有快速和高保真的渲染速度。然而,大量的高斯分布及其相关属性需要有效的压缩技术。然而,高斯点云(或本文中的锚点)的稀疏性和无组织性给压缩带来了挑战。为了实现紧凑的大小,我们提出了HAC++,它利用无组织锚点和结构化哈希网格之间的关系,利用它们的互信息进行上下文建模。此外,HAC++捕获锚内上下文关系,以进一步增强压缩性能。为了便于熵编码,我们利用高斯分布来精确估计每个量化属性的概率,其中提出了自适应量化模块来实现这些属性的高精度量化,以提高保真度恢复。此外,我们结合了自适应掩蔽策略,以消除无效的高斯和锚。总的来说,当在所有数据集上平均时,与普通3dg相比,HAC++实现了超过100倍的显著大小缩减,同时提高了保真度。与Scaffold-GS相比,它的尺寸缩小了20倍以上。

2. 效果展示

我们的核心思想是通过结构化的散列网格进一步利用锚的内在一致性,以获得更紧凑的3DGS表示。

不同数据集场景的定性比较。PSNR和大小结果显示在左下角。

3. 方法

我们的HAC++框架概述。建立在脚手架上-GS(左边的)将锚点及其属性引入到神经预测3D高斯属性中,HAC++通过对锚点之间和锚点内部的关系进行建模来增强压缩。(对吧):该框架由哈希网格辅助上下文(HAC)模块和用于概率估计的锚内上下文模块组成。此外,HAC在用于熵编码的自适应量化模块(AQM)中量化锚属性值。自适应偏移屏蔽模块(中间)也被合并以剪除冗余的高斯和锚点。 推荐课程: 实时400FPS!高精NeRF/Gaussian SLAM定位与建图

4. 实验结果

5. 总结 & 局限性

我们探索了无组织、稀疏的Gaussians(或锚点)与结构良好的哈希网格之间的关系,利用它们之间的相互信息来实现压缩的3DGS表示。通过集成哈希网格辅助上下文(HAC)模块和锚点上下文模型,我们的HAC++方法实现了SOTA压缩性能。通过综合分析,广泛的实验验证了HAC++及其技术组件的有效性。通过解决3DGS表示中存储要求大的重大挑战,我们的工作为大场景中的部署铺平了道路。

局限性。HAC++的主要局限性在于与基础方法Scaffold-GS相比,由于额外的损失项和上下文模型的引入,其训练时间增加。未来的工作可以探索轻量级的上下文模型设计来缓解这个问题。此外,HAC++通过中间哈希网格间接建立了锚点之间的关系。研究直接建模锚点之间关系的方法可以提供消除几余的替代策略。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结







请到「今天看啥」查看全文