专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
新法治报  ·  刚刚,中国队大胜日本队! ·  3 天前  
新法治报  ·  刚刚,中国队大胜日本队! ·  3 天前  
军武次位面  ·  韩国军队单兵口粮里面有什么?泡菜吗? ·  4 天前  
51好读  ›  专栏  ›  3DCV

三星新作Trick-GS:让3D GS加速2倍!压缩40倍!质量相当!

3DCV  · 公众号  ·  · 2025-01-29 00:12

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:Trick-GS: A Balanced Bag of Tricks for Efficient Gaussian Splatting

作者:Anil Armagan, Albert Saà-Garriga, Bruno Manganelli, Mateusz Nowak, Mehmet Kerim Yucel

机构:Samsung R&D Institute UK (SRUK)

原文链接:https://arxiv.org/abs/2501.14534

1. 导读

用于3D重建的高斯分布(GS)由于其快速的训练、推理速度和高质量的重建而变得非常流行。然而,基于GS的重建通常由数百万高斯函数组成,这使得它们很难在智能手机等计算受限的设备上使用。在本文中,我们首先提出了一个有效的GS方法的进展的原则性分析。然后,我们提出了Trick-GS,它是几个策略的仔细组合,包括(1)利用分辨率、噪声和高斯标度的渐进训练,(2)学习根据它们的重要性修剪和屏蔽图元和SH带,以及(3)加速的GS训练框架。Trick-GS向资源受限的GS迈出了一大步,其中更快的运行时间、更小和更快的模型收敛是最重要的考虑因素。我们在三个数据集上的结果表明,与普通GS相比,Trick-GS实现了高达2倍的训练速度,40倍的磁盘大小和2倍的渲染速度,同时具有相当的准确性。

2. 效果展示

方法的定性比较。我们的方法在保持低训练时间和高压缩率的同时,可以恢复更一致的文本和背景(顶部),或更好的金属棚栏结构(底部)。我们展示了放大的预测图像(b-e),用于裁剪区域,用红色矩形表示真实图像(a)中的裁剪区域,用绿色圆圈表示改进。

视觉结果(a)来自香草3DGS(第一行)和一个使用渐进分辨率策略进行训练(第二行)的模型,起始尺度为0.125。我们使用MipNeRF360数据集中的“花园”,并放大以清晰显示改进(b)和(c)。

3. 主要贡献

三维重建是计算机视觉领域的一个长期研究课题。在机器人技术中的应用,虚拟现实和多媒体.。这是一个臭名昭著的问题,因为它需要以密集、准确的方式将二维图像提升到三维空间。高斯点状法(GS)是目前最先进的三维重建方法,因为它具有快速染、收敛和高精度的特点。然而,由于使用了数百万的高斯算法,它往往具有较大的磁盘尺寸,与基于哈希网格的NeRF方法相比,需要更长的训练时间。 推荐课程: 实时400FPS!高精NeRF/Gaussian SLAM定位与建图

在本文中,为了朝着设备友好的GS迈出一步,我们对产生高效GS管道的各种方法进行了原则性分析。这些包括高斯修剪、渐进训练、模糊和球调和掩蔽。经过仔细的探索,我们然后提出Trick-GS,这是一种通过系统地结合这些方法创建的GS方法。Trick-GS在多个基准数据集上具有与vanila GS和其他紧凑GS方法相当的准确性,并且与其他方法相比,训练速度快2倍,磁盘大小小40倍,渲染速度快2倍。此外,Trick-GS非常灵活,可以调整设计以优先考虑管道的不同方面,例如收敛和渲染速度、准确性和磁盘大小。

4. 实验结果

5. 总结 & 未来工作

我们提出了一种从文献中采用的策略混合,以获取紧凑的3DGS表示。我们从文献中精心设计和选择了策略,并展示了具有竞争力的实验结果。我们的方法将3DGS的训练时间减少了1.7倍,存储需求减少了23倍,将FPS提高了2倍,同时保持与基线相当的品质。我们的方法的优势在于可以根据应用/设备需求轻松调整,并且可以通过文献中的后处理阶段进一步改进,例如:码本学习,哈夫曼编码。我们认为,需要一个基于设备需求的动态紧凑型学习系统,因此将此类系统的自动化留待未来工作。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结







请到「今天看啥」查看全文