点击下方
卡片
,关注
「3DCV」
公众号
选择
星标
,干货第一时间送达
来源:3DCV
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门独家秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:Trick-GS: A Balanced Bag of Tricks for Efficient Gaussian Splatting
作者:Anil Armagan, Albert Saà-Garriga, Bruno Manganelli, Mateusz Nowak, Mehmet Kerim Yucel
机构:Samsung R&D Institute UK (SRUK)
原文链接:https://arxiv.org/abs/2501.14534
1. 导读
用于3D重建的高斯分布(GS)由于其快速的训练、推理速度和高质量的重建而变得非常流行。然而,基于GS的重建通常由数百万高斯函数组成,这使得它们很难在智能手机等计算受限的设备上使用。在本文中,我们首先提出了一个有效的GS方法的进展的原则性分析。然后,我们提出了Trick-GS,它是几个策略的仔细组合,包括(1)利用分辨率、噪声和高斯标度的渐进训练,(2)学习根据它们的重要性修剪和屏蔽图元和SH带,以及(3)加速的GS训练框架。Trick-GS向资源受限的GS迈出了一大步,其中更快的运行时间、更小和更快的模型收敛是最重要的考虑因素。我们在三个数据集上的结果表明,与普通GS相比,Trick-GS实现了高达2倍的训练速度,40倍的磁盘大小和2倍的渲染速度,同时具有相当的准确性。
2. 效果展示
方法的定性比较。我们的方法在保持低训练时间和高压缩率的同时,可以恢复更一致的文本和背景(顶部),或更好的金属棚栏结构(底部)。我们展示了放大的预测图像(b-e),用于裁剪区域,用红色矩形表示真实图像(a)中的裁剪区域,用绿色圆圈表示改进。
视觉结果(a)来自香草3DGS(第一行)和一个使用渐进分辨率策略进行训练(第二行)的模型,起始尺度为0.125。我们使用MipNeRF360数据集中的“花园”,并放大以清晰显示改进(b)和(c)。
3. 主要贡献
三维重建是计算机视觉领域的一个长期研究课题。在机器人技术中的应用,虚拟现实和多媒体.。这是一个臭名昭著的问题,因为它需要以密集、准确的方式将二维图像提升到三维空间。高斯点状法(GS)是目前最先进的三维重建方法,因为它具有快速染、收敛和高精度的特点。然而,由于使用了数百万的高斯算法,它往往具有较大的磁盘尺寸,与基于哈希网格的NeRF方法相比,需要更长的训练时间。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
在本文中,为了朝着设备友好的GS迈出一步,我们对产生高效GS管道的各种方法进行了原则性分析。这些包括高斯修剪、渐进训练、模糊和球调和掩蔽。经过仔细的探索,我们然后提出Trick-GS,这是一种通过系统地结合这些方法创建的GS方法。Trick-GS在多个基准数据集上具有与vanila GS和其他紧凑GS方法相当的准确性,并且与其他方法相比,训练速度快2倍,磁盘大小小40倍,渲染速度快2倍。此外,Trick-GS非常灵活,可以调整设计以优先考虑管道的不同方面,例如收敛和渲染速度、准确性和磁盘大小。
4. 实验结果
5. 总结 & 未来工作
我们提出了一种从文献中采用的策略混合,以获取紧凑的3DGS表示。我们从文献中精心设计和选择了策略,并展示了具有竞争力的实验结果。我们的方法将3DGS的训练时间减少了1.7倍,存储需求减少了23倍,将FPS提高了2倍,同时保持与基线相当的品质。我们的方法的优势在于可以根据应用/设备需求轻松调整,并且可以通过文献中的后处理阶段进一步改进,例如:码本学习,哈夫曼编码。我们认为,需要一个基于设备需求的动态紧凑型学习系统,因此将此类系统的自动化留待未来工作。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接
、
3D视觉学习路线总结