专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
军武次位面  ·  德国人的奇思妙想:“蝗虫”10自行火炮 ·  2 天前  
火石创造  ·  福利 | ... ·  4 天前  
丁香园  ·  取消用药限制,本月起实行! ·  4 天前  
51好读  ›  专栏  ›  计算机视觉工坊

可用于任何高斯Splat!BBSplat:让GS无惧稀疏纹理,推理加速2倍,内存压缩!

计算机视觉工坊  · 公众号  ·  · 2024-11-18 08:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:BillBoard Splatting (BBSplat): Learnable Textured Primitives for Novel View Synthesis

作者:David Svitov, Pietro Morerio, Lourdes Agapito, Alessio Del Bue

机构:Universita degli Studi di Genova、Istituto Italiano di Tecnologia (IIT)、University College London

原文链接:https://arxiv.org/abs/2411.08508

1. 导读

我们提出了一种新的基于纹理几何图元的三维场景表示方法billboard Splatting。BBSplat将场景表示为一组可优化的纹理平面图元,具有可学习的RGB纹理和alpha贴图来控制它们的形状。BBSplat原语可以在任何高斯Splat流水线中使用,作为高斯的替代。当使用较少的图元时,当BBSplat达到超过1200 FPS时,我们的方法相对于3D和2D高斯的定性和定量改进是最显著的。我们的新正则项鼓励纹理具有更稀疏的结构,从而实现有效的压缩,从而减少模型的存储空间。我们的实验在真实的室内和室外场景的标准数据集上显示了BBSplat的效率,如坦克和寺庙,DTU和Mip-NeRF-360。我们展示了PSNR、SSIM和LPIPS指标与最先进水平相比的改进,特别是在使用较少图元的情况下,另一方面,在相同的渲染质量下,推理速度提高了2倍。

2. 引言

新颖视角合成(NVS)是虚拟现实、计算机游戏和电影摄影等多种应用中的关键技术。许多研究致力于开发更高效且能合成更高质量图像的方法。具体而言,用于表示场景的几何基元的选择在定义不同NVS方法的优缺点方面起着关键作用。近期,神经表征方面的突破与基于高斯溅射(Gaussian Splatting)的近期方法相辅相成,展示了新颖视角渲染的最有效方式。

实际上,基于神经辐射场(NeRF)的方法通过使用隐式场景表征(如多层感知器(MLP)的权重)仍在对现实世界复杂场景的捕获中实现了最佳的NVS质量。然而,使用NeRF进行图像渲染的效率较低,因为它需要沿着相机光线重复进行MLP推理来预测颜色。作为神经渲染的替代方案,三维高斯溅射(3DGS)通过在屏幕表面上投影显式基元的同时保持高质量的NVS,实现了更快的渲染。在实践中,3DGS使用围绕显式三维场景点的高斯分布辐射作为基元。

最近,二维高斯溅射(2DGS)提出了使用在三维中定向的平面高斯来更有效地表示场景。由于二维高斯有效地与物体表面相切,因此它们允许更精确的表面提取。尽管2D基元在网格提取任务中证明了其效率,但与3D基元(如3D高斯)相比,2D基元在渲染指标上有所降低。

在这项工作中,我们通过引入一种新的基元表征,旨在使2D基元适用于高质量的NVS。我们为NVS提出的几何基元从用于极端三维模型简化的经典广告牌(billboards)中汲取灵感[9],通过在贪婪优化过程中替换网格来实现。通过使用具有alpha通道的给定纹理平面基元的“广告牌云”,可以高效地渲染三维场景。使用广告牌,我们可以高效地模拟平面表面,如墙上的绘画或场景背景,同时显著减少所需的几何基元数量,与3DGS/2DGS相比,数量级可达一个数量级。结合在GPU上实现的高效纹理采样,这可以在不降低渲染质量的情况下提高推理速度。

我们用二维高斯参数(旋转、缩放、三维中心位置和球谐函数)定义广告牌,同时引入RGB纹理和alpha贴图来控制逐像素的颜色和形状。alpha贴图定义了广告牌的轮廓并模拟了基元的任意形状。同样,RGB纹理存储广告牌上每个点的颜色。这样,我们可以用更少的基元来表示高频细节。我们方法的关键方面,即广告牌溅射(BBSplat),是一种从一组校准图像中学习广告牌参数的方法。

为确保渲染效率,我们在CUDA中实现了纹理采样和反向传播过程。这样,与2DGS高斯光栅化过程相比,使用纹理不会导致超时。为了解决存储所有广告牌纹理的挑战,我们通过将每个纹理表示为球谐函数预测的颜色稀疏偏移,并进一步将其量化为8位来压缩它们。然后,我们可以高效地利用基于字典的压缩算法对量化后的纹理进行压缩。

3. 效果展示

BBSplat在使用较少图元的新颖视图合成(NVS)上具有竞争优势。左图:与具有相同数量高斯的3DGS和2DGS相比,BBSplat允许更详细的NVS,例如,背景和平面区域具有更高的质量,因为它们由BBSplat的纹理图元更好地建模。右图:该图显示了不同数量图元的感知相似性得分(越低越好)。BBSplat显示出比最先进的方法更好的性能,具有更明显的差距和更少的图元。

4. 主要贡献

我们的贡献如下:

• 我们提出了带有可优化纹理基元的BBSplat,以使用光度损失来学习三维场景表征。与相同渲染质量的最新技术相比,BBSplat可将NVS加速至多2倍。

• 我们开发了一种算法,用于高效表示和存储广告牌的纹理。BBSplat显著降低了存储成本。因此,在某些场景中,使用广告牌表示场景比3DGS或2DGS更高效。 推荐课程: 实时400FPS!高精NeRF/Gaussian SLAM定位与建图

• 我们使用CUDA实现了BBSplat,并在几个真实场景开放数据集上进行了大量实验,证明了其效率。

5. 方法

方法描述。a) 作为输入,我们使用COLMAP预测的点云和相机位置。b) 我们的BBSplat参数化(b2)扩展了高斯基元参数化(b1),为每个点增加了两种纹理:用于颜色的RGB纹理和用于透明度的alpha纹理。c) 如2DGS溅射技术(c1)中定义的,我们找到光线与平面的交点,但不是计算高斯不透明度,而是从纹理中采样颜色和不透明度(c2)。d) 为了训练我们的三维场景表征,我们仅使用光度损失。

纹理光栅化。在渲染过程中,为了得到最终的颜色,我们将纹理颜色添加到用SHi和视点方向向量计算的基色中。它导致纹理处理灯光效果。在这里,我们展示了四种不同相机方向的可能渲染。

6. 实验结果

我们报告了在新视图合成(NVS)任务中广泛用于评估质量的峰值信噪比(PSNR)、结构相似性(SSIM)和感知图像补丁相似性(LPIPS)指标(表1和表2)。PSNR和SSIM传统上用于展示与真实图像之间的相似性;LPIPS则利用神经网络,并且与人类感知的相关性最佳。为了评估模型效率,我们还报告了每秒帧数(FPS)表示的渲染速度、所需存储空间以及使用的基元数量。在提供的实验中,我们通过限制训练过程中基元数量的增长(,评估了不同基元数量下的指标。在表1的实验中,我们展示了仅取决于基元类型的固定数量基元的指标。对于相同数量的基元,我们的方法在室内和室外场景中均达到了比最先进的基于高斯表示的方法更好的PSNR、SSIM和LPIPS。虽然在改进最先进的客观指标方面取得了进展,但对于相同数量的基元,BBSplat需要更多的存储空间。在下一项实验中,我们展示了在指标相当的情况下,BBSplat的推理速度和存储效率。

在表2中,我们针对其他方法所推荐的最大高斯数量进行了比较,以实现每种方法可能达到的最佳质量。对于我们的方法,我们提供了两种场景,分别使用较少(小型)和较多(大型)的广告牌。我们在所有三个指标上都优于3DGS和2DGS,同时展示了推理速度和存储空间方面的改进。BBSplat的指标与最佳竞争对手3DGS-MCMC相当,同时实现了场景渲染速度的两倍提升,并且存储空间需求降低了三倍。

7. 总结 & 局限性 & 未来工作

我们提出了BBSplat——一种用于3D场景表示的新方法。该方法使用任意可学习形状的纹理基元,并且能够实现两倍速度的光照真实感新视角生成。我们开发了一种专门的正则化项和压缩技术,通过利用所提出的纹理表示的稀疏特性来减少存储空间。在大量真实数据实验中,我们从定量和定性两个方面证明了所提出方法的有效性。特别是,我们展示了在客观指标和推理速度之间的最佳权衡。

局限性和未来工作。所提出方法的主要局限性之一是存储空间。尽管我们在减少存储空间方面取得了重大进展,但未来的工作中仍有改进空间。另一个局限性是训练时间,因为拟合一个场景需要大约40分钟,而3DGS仅需5分钟。这种速度下降是由纹理的反向传播引起的,尽管它在速度方面仍然显著优于基于NeRF的方法,但对于某些应用来说可能是一个瓶颈。在未来的工作中,我们将致力于解决这些局限性。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉知识星球







请到「今天看啥」查看全文