专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
卤猫  ·  夜晚跳舞的水仙个展见面会 ·  18 小时前  
广东信息通信业  ·  广东省通信管理局召开2025年非应邀商业电子 ... ·  昨天  
广东信息通信业  ·  广东省通信管理局召开2025年非应邀商业电子 ... ·  昨天  
51好读  ›  专栏  ›  3DCV

清华&华为联合中科院!首个基于3D高斯分布的大场景高保真重建和实时渲染方法

3DCV  · 公众号  ·  · 2024-03-05 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号

选择 星标 ,干货第一时间送达


点击加入 「3DCV」 技术交流群

作者:小柠檬 | 来源:3DCV

在公众号「3DCV」后台,回复「原论文」可获取论文pdf

添加微信:dddvision,备注:3D高斯,拉你入群。文末附行业细分群

1、导读

现有的基于 NeRF 的大场景重建方法通常在视觉质量和渲染速度方面存在局限性。虽然最近的 3D 高斯溅射在小规模和以对象为中心的场景中效果很好,但由于视频内存有限、优化时间长和明显的外观变化,将其扩展到大型场景会带来挑战。为了应对这些挑战,我们提出了 VastGaussian,这是第一个基于 3D 高斯分布在大型场景上进行高质量重建和实时渲染的方法。我们提出了一种渐进式分区策略,将大场景划分为多个单元,其中训练摄像机和点云按照空域感知可见性标准正确分布。这些单元经过并行优化后合并成一个完整的场景。我们还将解耦外观建模引入优化过程中,以减少渲染图像中的外观变化。我们的方法优于现有的基于 NeRF 的方法,并在多个大型场景数据集上实现了最先进的结果,从而实现了快速优化和高保真实时渲染。

2、主要贡献

  • 这是第一个基于3D高斯分布的大场景高保真重建和实时渲染方法。
  • 我们提出了一种渐进式数据分区策略,将训练视图和点云分配给不同的单元,实现并行优化和无缝合并。
  • 我们在优化过程中引入了解耦的外观建模,从而抑制了由于外观变化而导致的浮动。优化后可以丢弃该模块,以获得实时渲染速度。

3、方法

3DGS在小型和以对象为中心的场景中工作得很好,但当扩展到大型环境时,由于视频内存限制、长时间优化和外观变化,它会遇到困难。在本文中,我们将3DGS扩展到大场景,以实现实时和高质量的渲染。我们建议将一个大型场景划分为多个单元,这些单元在单独优化后合并。在第3.1节中,我们介绍了一种具有空域感知可见性计算的渐进式数据分区策略。第3.2节详细阐述了如何优化单个细胞,展示了我们的解耦外观建模以捕获图像中的外观变化。最后,我们将在3.3节中描述如何合并这些单元格。

3.1、渐进式数据分区策略

我们将一个大型场景划分为多个单元,并将点云P和视图V的部分分配给这些单元进行优化。每个单元中包含的3D高斯数更少,更适合在内存容量较低的情况下进行优化,并且并行优化时所需的训练时间更少。我们渐进式数据分区策略的流水线如图1所示。

图1

3.2、解耦外观建模

在光照不均匀的情况下拍摄的图像存在明显的外观变化,3DGS倾向于产生浮点来补偿不同视角下的这些变化,如图2(a-d)所示。

图2

为了解决这个问题,一些基于nerf的方法在逐像素的光线推进中将外观嵌入到基于点的特征中,并将它们输入到radiance MLP中以获得最终的颜色。这并不适合3DGS,它的渲染是通过逐帧光栅化执行的,没有mlp。相反,我们将解耦的外观建模引入到优化过程中,生成一个变换映射来调整渲染图像以适应训练图像中的外观变化,如图3所示。

图3

3.3、如何合并

在独立优化了所有的单元之后,我们需要合并它们来得到一个完整的场景。对于每个优化单元,在边界扩展之前,我们删除了原始区域之外的3D高斯分布(图1(a))。否则,它们可能会成为其他细胞中的飞蚊。然后我们合并这些不重叠的细胞的三维高斯分布。合并后的场景在外观和几何上是无缝的,没有明显的边界伪像,因为在我们的数据分区中,一些训练视图在相邻的单元之间是共同的。因此,没有必要执行进一步的外观调整,如Block-NeRF。合并场景中包含的三维高斯函数的总数可以大大超过整个训练场景的总数,从而提高了重建质量。

4、实验结果

重建质量 在表1中,我们报告了每个场景中的平均SSIM、PSNR和LPIPS指标。我们的VastGaussian方法在所有SSIM和LPIPS指标上的表现都明显优于所比较的方法,这表明它在感知上重建了更丰富的细节和更好的渲染。在PSNR方面,瓦斯高斯算法获得了更好或可比较的结果。

表1

我们还在图4中显示了视觉比较。基于nerf的方法缺乏细节,产生模糊的结果。修改后的3DGS具有更清晰的渲染,但会产生令人不快的浮动。我们的方法实现了干净和视觉上令人愉悦的渲染。请注意,由于一些测试图像中明显的过度曝光或曝光不足,瓦斯高斯图像显示出略低的PSNR值,但产生明显更好的视觉质量,有时甚至比基础真值更清晰,例如图4中第三行的示例。VastGaussian的高质量部分要归功于其大量的3D高斯函数。以校园场景为例,Modified 3DGS中的3D高斯数为890万,而vast高斯数为2740万。

图4

效率和内存 在表2中,我们报告了训练时间、优化过程中的视频内存消耗和渲染速度。

表2

消融研究 我们对Sci-Art场景进行消融研究,以评估瓦斯高斯分布的不同方面。如图5和表3所示,基于可视性的摄像机选择(VisCam)和基于覆盖度的点选择(CovPoint)都可以提高视觉质量。

图5

表3

如图6所示,基于可见性的相机选择可以确保相邻单元之间有更多的公共相机,从而消除了不实现时明显的外观跳跃的边界伪影。

图6

如表3第4行和图7所示,基于空域感知能见度计算选择的摄像机为单元格的优化提供了更多的监督,从而不会产生空域感知能见度计算时出现的浮子。

图7

如表4所示,单元格越多,在VastGaussian中重构的细节越好,单元格并行优化时,SSIM和LPIPS值越好,训练时间越短。

表4

4、结论

这是第一个大规模场景的高质量重建和实时渲染方法。引入的渐进式数据分区策略允许独立的单元优化和无缝合并,获得具有足够3D高斯的完整场景。我们的解耦外观建模解耦了训练图像中的外观变化,并实现了跨不同视图的一致呈现。优化后可以丢弃该模块,以获得更快的渲染速度。虽然我们的瓦斯高斯函数可以应用于任何形状的空间划分,但我们并没有提供一个应该考虑场景布局、单元数和训练摄像机分布的最佳划分解决方案。另外,场景庞大时存在大量的3D高斯,可能需要较大的存储空间,显著降低渲染速度。

3D视觉精品课程:
3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

▲长按扫码学习3D视觉精品课程

3D视觉学习圈子

3D视觉从入门到精通知识星球 、国内成立最早、6000+成员交流学习。包括: 星球视频课程近20门(价值超6000) 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐 编程基础&学习工具 实战项目&作业 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。







请到「今天看啥」查看全文