0. 论文信息
标题:SplatFields: Neural Gaussian Splats for Sparse 3D and 4D Reconstruction
作者:Marko Mihajlovic, Sergey Prokudin, Siyu Tang, Robert Maier, Federica Bogo, Tony Tung, Edmond Boyer
机构:ETH Zürich、Meta Reality Labs、Balgrist University Hospital
原文链接:https://arxiv.org/abs/2409.11211
代码链接:https://markomih.github.io/SplatFields/
1. 引言
构建一个静态和动态环境的逼真复制品,可以通过改变我们在线互动、工作和参与的方式,从而彻底改变世界。这一雄心勃勃的愿景激发了近期大量研究,以开发新的表示和渲染技术,这些技术能够全面且逼真地从多视图图像中捕获和重建场景。
最近的进展,特别是神经辐射场(Neural Radiance Fields, NeRF)的引入,在从随意捕获的图像中进行逼真3D重建方面表现出了非凡的质量。这一成功源于将3D场景建模为神经场并通过体积渲染技术进行优化的方法。使用连续可微场对渲染体积进行参数化带来了几个好处。它能够通过神经网络权重来紧凑地表示场景的几何形状和外观,为显式体积建模提供了一种更实用的替代方案,后者往往难以实现。对于本文工作的重点而言,至关重要的是,多层感知机(Multi-Layer Perceptrons, MLP)的连续性和频谱偏差引入了一种空间偏差——附近的基元可能会根据神经场MLP的预测展现出相似的特征。近年来,隐式建模时空信号的概念引起了研究界的关注,标志着3D场景重建和新视图合成方法的重大转变。大量研究还集中于将这些方法适应于稀疏视图设置以及提高训练和渲染效率。
3D高斯飞溅(3D Gaussian Splatting, 3DGS)提供了一种替代的3D重建框架,它使用基于点的光栅化而非计算密集型的体积渲染。由于其实时渲染能力、与标准光栅化管道的潜在兼容性以及直观的场景编辑和组合方式,该方法在计算机视觉和图形社区中迅速获得了关注。这使得3DGS成为一种实用且可扩展的解决方案,目前正被许多3D开发平台和可视化工具迅速采用和支持。
3D高斯飞溅将3D场景表示为一组无序的3D高斯基元,通过光栅化从任意视图进行渲染,类似于传统的点飞溅技术。每个渲染基元包含可训练的参数,如位置、方向、比例、颜色和不透明度,这些参数通过相对于多视图输入图像渲染表示来进行优化。灵活的参数化结合高效的光栅化框架,是实现大规模高质量新视图合成结果的关键。然而,渲染基元的灵活性是以需要大量输入视图来完全约束优化过程为代价的,这使得高斯飞溅在更实用的稀疏视图捕获中不适用。
我们分析了在稀疏输入视图场景下3DGS及其4D变体的性能。我们首先表明,基于飞溅的技术由于其独立建模的渲染基元集,特别容易受到此类情况下训练视图过拟合的影响(见图1)。相比之下,隐含共享特征表示的体积渲染技术中表明,在此类场景中更为稳健,但代价是显著增加了训练时间和次优的渲染效率。这一关键观察结果为本工作介绍的方法提供了基础。
我们的核心思想是利用神经网络回归不同级别的飞溅特征,从而规范独立高斯基元的行为。首先,我们旨在通过分层卷积解码器来强制空间偏差,该解码器输出与每个飞溅相关联的深度特征的三平面表示。请注意,三平面表示和相关网络仅在优化阶段使用,以约束高斯基元的属性;在优化之后,两者都被丢弃,以实现加速渲染和与现有飞溅光栅化管道的兼容性。然后,利用生成的深度飞溅特征来调节神经场,该神经场建模高斯飞溅在不同位置和时间步的几何和外观属性。此设计配备了位置编码,以表示高频细节,同时保持用于规范高斯飞溅的良好空间属性。
我们彻底分析了我们的表示(称为SplatFields),并证明了在稀疏输入视图下,与替代的3D高斯飞溅技术相比,我们的重建质量更优。我们进一步提出了优化框架的有效扩展,以建模动态4D场景,并提出了一种新的前向流场公式来建模高斯飞溅的动力学,将渲染基元扭曲到观测空间中。我们观察到,现有的建模3D飞溅变形的技术要么由于场景运动的简化假设而缺乏建模能力,要么在模型中空间偏差不足,导致在稀疏设置中性能不佳。因此,我们基于最近的ResFields MLP架构,为3D高斯引入了一个前向流神经网络。我们的方法在保持高斯飞溅的关键属性(如渲染效率和与现有框架的兼容性)的同时,优于最近的基线方法。
2. 摘要
从多视图图像中数字化3D静态场景和4D动态事件一直是计算机视觉和图形学中的一个挑战。最近,3D高斯分布(3DGS)作为一种实用和可扩展的重建方法出现,由于其令人印象深刻的重建质量、实时渲染能力以及与广泛使用的可视化工具的兼容性而受到欢迎。然而,该方法需要大量的输入视图来实现高质量的场景重建,这引入了显著的实际瓶颈。在捕捉动态场景时,这一挑战尤为严峻,因为部署大量摄像机阵列的成本非常高。在这项工作中,我们确定缺乏splat特征的空间自相关是导致3DGS技术在稀疏重建设置中的次优性能的因素之一。为了解决这个问题,我们提出了一种优化策略,通过将splat特征建模为相应隐式神经场的输出来有效地正则化splat特征。这导致在各种情况下重建质量的一致提高。我们的方法有效地处理静态和动态情况,正如在不同设置和场景复杂性上的广泛测试所证明的那样。
3. 效果展示
4. 主要贡献
我们的主要贡献包括:
我们提出了一种名为SplatFields的新型优化策略,该策略在3D高斯飞溅技术中引入了空间偏差,以在稀疏视图下稳定优化过程。
我们将我们的公式扩展到动态场景,与最近的最先进方法[78, 84, 85]相比,展示了更优的重建质量。
我们对各种建模策略进行了详细分析,证实了我们的框架在稀疏多视图重建任务中的最优性。
代码已公开可用:markomih.github.io/SplatFields。
5. 方法
SplatFields(图2)基于神经网络的核心特性,即首先发现局部模式并拟合信号的低频部分。为此,我们将SplatFields实现为一种神经生成器,该生成器推断高斯溅射的属性。该神经生成器结合了卷积神经网络(CNN)的关键特性,后者用于建模局部结构化模式,以及作为全局逼近器的多层感知器(MLP)。这种方法通过以时间t为条件对MLP网络进行条件化,直接扩展到4D重建。
深度结构先验。首先,我们遵循深度图像先验的思想,并旨在利用卷积神经网络(CNN)对溅射特征的局部结构化模式进行建模。在原始工作中,CNN以低维高斯噪声ϵ ∼ N(0, I)作为输入,并逐渐上采样至所需的图像分辨率;然后优化网络权重以拟合观察到的噪声图像。在我们的案例中,我们的目标是生成一个溅射特征的3D场;由于3D CNN的计算量过大,我们使用生成轴对齐三平面表示的2D CNN。总体而言,这一步是基于溅射的方法对用于全体积NeRF基稀疏渲染的方法进行的变体。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
6. 实验结果
7. 总结 & 未来工作
在本文中,我们提出了一种有效的优化策略,该策略通过在连续神经场中建模,将空间和连接性偏差引入到优化过程中的3D高斯溅射中。我们证明了,我们的优化策略在稀疏设置下显著提高了重建质量,而无需任何外部数据驱动的先验知识。此外,我们还介绍了该方法在重建动态序列方面的有效扩展,并在稀疏视角下展示了最先进的结果。
在极端稀疏和高动态场景下,如包含快速运动且仅使用四个视角的Owlii数据集所示,我们方法的表现明显下降。与在类似稀疏配置下表现最佳的基于NeRF的方法相比,该性能较差。因此,需要进一步探索以缩小在稀疏设置下3DGS与基于NeRF方法之间的性能差距。未来的工作还应考虑将基于学习的先验知识作为有前景的改进方向。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
「
3D视觉从入门到精通
」
知识星球
「3D视觉从入门到精通」知识星球