点击下方卡片 ,关注「3DCV」 公众号 选择星标 ,干货第一时间送达
编辑:计算机视觉life
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 、 最新顶会论文 、计算机视觉书籍 、 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
论文信息 标题:Gaussian Splatting: 3D Reconstruction and NovelView Synthesis, a Review
作者:ANURAG DALAL , DANIEL HAGEN , KJELL G.ROBBERSMYR , AND KRISTIAN MURI KNAUSGÅRD
机构:阿格德尔大学机电一体化顶级研究中心(TRCM)
原文链接:https://ieeexplore.ieee.org/document/10545567
编译:zty@计算机视觉life
内容速览 摘要 基于图像的3D重建是一项具有挑战性的任务,它涉及从一组输入图像中推断出物体或场景的3D形状。基于学习的方法因其能够直接估计3D形状而受到关注。这篇综述论文集中讨论了3D重建的最新技术,包括生成新的、未见过的视图。 本文提供了高斯溅射方法的最新发展概览,涵盖了输入类型、模型结构、输出表示和训练策略。还讨论了未解决的挑战和未来的发展方向。鉴于该领域快速发展以及增强3D重建方法的众多机会,全面检查算法似乎是必要的。因此,本研究提供了最新的高斯溅射技术进展的全面概述。
Ⅰ引言 3D重建是一个迷人的过程,它围绕使用2D图像或其他数据源创建物体或场景的三维模型或表示来进行。 该过程的目标是将平面图像转换为沉浸式和逼真的虚拟表示,这些表示可以在许多应用中使用。从可视化建筑设计到动画电影中的人物,从模拟现实世界场景到分析复杂结构,3D重建在计算机视觉、机器人技术和虚拟现实等多个领域中发挥着关键作用。 通过利用先进的算法和尖端技术,研究人员和专业人员不断拓展3D重建领域的可能性,开辟新的可能性,并在此过程中彻底改变行业。从场景的3D重建中,可以渲染出未被捕获的新视点,因此这种方法被称为新视图合成(NVS)。换句话说,3D重建使NVS成为可能。 在本文中,我们将更深入地探讨3D重建和NVS的概念,探索其方法论、应用以及它在我们日益数字化的世界中产生的变革性影响。
近年来,基于学习的方法在各个研究领域中获得了显著的重视,并取代了传统方法。这些创新技术不仅提供了改进的性能,还引入了新的能力。这一趋势在3D计算机视觉领域,特别是在3D重建方面是真实的。例如,已经提出了深度学习模型,实现了端到端的培训,并消除了设计多个手工制作阶段的需要。此外,基于学习的方法具有多任务处理的优势,允许单一模型同时预测给定场景的3D形状和语义分割[2]。这种先进学习算法的集成已经彻底改变了3D重建领域,提供了更有效和多功能的解决方案。基于图像的视图合成技术在计算机图形学和计算机视觉应用中发挥着至关重要的作用。
为解决基于2D输入图像表示3D模型或场景的挑战,高斯溅射成为一种新颖而有效的方法。 自从2023年6月问世以来,高斯溅射技术获得了巨大的流行。该技术涉及多次迭代细化多个高斯,以从2D图像生成3D对象。高斯溅射技术涉及多个高斯的迭代细化,以从2D图像生成3D对象,它允许通过插值在复杂场景中渲染新视图。虽然高斯溅射并不直接恢复整个3D场景的几何结构,但它将信息存储在体素点云中 。这个云中的每个点都代表一个具有颜色、扩散度和位置等参数的高斯,从而生成一个体积表示,为相关3D空间中的每个点提供颜色和密度。
从 2023 年 6 月开始,有关高斯散射的出版物数量的近似统计 | ©【计算机视觉life】编译 通常,3D重建是通过传统的算法如摄影测量法和多视图立体(MVS)算法[5]来实现的。一些现代方法包括神经辐射场(NeRF)[6]和高斯溅射[3],其中高斯溅射是一种在NVS场景中相对较新的独特方法。任何现有解决方案面临的最常见问题是无法实时渲染、竞争性训练时间和高质量渲染。高斯溅射在包括较少的伪影、失败案例和更快的训练时间等方面对NeRF提供了一些显著的改进。虽然NeRF已经有若干综述论文[7][8],但高斯溅射还没有一个重要的综述论文来汇编自其问世以来的所有最新进展。
本文的目标是对高斯溅射中开发的各种技术进行全面回顾。第二节介绍了3D重建和NVS的最新技术状态的综合介绍,第三节详细说明了使用高斯溅射实现3D重建的算法。第四节涉及主要的综述部分和最新进展,第五节讨论了与高斯溅射相关的各种应用领域。最后,本文提供了对方法、研究方向和结论的讨论。
3D重建和新视角合成入门 3D重建和新视角合成(NVS)是计算机图形学中两个密切相关的领域,旨在捕捉并渲染物理场景的真实3D表示。3D重建涉及从一系列2D图像中提取几何和外观信息,这些图像通常从不同的视点捕获。尽管有许多3D扫描技术,但通过捕获不同的2D图像来获取3D环境信息是一种非常直接且计算成本低廉的方法。然后,这些信息可以用来创建场景的3D模型,这些模型可以用于各种目的,如虚拟现实(VR)应用、增强现实(AR)叠加或计算机辅助设计(CAD)建模。
另一方面,NVS专注于从先前获取的3D模型生成场景的新2D视图。这允许从任何期望的视点创建场景的真实图像,即使原始图像并非从该角度拍摄。深度学习的最新进展在3D重建和NVS中都取得了显著改进。深度学习模型可以用来高效地从图像中提取3D几何和外观,这些模型也可以用来从3D模型生成真实感新视图。因此,这些技术在各种应用中越来越受欢迎,预计在未来将发挥更重要的作用。
本节将介绍3D数据是如何存储或表示的,然后介绍用于此任务最常用的公开可用数据集,接着将详细讨论各种算法,主要关注高斯散射。
A. 3D数据表示 3D数据的复杂空间性质,包括体积维度,为对象和环境提供了详细的表示。这对于在各个研究领域中创建沉浸式模拟和精确模型至关重要。3D数据的多维结构允许纳入深度、宽度和高度,从而在诸如建筑设计和医学成像技术等学科中取得了显著进步。
数据表示的选择在设计众多3D深度学习系统中起着至关重要的作用。点云,缺乏网格状结构,通常不能直接进行卷积操作。另一方面,体素表示,以网格状结构为特征,常常会产生高计算内存需求。
3D表示的演变伴随着3D数据或模型的存储方式。最常用的3D数据表示可以被分类为传统和新颖方法:
点云:3D点云提供了3D对象的直接和简单的表示。在这种表示中,每个点云由一组3D点组成,每个点由三维元组(x, y, z)表示。通常,由众多深度相机捕获的原始数据以3D点云的形式呈现。 网格:网格是另一种常用的3D数据表示。与点云中的点类似,每个网格由一组称为顶点的3D点组成。此外,网格包括一组基于这些顶点定义的多边形,称为面。在许多数据驱动的应用中,网格是从深度相机获得的原始测量值的后处理结果。通常,它们是在创建3D资产时手动制作的。与点云相比,网格提供了额外的几何细节,编码拓扑,并包含表面法线信息。这些补充信息在训练学习模型时特别有价值。例如,图卷积神经网络经常将网格视为图,并使用关于顶点邻居的信息建立卷积操作。 体素:体素是3D数据的另一种重要表示。在3D计算机视觉中,体素类似于像素。就像通过将2D矩形细分为更小的矩形,每个矩形都是一个像素一样,体素是通过将3D体积划分为更小的立方体来定义的,每个单独的长方体称为体素。通常,体素表示使用截断有符号距离函数(TSDF)来表示3D表面。在每个体素中,可以建立一个有符号距离函数(SDF),作为体素中心到最近表面上某点的距离(有符号)。SDF中的正号表示体素中心位于物体外部。TSDF和SDF之间的主要区别在于值的截断;TSDF值被截断,确保它们始终在-1到+1的范围内。图2显示了传统技术中3D数据的表示方式。 传统技术中的 3D 数据表示方式。| ©【计算机视觉life】编译 神经网络/多层感知器(MLP):神经辐射场(NeRFs)是一种可以以高保真度表示和渲染3D场景的3D深度学习模型。它们以一种独特的方式编码3D信息,将传统的3D几何与神经网络表示相结合。为了捕捉更复杂的细节和光照效果,NeRFs通过神经网络增强了密度场。这个网络,称为辐射场,以3D位置作为输入,并输出颜色值和法线向量。颜色代表给定位置处表面的颜色,而法线向量指示表面的方向。辐射场在图像数据集上进行训练,使其能够学习如何将3D位置映射到相应的颜色和法线信息。这些信息对于从任意视点生成真实感图像至关重要。 高斯散射:高斯散射是一种用于以高保真度渲染复杂场景的3D表示。它们是传统方法(如点云或体素网格)的更有效和灵活的替代方案。高斯散射以紧凑的格式存储,每个散射表示为一组参数的集合。这些参数通常包括: 通过以这种紧凑的格式存储散射,可以表示大量的散射,而相对数据较少。这使得高斯散射非常适合在高分辨率下渲染复杂场景。图3显示了这两种新颖技术中3D数据的表示方式。
这种新颖的 3D 数据表示方式 | ©【计算机视觉life】编译 B. 数据集 高斯散射模型通常按场景建模,并需要具有不同姿态的密集图像。在大多数情况下,相机姿态是未知的,并且使用COLMAP库通过运动结构(SFM)[12]计算。原始的高斯散射论文使用了三个数据集:Mip-NeRF360 [14]、Tanks&Temples [15]和Deep Blending [16]。
随着3D重建、MVS和NVS研究的进展,越来越多的数据集可用于测试这些领域的算法。一些值得注意的数据集列在表1中。
表 1. 基于Papers with code排名的常用3D重建和NVS数据集列表
数据集名称 描述 来源 LLFF 包括自然场景的合成和真实图像的局部光场融合(LLFF)数据集。合成图像由SUNCG和UnrealCV生成,而真实图像包括使用手持手机拍摄的24个场景。 LLFF [17] NeRF 神经辐射场(NeRF)数据集包括复杂场景的合成渲染和真实图像。它包括Diffuse Synthetic 360°, Realistic Synthetic 360°, 和真实复杂场景的图像。 NeRF [18] DONeRF DONeRF数据集结合使用Blender和Cycles路径追踪器生成的合成数据,每个场景渲染300张图像。 DONeRF [19] X3D X3D数据集包含15个专门用于X射线3D重建的场景,涵盖医学、生物学、安全和工业应用。 X3D [20] RTMV RTMV是一个合成数据集,用于新视图合成,包含通过在2000个场景中进行光线追踪生成的300,000张图像。 RTMV [21] Tanks&Temples Tanks&Temples数据集全面,包括用于基于图像的3D重建流程的中级和高级测试数据集。 Tanks&Temples [15] RealEstate10K RealEstate10K是一个大型数据集,包含从10,000个YouTube视频中获得的相机位姿,提供通过SLAM和束调整算法获得的轨迹。 RealEstate10K [22] ACID 航空海岸线图像(ACID)数据集侧重于基于单一图像在扩展相机轨迹上生成新视图,使用几何和图像合成的混合方法。 ACID [23] SWORD 'Scenes with occluded regions'(SWORD)数据集包括1,500个训练视频和290个测试视频,强调附近的物体和遮挡,用于健壮模型训练。 SWORD [24] Mip-NeRF 360 Mip-NeRF 360数据集扩展了Mip-NeRF,包括非线性参数化、在线蒸馏和基于失真的正则化器,用于无界场景。 Mip-NeRF 360 [14] Deep Blending Deep Blending数据集用于基于自由视点图像的渲染,包括使用立体相机装置拍摄的9个场景,并使用COLMAP和RealityCapture重建。 Deep Blending [16] DTU DTU数据集是具有精确相机定位、结构光扫描仪和不同照明条件下的多视图立体数据。 DTU [25] ScanNet ScanNet是一个室内RGB-D数据集,包含1513个注释扫描,提供90%的表面覆盖率和多样化的3D场景理解任务。 ScanNet [26] ShapeNet ShapeNet是一个大规模的3D CAD模型存储库,对强调基于对象的语义标签的NeRF模型非常有价值。 ShapeNet [27] Matterport 3D Matterport-3D数据集包括来自90个建筑规模场景的10,800个全景视图,具有深度、语义和实例注释。 Matterport [28] Replica Replica数据集是一个真实的室内数据集,包含18个场景和35个房间,具有手动调整、语义注释以及基于类别和实例的标签。 Replica [29] Plenoptic Video Plenoptic Video数据集包括使用全光相机捕获的3D视频,用于现实和沉浸式的3D体验。 Plenoptic Video [30] Panoptic CMU Panoptic CMU数据集在社交活动中超过150万个实例的3D姿势注释,使用同步相机和多样化的场景捕获。 Panoptic CMU [31]
C. 3D重建和NVS技术 为了评估该领域的当前进展,进行了文献研究,识别并审查了相关的学术作品。分析特别集中在两个关键领域:3D重建和NVS。从多个相机图像重建3D体积的演变跨越了几十年,并在计算机图形学、机器人学和医学成像等领域有着广泛的应用。将在下一部分探索最新技术。
摄影测量:自20世纪80年代以来,先进的摄影测量和立体视觉技术出现,自动化了立体图像对中对应点的识别[32]。摄影测量是一种将摄影和计算机视觉结合起来生成对象或场景的3D模型的方法。它涉及从不同角度捕获图像,使用如Agisoft Metashape [33]等软件来估计相机位置并生成点云。然后,这个点云被转换成一个纹理化的3D网格,使得重建的对象或场景能够创建出详细且逼真的可视化效果。
运动结构:在20世纪90年代,SFM技术变得流行,能够从一系列2D图像中重建3D结构和相机运动[32]。SFM是从一组2D图像中估计场景的3D结构的过程。SFM需要图像之间的点对应关系。通过从多个图像中匹配特征或跟踪点,并进行三角测量以找到3D位置。
深度学习:近年来,深度学习技术的整合,特别是卷积神经网络(CNNs)[5],在3D重建中获得了发展。基于深度学习的方法在3D重建中越来越受欢迎。最值得注意的是3D占用网络,这是一种为3D场景理解和重建而设计的神经网络架构[34],[35]。它通过将3D空间划分为小的体积单元或体素,每个体素代表它是否包含物体或为空空间。这些网络使用深度学习技术,如3D卷积神经网络,来预测体素的占用情况,使它们对机器人技术、自动驾驶汽车、增强现实和3D场景重建等应用非常有价值。这些网络严重依赖于卷积和变换器[34],[36],[37]。它们对碰撞避免、路径规划和与物理世界的实时交互等任务至关重要。此外,3D占用网络可以估计不确定性,但它们在处理动态或复杂场景时可能存在计算限制。神经网络架构的持续进步不断改进它们的准确性和效率。
神经辐射场:NeRF于2020年推出[6],并与经典的3D重建原理相结合,在计算机视觉和图形学中获得了显著关注[38]。它通过模拟体积函数,通过神经网络预测颜色和密度,重建详细的3D场景。NeRF广泛应用于计算机图形学和虚拟现实。最近,通过广泛的研究,NeRF在准确性和效率方面得到了增强[7],[8]。最近的研究还探索了NeRF在水下场景中的适用性[39]。尽管提供了3D场景几何的稳健表示,但计算需求的挑战仍然存在。未来的NeRF研究需要关注可解释性、实时渲染、新应用和可扩展性,为虚拟现实、游戏和机器人技术开辟途径[6],[7]。
高斯散射:最后,在2023年,3D高斯散射[3]作为实时3D渲染的一种新技巧出现了。在下一节中将详细讨论这种方法。
高斯散射的基础 高斯散射通过使用多个3D高斯或粒子来描绘3D场景,每个粒子都配备了位置、方向、尺度、不透明度和颜色信息。为了渲染这些粒子,它们会转换为2D空间,并被策略性地组织以实现最佳渲染。图4显示了高斯散射算法的架构。
3D 高斯散射架构 | ©【计算机视觉life】编译 在原始算法中,采取了以下步骤:
从运动中恢复结构 :过程从使用COLMAP库[13]的SFM方法[12]开始,利用图像创建点云。
转换为高斯散射 :将每个点转换为高斯散射以实现光栅化。SFM数据仅允许初始化每个散射的位置、大小和颜色。
训练 :为了确保表示产生高质量的结果,训练是必不可少的。为此,采用了类似于神经网络的随机梯度下降。
可微分高斯光栅化 :每个2D高斯都需要可微分高斯光栅化,以便从相机的视点投影,按深度排序,然后对每个像素重复前后组合。光栅化和训练过程的详细数学洞察可以在[40]中找到。
A. 数学表示和渲染过程 本节讨论的数学洞察由Ye等人在[41]中正式化。一个3D高斯由其均值 ,协方差 ,颜色 和不透明度 参数化。为了渲染高斯的视图,首先计算它们在相机平面上的投影2D位置和范围。然后按深度排序可见的2D高斯,并从前到后合成以构建输出图像。
高斯的投影 :渲染相机由其外参 描述,它将点从世界坐标空间转换到相机坐标空间,以及其内参,即相机平面的焦距 和主点 。从相机空间到标准化裁剪空间的转换由投影矩阵 表示。其中 是输出图像的宽度和高度, 是近裁剪面和远裁剪面。3D均值 通过标准的透视投影投影到像素空间。这是通过将均值 转换为相机坐标中的 ,然后转换为裁剪空间中的 ,最后转换为像素坐标中的 来实现的。
3D高斯的透视投影不会产生2D高斯。协方差 在像素空间的投影使用相机框架中 的一阶泰勒展开来近似。具体来说,仿射变换 如[42]所示计算。
然后变换后的2D协方差矩阵 由下式给出:
最后,3D协方差 与尺度 和旋转四元数 参数化并转换为 。然后四元数 转换为旋转矩阵:
然后3D协方差 由下式给出:
其中 。
高斯的深度合成 :对于每个高斯,计算与轴对齐的包含每个2D投影协方差(3σ)99%置信椭圆的边界框。如果边界框与平铺相交,则将高斯添加到相应的平铺箱中。随后,作者实现了[3]附录C中概述的平铺排序算法,为每个平铺生成基于深度的高斯排序列表。然后在每个平铺中光栅化排序的高斯。对于像素 的颜色,让 索引涉及该像素的 个高斯,计算如下:并且不透明度 与2D协方差 计算如下:
其中 是像素中心与2D高斯中心 之间的偏移。 在通过高斯从前到后进行交互时在线计算。
B. 质量评估矩阵 在传统的高斯散射场景中,NVS的基准测试通常涉及使用视觉质量评估指标。这些指标旨在评估单个图像的质量,无论是有参考(全参考)还是无参考(无参考)的真实图像。峰值信噪比(PSNR)、结构相似性指数度量(SSIM)[43]和学习感知图像补丁相似性(LPIPS)[44]在高斯散射文献中被广泛用作此目的的主要指标。这些指标的数学公式定义如下。
峰值信噪比 PSNR↑ 是一个无参考质量评估指标。PSNR由以下公式定义:其中 是图像中可能的最大像素值(对于8位整数为255),MSE(I) 是所有颜色通道上的像素均方误差。PSNR也在信号处理中常用,并且被广泛理解。
结构相似性指数度量 SSIM↑ [43] 是一个全参考质量评估指标。单个补丁的SSIM由以下公式给出:其中 , , 是像素的动态范围(对于8位整数为255), , 是在[43]中选择的常数。局部统计量 , 是在11×11的圆对称高斯加权窗口内计算的,权重 具有标准差1.5并归一化为1。
学习感知图像补丁相似性 LPIPS↓ [44] 是一个完整的参考质量评估指标,它使用学习到的卷积特征。分数由多层特征图上的加权像素级均方误差给出:其中 , 是原始和生成/访问图像在像素宽度 ,像素高度 和层 的特征。 和 是相应层的特征图的宽度和高度。原始的LPIPS论文使用SqueezeNet[45],VGG[46]和AlexNet[47]作为特征提取的骨干。
C. 状态艺术 在接下来的两节中,将探讨高斯散射的各种应用和进步,深入研究其在不同领域的多样化实现,如自动驾驶、头像、压缩、扩散、动态和变形、编辑、基于文本的生成、网格提取和物理、正则化和优化、渲染、稀疏表示以及同时定位和映射(SLAM)。每个子类别都将被检查,以提供对高斯散射方法在解决特定挑战和在这些不同领域取得显著进步的多功能使用的见解。图5显示了第IV节和第V节讨论的所有方法的完整列表。广义上讲,方法的划分可以根据功能改进如第IV节中的压缩、渲染以及特定用例如第V节中的头像、SLAM等应用领域进行分类。
根据引用和 GitHub 星等级选择的关键高斯散射创新论文的分类。| ©【计算机视觉life】编译 功能进展 本节检查了自从高斯溅射算法首次引入以来,在功能能力方面取得的进步。
A. 动态和变形 与通常的高斯溅射不同,后者的3D协方差矩阵的所有参数仅依赖于输入图像,在这种情况下,为了捕捉随时间变化的溅射动态,一些参数依赖于时间或时间步。例如,位置是时间步或帧依赖的。这个位置可以通过下一帧以时间一致的方式更新。也可以学习一些潜在编码,这些编码可以在渲染期间的每个时间步中用于编辑或传播高斯,以实现特定效果,如头像中的表情变化[54]、[55],以及对非刚体施加力[50]、[57]。图6显示了一些基于动态和变形的方法。
动态和变形基础方法 动态和可变形模型可以通过对原始高斯溅射表示的轻微修改来轻松表示:
1) 运动和跟踪 大多数与动态高斯溅射相关的工作都扩展到了3D高斯随时间步的运动跟踪,而不是为每个时间步设置一个单独的溅射。Katsumata等人在[51]中提出了位置的傅里叶近似和旋转四元数的线性近似。
Luiten等人在[48]中介绍了一种捕获动态场景中所有3D点的完整6自由度的方法。通过引入局部刚性约束,动态3D高斯代表一致的空间旋转,实现了密集的6-DOF跟踪和重建,无需对应或流输入。该方法在2D跟踪中优于PIPs[105],实现了10倍低的中位轨迹误差、更高的轨迹精度和100%的存活率。这种多功能表示促进了如四维视频编辑、第一人称视角合成和动态场景生成等应用。
Wu等人在[49]中提出了一种称为4D高斯溅射(4D-GS)的新颖方法。作者提出了一个空间时间结构编码器和多头高斯变形解码器。这种整体表示结合了3D高斯和4D神经体素,实现了高分辨率下的实时渲染。该方法在分辨率为800×800时使用RTX 3090 GPU达到了82帧每秒(FPS)的显著帧率,同时保持良好的质量。尽管4D-GS在快速收敛和实时渲染方面取得了成功,但在优化大运动的高斯、处理缺乏背景点以及解决不精确的相机姿态方面面临挑战。此外,该方法在没有额外监督的情况下,难以在单目设置中分离静态和动态高斯部分的联合运动。最后,需要一个更紧凑的算法来处理城市规模的重建,因为大量的3D高斯通过大量查询高斯变形场。
为了适当地表示动态场景中的空间和时间结构,Yang等人在[50]提出了一种整体方法,将空间时间视为一个整体。他们主张通过优化一组4D原语来近似动态的基础时空4D体积,包括显式的几何和外观建模。所提出的模型在概念上是直接的,使用能够进行任意旋转的空间和时间的各向异性椭球体参数化的4D高斯。此外,它还包括由4D球谐系数表示的随视角变化和随时间演变的外观。这种方法提供了简单性、灵活性,适用于可变长度的视频,端到端的训练以及高效的实时渲染,使其非常适合捕获复杂动态场景运动。
Kratimenos等人在[52]中有效地解决了动态场景中运动场的挑战,该场景自然地是欠约束的,保证了有效的优化。为了做到这一点,每个点都绑定到运动系数上,这些系数强制共享基础轨迹。引入到运动系数的稀疏损失使场景运动的解耦成为可能,提供了独立的控制和生成新的运动组合。令人瞩目的是,在不到三十分钟的训练中,就实现了最先进的渲染质量,并且当训练不到三十分钟时,该模型可以合成具有优越照片写实结果的动态场景的高质量视图。他们提出的表示以可解释性、效率和表现力为特点,允许在单目和多视图场景中包括场景中的动态运动进行实时NVS。
Lin等人在[53]中介绍了一种新颖的双域变形模型(DDDM),该模型明确设计用于模拟每个高斯点的属性变形。该模型使用频率域中的傅里叶级数拟合和时间域中的多项式拟合来捕获时间依赖的残差。DDDM擅长处理复杂视频场景中的变形,消除了对每个帧训练单独的3D高斯溅射(3D-GS)模型的需要。值得注意的是,离散化的高斯点显式变形建模保证了快速训练和4D场景渲染,类似于为静态3D重建设计的原始3D-GS。这种方法具有显著的效率改进,与3D-GS建模相比,训练速度提高了近5倍。然而,已经确定在维护最终渲染中的高保真度细结构方面存在改进的机会。
2) 头像中的表情或情感变化以及可编辑性 Shao等人在[54]中引入了GaussianPlanes,这是一种通过平面在3D空间和时间中的分解来实现4D表示的方法,提高了4D编辑的有效性。此外,Control4D利用4D生成器从不一致的照片中优化连续的创建空间,从而实现更好的一致性和质量。所提出的方法使用GaussianPlanes训练4D肖像场景的隐式表示,然后使用高斯渲染将潜在特征和RGB图像呈现出来。基于生成对抗网络(GAN)[106]的生成器以及基于2D扩散的编辑器细化数据集,并为判别提供真实和假图像。判别结果有助于生成器和判别器的迭代更新。然而,该方法在处理快速和广泛的非刚性运动方面面临挑战,因为依赖于带有流表示的规范高斯点云。该方法受到ControlNet[107]的限制,将编辑限制在粗糙级别,并防止精确的表情或动作编辑。此外,编辑过程需要迭代优化,缺乏一步解决方案。
Huang等人在[108]中使用稀疏控制点,这是高斯的一个分数,学习紧凑的6自由度变换基,这些基通过学习到的权重局部插值得到定义。3D高斯的运动场。一个变形MLP预测每个控制点的时间变化6自由度变换,简化了学习,提高了能力,并确保了一致的运动模式。联合学习过程包括3D高斯、控制点的规范空间位置以及变形MLP,重建外观、几何和动态。控制点位置和数量的自适应调整适应运动复杂性,以ARAP(尽可能刚性)损失强制空间连续性和局部刚性。显式的稀疏运动表示允许用户控制运动编辑,同时保持高保真度的外观。实验结果展示了在NVS中的优越性,具有高渲染速度和新的保有新外观的运动编辑应用。然而,该方法的性能容易受到不准确的相机姿态的影响,导致重建失败。此外,该方法的测试仅限于具有适度运动变化的场景,扩展其在激烈运动中的适用性仍然是一个探索领域。
Yu等人在[56]中介绍了一种可控高斯溅射方法(CoGS),提供无需预先计算的控制信号即可实时处理场景元素。
3) 非刚性或可变形对象 隐式神经表示为动态场景重建和渲染带来了重大变革。尽管如此,当前的动态神经渲染方法在捕捉复杂细节和实现动态场景的实时渲染方面仍面临挑战。
为了应对这些挑战,Yang等人在[50]中提出了一种新的可变形3D-GS方法。这种方法使用在规范空间中学习的3D高斯,配备一个变形场,专门为单目动态场景设计。该方法引入了一个退火平滑训练(AST)机制,专为现实世界的单目动态场景量身定制,有效地解决了错误姿态对时间插值任务的影响,而没有引入额外的训练开销。通过使用微分高斯光栅化器,可变形3D高斯不仅增强了渲染质量,而且达到了实时速度,超过了现有方法在这两个方面的性能。该方法非常适合NVS任务,并且由于其基于点的特性,为后期制作任务提供了多功能性。实验结果强调了该方法在动态场景建模中的优越渲染效果和实时能力。
Das等人在[57]中介绍了NPGs(神经参数高斯),解决了从单目视频中重建动态对象的挑战任务。该方法包括两个阶段的过程:首先,拟合一个低秩神经变形模型以保持NVS中的一致性;其次,优化由粗糙模型驱动的3D高斯,以实现高质量的重建。他们的模型基于局部表示,即时间共享的锚定3D高斯,其中局部有向体积引起变形。所得到的辐射场使非刚性变形对象的照片写实高质量重建成为可能,确保了在新视图合成中的一致性。NPGs表现出色,特别是在多视图线索有限的场景中。
B. 扩散 扩散和高斯溅射是一种强大的技术,可以从文本描述/提示中生成3D对象。它结合了两种不同方法的优势:扩散模型和高斯溅射。扩散模型是一种神经网络,可以学习从有噪声的输入中生成图像[109]。通过向模型提供越来越清晰的图像序列,模型学习逆转图像腐败的过程,最终从完全随机的输入中生成清晰的图像。这可以用于从文本描述生成图像,因为模型可以学习将单词与相应的视觉特征关联起来。文本到3D的扩散和高斯溅射管道首先使用扩散模型从文本描述生成初始的3D点云。然后将点云转换为使用高斯溅射的一组高斯球。最后,渲染高斯球以产生对象的3D图像。
1) 基于文本的生成 Yi等人在[63]中引入了Gaussian-Dreamer,这是一种文本到3D的方法,通过高斯分裂无缝连接3D和2D扩散模型,确保了3D一致性和复杂细节的生成。图7显示了所提出的模型生成的图像。为了进一步丰富内容,引入了带噪声的点生长和颜色扰动来补充初始化的3D高斯。该方法以其简单性和有效性为特点,在单GPU上15分钟内生成3D实例,与以前的方法相比展示了优越的速度。生成的3D实例可以直接实时渲染,突出了该方法的实际应用性。整体框架涉及使用3D扩散模型先验初始化,并使用2D扩散模型进行优化,通过利用扩散模型的优势,从文本提示创建高质量和多样化的3D资产。
Dream-Gaussian 框架通过迭代生成图像 | ©【计算机视觉life】编译 Chen等人在[59]中提出了基于高斯溅射的文本到3D生成(GSGEN)方法,这是一种利用3D高斯作为表示的文本到3D生成方法。通过利用几何先验,强调了高斯溅射在文本到3D生成中的独特优势。两阶段优化策略结合了2D和3D扩散的联合指导,以在几何优化中形成一致的粗略结构,然后基于紧凑度进行外观细化。GSGEN在各种文本提示中得到了验证,证明了其生成具有更准确几何形状和增强保真度的3D资产的能力。值得注意的是,GSGEN在捕获对象的高频成分方面表现出色,如羽毛、复杂纹理和动物皮毛。然而,当提供的文本提示复杂或涉及复杂逻辑时,由于PointE[110]和Stable Diffusion中使用的CLIP[111]文本编码器的语言理解能力有限,会出现挑战。尽管引入3D先验减轻了Janus问题1,但潜在的退化问题仍然存在,特别是与极偏见的文本提示相关的引导扩散模型。
Tang等人在[62]中引入了一个开创性的框架,通过将高斯溅射整合到生成设置中,显著减少了与基于优化的2D提升方法相比的生成时间。此外,作者提出了一种从3D高斯中提取有效网格的高效算法,并进行了UV空间纹理细化阶段,以进一步提高生成内容的质量。通过包括图像到3D和文本到3D任务在内的广泛实验,这种方法展示了优化时间和生成保真度之间的显著平衡,为3D内容生成在现实世界部署中开辟了新的可能性。需要注意的是,与以前的文本到3D方法一样,作者遇到了常见的挑战,如多面Janus问题和与烘焙照明相关的问题。
Liang等人在[64]中提出了对文本到3D生成中得分蒸馏采样(SDS)的分析,揭示了其局限性。他们引入了区间得分匹配(ISM)来超越SDS,将其与3D高斯溅射整合,以在各种应用中实现最先进的性能,以减少训练成本实现现实主义。
Chung等人在[112]中引入了LucidDreamer,如图8所示,这是一个无领域限制的3D场景生成框架。
Lucid Dreamer 框架与迭代| ©【计算机视觉life】编译 HumanGaussian框架[88]由Moreau等人使用3D-GS的神经表示从文本提示生成3D人物。Structure-Aware SDS优化外观和几何形状,实现有效和高效的3D人物生成,具有细粒度的几何形状和现实的外观。
Vilesov等人提出的Compositional generation for text-to-3d via gaussian splatting (CG3D)框架[67]引入了一种文本驱动的组合3D场景生成方法,强调可扩展性和物理现实性。利用显式辐射场,CG3D实现了一致的多对象场景,允许通过文本提示快速编辑,同时解决像Janus问题这样的挑战。未来的工作旨在提高对复杂对象交互和大规模组合的支持。
2) 去噪和优化 GaussianDiffusion框架[58]由Li等人代表一种新颖的文本到3D方法,利用高斯溅射和Langevin动力学扩散模型加速渲染并实现前所未有的现实感。引入结构化噪声解决了多视图几何挑战,而变分高斯溅射模型缓解了收敛问题和伪影。虽然当前结果展示了改善的现实感,但正在进行的研究旨在改进变分高斯引入的模糊和朦胧方面的进一步增强。
Yang等人对现有的扩散先验进行全面审查,导致[60]提出一个统一框架,通过优化去噪分数改进这些先验。这种方法的多功能性在各种用例中一致地提供了显著的性能提升。在实验评估中,我们的方法在[113]上取得了前所未有的性能,超过了当代方法。尽管它在完善3D生成的纹理方面取得了成功,但在增强生成的3D模型的几何形状方面还有改进的空间。
C. 优化和速度 这一小节将处理研究人员为更快的训练和/或推理速度开发的技术。在Chung等人[65]的研究中,引入了一种方法,使用有限数量的图像优化高斯溅射的3D场景表示,同时减轻过拟合问题。传统的用高斯溅射表示3D场景的方法可能导致过拟合,特别是当可用图像有限时。这种技术[65]使用预训练的单目深度估计模型的深度图作为几何指南,并与SFM管道中的稀疏特征点对齐。这有助于优化3D高斯溅射,减少浮动伪影并确保几何一致性。所提出的深度引导优化策略在LLFF[17]数据集上进行了测试,展示了与仅使用图像相比改善的几何形状。研究包括引入提前停止策略和深度图的平滑项,两者都有助于提高性能。然而,承认了局限性,例如依赖于单目深度估计模型的准确性和对COLMAP[13]性能的依赖。未来的工作建议探索相互依赖的估计深度并解决在纹理较少的平面或天空等深度估计困难的区域的挑战。
Lee等人在他们的研究[114]中引入了一个紧凑的3D高斯表示框架,利用3D-GS的优势。虽然3D-GS提供了快速渲染和有希望的图像质量,但它需要大量的3D高斯,导致大量的内存和存储需求。所提出的框架使用可学习的掩码策略大大减少了高斯的数量,而不影响性能。此外,引入了基于网格的神经场,用于紧凑表示视点依赖的颜色,并学习码本有效压缩几何属性。实验表明,与3D-GS相比,存储量减少了10倍以上,渲染速度提高,场景表示质量得以维持。该框架强调减少高斯点和压缩属性,成为促进需要高效和高质量3D场景表示领域广泛采用的全面解决方案。
在他们的研究[115]中,Girish等人介绍了一种利用量化嵌入的新技术,以有效利用内存。Girish等人对优化的高斯点云使用了从粗到精的策略,实现了具有更少高斯和量化属性的场景表示,从而提高了训练和渲染速度。跨各种数据集和场景进行验证,内存使用量显著减少10-20倍,训练/推理速度得到提高。贡献包括一个新的压缩方法,三维高斯点云,优化增强通过不透明度系数量化,渐进式训练,和控制致密化。消融研究强调了这些组件的有效性,该方法显示出与3D-GS相当的质量,同时更快,更有效。总的来说,这种方法代表了3D重建和NVS的重大进步,在效率和重建质量之间取得了平衡。
在他们的研究[116]中,Fu等人引入了COLMAP-Free 3D Gaussian Splatting (CF-3DGS),这是一个新颖的端到端框架,用于从序列图像中同时进行相机姿态估计和NVS,解决了以前方法中大相机运动和长时间训练带来的挑战。与NeRFs的隐式表示不同,CF-3DGS利用显式点云来表示场景。该方法按顺序处理输入帧,逐步扩展3D高斯以重建整个场景,展示了在具有挑战性的场景(如360°视频)上的性能和鲁棒性的提高。该方法以顺序方式联合优化相机姿态和3DGS,使其特别适合视频流或有序图像集合。利用高斯溅射实现了快速的训练和推理速度,展示了这种方法比以前方法的优势。虽然展示了有效性,但承认顺序优化限制了其主要应用于有序图像集合的应用,并为未来研究探索扩展到无序图像集合的可能性。
D. 渲染和着色方法 Yu等人在[72]中观察到3D-GS中,特别是在改变采样率时NVS结果中的伪影。引入的解决方案是引入一个3D平滑滤波器来调节3D高斯原色的最大功率频率,解决了分布外渲染中的伪影问题。此外,2D膨胀滤波器被2D Mip滤波器替换,以解决抗锯齿和膨胀问题。在基准数据集上的评估证明了Mip-Splatting的有效性,特别是在修改采样率时。所提出的修改是原则性和直接的,需要对原始3D-GS代码进行最小的更改。然而,也承认了局限性,如由高斯滤波器近似引入的误差和轻微增加的训练开销。这项研究将Mip-Splatting呈现为一种竞争性解决方案,展示了其与最先进方法的性能平等和在分布外场景中的优越泛化能力,展示了其在任意尺度上实现无抗锯齿渲染的潜力。
Gao等人在[73]中提出了一种新颖的方法,用于从多视图图像中进行3D点云渲染,从而实现材料和照明分解。该框架支持编辑、光线追踪和场景的不同光线条件下的实时重光照,以可微分的方式进行。场景中的每个点由一个“可重光照”的3D高斯表示,携带有关其法线方向、像双向反射分布函数(BRDF)这样的材料属性以及来自各个方向的入射光的信息。为了准确估计照明,将入射光分离为全局和局部组件,根据视角考虑可见性。场景优化利用3D高斯溅射,而基于物理的可微分渲染处理BRDF和照明分解。一种创新的基于点的光线追踪方法,利用边界体积层次结构,实现了高效的可见性烘焙和实时渲染中的真实阴影。实验表明,与现有方法相比,BRDF估计和新视图渲染性能优越。然而,对于没有清晰边界的场景以及优化期间需要对象掩模的挑战仍然存在。未来的工作可以探索整合多视图立体(MVS)线索,以提高由3D高斯溅射生成的点云的几何精度。这种“可重光照3D高斯”流程展示了有前途的实时渲染能力,并为使用基于点云的方法彻底改变基于网格的图形,允许重光照、编辑和光线追踪打开了大门。
Liang等人在[74]中提出了3D高斯溅射逆渲染(GS-IR),这是一种新颖的逆渲染方法,利用了3D-GS的优势,这是一种强大的技术,用于生成新视图。与依赖隐式神经表示和体积渲染的方法不同,GSIR扩展了3D-GS的能力,直接从多视图图像中估计场景几何、材料属性和照明条件,即使在未知照明下也是如此。它通过一种有效的优化方案成功地解决了法线估计和遮挡处理等挑战,结合了基于深度的正则化和基于烘焙的遮挡建模。3D-GS的固有灵活性实现了对场景几何的快速紧凑重建,从而实现了逼真的NVS和物理准确的渲染。在各种场景的广泛评估中,GS-IR在重建质量和效率方面都优于现有方法。
Yan等人在[75]中提出了一种多尺度3D高斯溅射算法,以解决在较低分辨率或远离相机位置时渲染质量和速度下降的问题。承认由像素大小低于奈奎斯特频率引起的混叠效应,该算法通过在不同尺度上保持高斯来有效地表示场景。受到mipmap和细节层次(LOD)算法的启发,通过聚合来自更高分辨率的较小和较细的高斯,为较低分辨率增加了更大、更粗糙的高斯。这种方法与标准3D高斯溅射相比取得了显著的改进。它在从4x到128x的各种分辨率上显示出13%-66%的PSNR提升和160%-2400%的渲染速度提升。虽然在溅射过程中有一些初始开销,但该方法有效地减少了混叠伪影,并显著提高了渲染效率。未来的研究将探索轻量级高斯函数的过滤标准,以进一步提高速度。总的来说,这种算法在各种分辨率下在渲染质量和速度方面都表现出有效性,克服了以前3D高斯溅射方法的局限性。
Jiang等人在[76]中引入了GaussianShader,它将简化的着色函数直接集成到3D高斯上,提高了反射场景渲染的视觉质量,同时在训练和渲染方面保持了效率。在离散3D高斯上准确估计法线一直是一个挑战,这种方法通过利用最短轴方向和定制的一致性损失函数来克服这一困难。GaussianShader在保持效率的同时,在包含反射物体的数据集上实现了显著的PSNR提升,并超过了标准3D高斯溅射。此外,与以前的方法相比,它在优化时间上也有显著改进。通过显式近似渲染方程,GaussianShader增强了现实感,并允许实时渲染,使其适用于交互式应用。总结来说,这种方法通过将着色函数与扩展的3D高斯模型相结合,并引入创新的法线预测技术,为3D对象的渲染,特别是反射表面,迈出了重要的一步。
Lu等人在[77]中引入了Scaffold-GS,用于有效渲染复杂场景。他们的方法利用锚点来策略性地分布局部3D高斯,并根据视图条件动态预测它们的属性。通过这些锚点的“生长和修剪”策略,Scaffold-GS可以有效地适应场景,最小化冗余高斯。这在不牺牲速度的情况下,提高了渲染质量,并处理了具有不同细节和视点的场景。
3D高斯溅射在少样本场景中面临挑战,它倾向于过度拟合训练视图,导致背景坍塌和过度浮动物等问题。作为回应,Xiong等人在[55]中提出了一种方法,使用稀疏训练视图启用基于3D-GS的360度场景的一致性训练。该方法结合深度先验和生成性和显式约束来解决背景坍塌和浮动物伪影等挑战,提高了从未见过的视点的一致性。实验结果表明,所提出的技术在MipNeRF-360数据集上的LPIPS方面优于基础3D-GS和基于NeRF的方法,减少了训练和推理成本,取得了显著改进。尽管该方法依赖于COLMAP的初始点云,但它在少样本NVS中展示了令人印象深刻的性能,并有可能通过研究点云密集化技术进一步提高。
为了应对从有限观察中有效NVS的持续挑战,Zhu等人在[78]中提出了一个少样本视图合成框架。通过仅使用三个训练视图实现实时和逼真的结果。这个框架巧妙地处理了SFM点初始化的稀疏性,通过设计良好的高斯解池过程,迭代地在代表性位置周围分配新的高斯,以填补空白区域的局部细节。该框架结合了一个大规模预训练的单目深度估计器,在高斯优化过程中使用在线增强视图指导几何优化,以获得最优解。在包括LLFF[17]、MipNeRF360[14]和使用Blender生成的自定义数据集在内的各种数据集上进行了准确性和渲染效率测试。值得注意的特性包括具有Proximity-guided Gaussian Unpooling的新颖基于点的框架,用于全面的场景覆盖,集成单目深度先验以优化高斯表示,以及具有改进视觉质量的实时渲染速度(200+ FPS)。该框架为实际应用场景铺平了道路,为少样本视图合成领域做出了宝贵贡献。
E. 压缩 Fan等人在[79]中引入了一种新技术,用于压缩用于渲染的3D高斯表示。他们的方法基于它们的重要性识别并移除冗余高斯,类似于网络剪枝,确保对视觉质量的影响最小。利用知识蒸馏和伪视图增强,LightGaussian将信息转移到具有较少球谐函数的低复杂性表示中,进一步减少冗余。此外,称为VecTree量化的混合方案通过量化属性值优化表示,实现更小的尺寸,而不会显著损失准确性。与标准方法相比,LightGaussian实现了超过15倍的平均压缩比,显著提高了渲染速度,从139 FPS提高到215 FPS,适用于像Mip-NeRF 360[14]和Tanks&Temples[15]这样的数据集。涉及的关键步骤包括计算全局重要性、剪枝高斯、使用伪视图进行知识蒸馏,以及使用VecTree进行属性量化。总的来说,LightGaussian为将大型基于点的表示转换为紧凑格式提供了开创性的解决方案,从而大幅减少了数据冗余并显著提高了渲染效率。
Navaneet等人在[80]中提出了一个简单但有效的解决方案,利用基于Kmeans算法的向量量化来量化高斯参数。该方法涉及存储一个小的码本以及每个高斯的码索引,然后通过排序和类似行程长度编码的方法进一步压缩索引。通过在标准和超标准基准上进行广泛的实验,该方法证明了其在减少原始3D高斯溅射的存储成本方面的效果,几乎达到了20倍的压缩,而对渲染图像的质量影响很小。这种压缩技术提供了有价值的权衡,保持了3D高斯溅射的效率,同时显著减轻了存储需求。
应用和案例研究 本节深入探讨了自2023年7月高斯溅射算法问世以来,在各种领域中取得的显著进展,包括数字头像、SLAM(同步定位与地图构建)和网格提取以及物理模拟等应用。当应用于这些专业用例时,高斯溅射展示了其在多样化应用场景中的多功能性和有效性。
A. 数字头像 大量关于高斯溅射的研究集中在开发人类数字头像上,这与AR/VR应用的兴起有关。从较少数量的视点捕获对象并构建3D模型是一项挑战性任务,而高斯溅射正在帮助研究人员和行业实现这一目标。
1) 关节点或关节角度 这类高斯溅射技术侧重于以关节角度对人物身体进行建模。这些模型的一些参数反映了3D关节位置、角度和其他类似参数。输入帧被解码以找出当前帧的3D关节位置和角度。
Zielonka等人在[81]中展示了一种使用高斯溅射的人体表示模型,实现了实时渲染。与现有的逼真可驱动头像不同,可驱动3D高斯溅射(D3GA)不依赖于训练期间的精确3D注册或测试期间的密集输入图像。相反,它利用密集校准的多视图视频进行实时渲染,并引入了基于关键点和关节角度的四面体笼形变形,适用于通信等应用,如图9所示。实验包括具有各种服装、身体形状和动作的对象,D3GA在其他最先进方法中表现出色,展示了在没有地面真实注册需求的情况下,对于密集多视图场景的优越姿势基础头像生成。贡献包括DG3A的首次实现、基于四面体笼的变形和无需地面真实注册的最先进姿势基础头像生成。D3GA展示了在不需要地面真实几何的情况下,动态序列的高质量结果和有希望的几何和外观建模进展,从而简化了数据处理流程。
D3GA 框架,从左到右:关节角度,预测的身体笼,上部笼,下部笼,3D 高斯,服装部件,最终图像 | ©【计算机视觉life】编译 Jena等人在[82]中扩展了底层Skinned Multi-Person Linear (SMPL)几何体的蒙皮,以适应规范空间中的任意位置,以模拟人体关节。Lei等人在[83]中的Gaussian Articulated Template Models (GART)是用于从非刚性关节主题的单目视频中进行渲染和捕获的方法。GART通过使用一组移动的3D高斯来明确近似变形对象的形状和外观。Hu等人在[84]中引入了GauHuman,这是一种在规范空间中使用高斯溅射并通过线性混合蒙皮(LBS)将3D高斯转换为姿势空间的方法。这种方法结合了有效的姿势和LBS细化模块,以最小的计算成本学习3D人物的细微细节。为了加快优化,作者使用3D人体先验初始化和修剪3D高斯,采用KL散度引导的分裂/克隆,并引入了一种新颖的合并操作。
Abdal等人在[85]中引入了Gaussian Shell Maps (GSMs)作为框架,将SOTA生成器网络架构与新兴的3D高斯渲染原语连接起来,使用基于可变形多壳层的脚手架。在这种情况下,CNN生成具有特征的3D纹理堆栈,这些特征映射到壳层上。后者代表数字人类在规范身体姿势中的模板表面的膨胀和收缩版本。作者不是直接光栅化壳层,而是在壳层上采样3D高斯,其属性编码在纹理特征中。
2) 可动化 这些方法通常训练姿势依赖的高斯图,以捕获包括服装中更精细细节在内的复杂动态外观,从而产生高质量的头像。这些方法中的一些还支持实时渲染能力。
Jiang等人在[86]中提出了HiFi4G,这种方法有效地渲染了一个逼真的人物。HiFi4G结合了3D高斯表示和非刚性跟踪,采用双图机制用于运动先验和4D高斯优化与自适应时空正则化器。他们实现了大约25倍的压缩率,并且每帧存储少于2MB,HiFi4G在优化速度、渲染质量和存储开销方面表现出色,如图10所示。它提出了一个紧凑的4D高斯表示,连接了高斯溅射和非刚性跟踪。然而,对分割的依赖、对不良分割的敏感性导致伪影,以及需要每帧重建和网格跟踪构成了限制。未来的研究可能会集中在加速优化过程和减少GPU排序依赖,以便在Web查看器和移动设备上更广泛地部署。
HiFi4G 的 4D 高斯渲染 | ©【计算机视觉life】编译 Li等人在[87]中利用强大的2D CNN学习输入视频中的参数模板,该模板适应穿着的服装,用于模拟像裙子这样的宽松衣服。作者采用基于StyleGAN的CNN学习姿势依赖的高斯图,以模拟详细的动态外观。Moreau等人[88]、Kocabas等人[89]和Pang等人[90]的类似著名工作。Zheng等人在[91]中提出了一个完全可微分的框架,由迭代深度估计模块和高斯参数回归模块组成。中间预测的深度图连接了这两个组件并使它们相互促进。此外,作者开发了一个实时NVS系统,通过直接回归高斯参数图实现了2K分辨率的渲染。Hu等人在[92]中提出了一种利用可微分运动条件的方法,实现了在头像建模过程中运动和外观的联合优化。这解决了在单视图设置中不准确运动估计的持续挑战。
3) 基于头部 以前的头部头像方法大多依赖于固定的显式原语(网格、点)或隐式表面(SDFs)。基于高斯溅射的模型将为AR/VR和基于滤镜的应用的兴起铺平道路,允许用户尝试不同的化妆、阴影、发型等。
Wang等人在[93]中利用规范高斯来表示动态场景。使用显式的“动态”三平面作为参数化头部几何的高效容器,与底层几何和三平面中的因素对齐,作者获得了与规范高斯对齐的规范因素。通过小型MLP,因素被解码为3D高斯原色的不透明度和球谐系数。Quin等人在[94]中创建了具有可控视角、姿势和表情的超逼真头部头像。在头像重建过程中,作者同时优化了可变形模型参数和高斯溅射参数。这项工作展示了在各种具有挑战性的场景中头像的动画能力。Dhamo等人提出了HeadGaS[95],这是一个混合模型,将3D-GS的显式表示与可学习潜在特征的基础相结合。然后,这些特征可以与来自参数化头部模型的低维参数线性混合,以派生出与表情相关的最终颜色和不透明度值。一些示例图像如图11所示。
HeadGas 框架生成逼真的头部头像|◎【计算机视觉life】编译 为了模拟更精细的面部细节和表情,Xiang等人在[96]中提出了FlashAvatar,它使用几何先验,并使用了一种减少高斯数量的初始化技术。Saito等人[97]提出了面对模型的重新照明,Chen等人[98]引入了以高斯点为特征的头部头像,具有可适应的形状,允许灵活的拓扑结构。这些点根据目标姿势和表情对齐的高斯变形场进行移动,实现高效的变形。
B. 同步定位与地图构建 (SLAM) SLAM是自动驾驶车辆中使用的一种技术,用于同时构建地图并确定车辆在该地图中的位置。它使车辆能够导航并绘制未知环境的地图。视觉SLAM(vSLAM),顾名思义,依赖于相机和各种图像传感器的图像。这种方法可以适应多种类型的相机,包括简单的、复眼的和RGB-D相机,使其成为一个成本效益高的解决方案。由相机辅助的地标检测可以与基于图的优化结合使用,增强了SLAM实施的灵活性。单目SLAM,作为使用单个相机的vSLAM的一个子集,在深度感知方面面临挑战,可以通过整合额外的传感器如编码器用于里程计和惯性测量单元(IMUs)来解决。与vSLAM相关的主要技术包括SFM、视觉里程计和束调整。视觉SLAM算法主要分为两类:稀疏方法,使用特征点匹配(例如,Parallel Tracking and Mapping [117],ORBSLAM [118]),和密集方法,利用整体图像亮度(例如,DTAM [119],LSD-SLAM [120],DSO [121],SVO [122])。
GS-SLAM[68]由Yan等人提出,是一种新颖的SLAM方法,利用3D高斯表示和可微分的溅射光栅化流水线,实现了GPU上的实时跟踪和映射。如图12所示,该方法在渲染FPS和全图像质量方面显著优于SOTA替代方案,实现了100倍的快速渲染。GSSLAM通过使用实时可微分的溅射渲染流水线,在效率和准确性之间取得了平衡,与最近使用神经隐式表示的SLAM方法相比,提供了加速的地图优化和RGBD重渲染。所提出的自适应扩展策略动态调整3D高斯表示,有效地重建观察到的场景几何,并提高映射质量。这种动态方法不仅合成静态对象,还有助于重建整个场景。从粗到细的相机跟踪技术提高了运行时效率和稳健的姿态估计。GS-SLAM在如Replica[29]和TUM-RGBD[123]等数据集上展示了其在重建和定位方面的竞争力,显著减少了时间消耗。然而,GS-SLAM对高质量深度信息的依赖可能在缺乏此类数据的环境中成为限制。未来的工作旨在通过设计改进的优化方法来解决这一挑战,以便实时更新3D高斯位置。此外,将通过整合神经场景表示来优化大规模场景的内存使用。
GS-SLAM 框架 | ©【计算机视觉life】编译 Splat, Track & Map 3D Gaussians, SplaTAM[69]由Keetha等人提出了一种创新的密集SLAM方法,通过在线优化独特的体积表示,3D高斯溅射,实现了精确的相机跟踪和高保真度重建,在具有挑战性的现实世界场景中。该方法展示了即使在无纹理环境中,具有大量相机运动,也能实现亚厘米级定位,这对其他最先进的基线来说是一个挑战。SplaTAM是使用3D高斯溅射的开创性密集RGB-D SLAM解决方案,将世界表示为一组3D高斯,用于渲染高保真度的颜色和深度图像。尽管其最先进的性能,该方法对运动模糊、大深度噪声和激烈旋转表现出敏感性,这促使未来探索对这些效应的时间建模。SplaTAM通过使用OpenVDB[124]等高效表示扩展到大规模场景的能力被注意到,该方法目前依赖于已知的相机内参和密集深度进行SLAM,表明未来的工作可以解决减少这些依赖性的问题。该方法在分辨率为876×584时,渲染速度达到了400 FPS,展示了其在生成逼真视图方面的效率。
Matsuki等人[70]提出了一种使用单个移动单目或RGB-D相机进行3D场景重建的方法。该SLAM方法以3 FPS运行,使用高斯作为唯一的3D表示,统一了精确跟踪、映射和高质量渲染。关键创新包括通过直接优化3D高斯来制定相机跟踪,实现了快速且稳健的跟踪,而不依赖于离线SFM姿势。利用高斯的显式性质进行几何验证和正则化,解决了增量3D密集重建中的歧义问题。所提出的SLAM系统在NVS、轨迹估计和重建复杂细节方面取得了最先进的结果,包括小型和透明对象,从而显著提高了实时单目SLAM系统的保真度。视觉表示展示了系统捕获复杂材质属性和细节的能力,例如透明度和细薄结构,证明了其在实时3D场景重建中的有效性。
Yugay等人在[71]中引入了Gaussian-SLAM,这是一种新颖的密集SLAM方法,将高斯溅射作为场景表示,实现了对真实世界和合成场景的快速、逼真渲染。这种方法在渲染质量上取得了前所未有的成就,特别是在具有复杂细节的真实世界数据集如TUM-RGBD帧中尤为明显。提出了用于种子选择和优化高斯溅射的新策略,促进了它们从多视图离线场景到顺序单目RGBD输入设置的适应。该方法扩展了高斯溅射以编码几何,并展示了竞争性的重建性能和运行时间。Gaussian-SLAM在渲染精度方面超越了现有解决方案,同时保持了内存和计算资源使用的有利平衡,展示了其对现代神经SLAM应用的有效性。
C. 网格提取和物理模拟 高斯溅射可以用于基于物理的模拟和渲染。通过在3D高斯核中添加更多参数,如速度、应变等力学属性,可以建模。这就是为什么在几个月内开发了多种使用高斯溅射进行物理模拟的方法。
Xie等人在[99]中介绍了一种基于连续力学的3D高斯运动学方法,使用偏微分方程(PDEs)来驱动高斯核及其相关的球谐的发展。这一创新允许统一的模拟-渲染流水线,通过消除显式对象网格化的需求来简化动作生成。他们的方法通过在各种材料上的全面基准测试和实验展示了其多功能性,并在具有简单动态的场景中展示了实时性能。作者展示了PhysGaussian框架,该框架可以无缝生成基于物理的动态和逼真的渲染。尽管承认了框架中缺少阴影演化和使用单点积分用于体积积分的局限性,作者提出了未来的研究方向,包括采用高阶积分在物质点方法(MPM)中的使用,以及探索集成神经网络以实现更逼真的建模。该框架可以扩展以处理各种材料,如液体,并利用在大型语言模型(LLMs)方面的进展,引入用户控制。图13显示了PhysGaussian框架的训练过程。
PhysGaussian 框架训练 | ©【计算机视觉life】编译 Guedon等人在[100]中提出了一种方法来解决从广泛采用的3D高斯溅射中提取精确且快速获得的网格的挑战。虽然高斯溅射提供了逼真的渲染和比NeRFs更快的训练,但从未组织的优化高斯中提取网格证明是困难的。关键贡献是引入了一个正则化项,鼓励高斯与场景表面的对齐。利用这种对齐,作者提出了一个高效的算法,使用泊松重建进行快速和可扩展的网格提取,超越了传统的如Marching Cubes的方法。此外,Guedon等人引入了一个可选的细化策略,将高斯绑定到网格上,通过高斯溅射渲染实现无缝编辑、雕刻、动画和重新照明的联合优化。这种方法在几分钟内实现了可编辑网格的检索,用于逼真的渲染,这是对需要数小时的最新SDF方法的显著改进,从而提高了渲染质量和提供了多样化的场景编辑能力。
Duisterhof等人在[101]中介绍了MD-Splatting。这种新方法结合了3D跟踪和NVS,利用从多个相机角度捕获的视频。MDSplatting使用高斯溅射,采用基于神经体素编码和多层感知器的变形函数,将高斯投影到度量空间。整合物理启发的正则化项确保了轨迹误差的减少。实证结果表明MD-Splatting在同时3D度量跟踪和NVS方面的优越性能,平均改进了16%。该方法在六个具有大变形、阴影和遮挡的合成场景中进行了展示,并为研究社区提供了数据集。虽然突出了它的成就,但团队承认需要在未来的研究中进一步探索真实世界场景,考虑相机设置的复杂性和扩展到更大环境中的软对象是未来研究的有希望的途径。
Chen等人在[125]中引入了一个新的流程,结合了3D-GS和神经隐式模型(NeuS)[126]的优势。虽然以前的方法通常会导致过度平滑的深度图或稀疏的点云,但所提出的方法利用3D高斯溅射生成具有复杂细节的密集点云。为了克服生成的点可能无法精确对齐到表面的问题,[125]中引入了一个比例正则化器,以强制执行薄3D高斯,并使用神经隐式模型预测的正常进行点云细化。这种3D-GS和NeuS的联合优化增强了表面重建,生成了完整和详细的表面。在Tanks&Temples数据集上的实证验证展示了所提出的NeuSG框架的有效性,与以前的方法相比,在表面重建质量上取得了显著的改进。
D. 可编辑性 高斯溅射还扩展了其在3D场景编辑和场景点操作中的应用。即使是基于提示的3D场景编辑也是可能的,这将讨论的最新进展。这些方法不仅将场景表示为3D高斯,而且还具有对场景的语义和上下文理解。
在[102]中,Chen等人介绍了GaussianEditor,一种基于高斯溅射的新颖3D编辑算法,旨在克服传统3D编辑方法的局限性。与传统依赖于网格或点云的难以逼真地描绘的方法不同,像NeRF这样的隐式3D表示面临处理速度慢和控制有限的挑战。GaussianEditor通过利用3D-GS,通过高斯语义追踪增强精度和控制,并引入分层高斯溅射(HGS)在生成性指导下实现稳定和细化的结果。该算法包括一种专门的3D修复方法,用于高效的对象移除和整合,展示了在广泛的实验中优越的控制、效果和快速性能。图14显示了Chen等人测试的各种文本提示。GaussianEditor标志着3D编辑方面的重要进步,提供了增强的有效性、速度和可控性。研究的贡献包括引入高斯语义追踪以实现详细的编辑控制,提出HGS以在生成性指导下实现稳定收敛,开发了一种3D修复算法用于快速的对象移除和添加,以及广泛的实验证明该方法优于以前的3D编辑方法。尽管取得了进步,但GaussianEditor依赖于2D扩散模型进行有效的监督,在处理复杂提示时存在局限性,这是与其他基于类似模型的3D编辑方法共有的常见挑战。
GaussianEditor 使用各种文本提示改变场景 | ©【计算机视觉life】编译 在[103]中,Fang等人介绍了一个系统框架,旨在基于3D高斯溅射进行精细的3D场景编辑,解决当前扩散模型的局限性。与现有方法不同,这种方法通过利用3D高斯的显式属性,实现了3D场景的精确和局部编辑。该框架从文本指令中提取感兴趣区域(RoI),将其与3D高斯对齐,并在编辑过程中使用高斯RoI进行控制。GaussianEditor实现了比以往方法(如Instruct-NeRF2NeRF)更准确和精细的编辑结果,同时拥有更快的训练速度,在单个V100 GPU上20分钟内完成。贡献包括作为基于3D高斯溅射的精细3D场景编辑的首批系统方法之一,提出了精确RoI定位技术,并在大幅减少训练时间的同时实现了卓越的编辑效果。然而,仍然存在一些挑战,例如从不同视图生成场景描述的差异,以及在场景中,如果grounding segmentation或diffusion models失败,则可能存在困难。未来的优化将针对这些问题,论文建议将高斯溅射扩展到动态场景作为未来工作的潜在途径。
Huang等人在[127]中提出了"Point’n Move"技术,该技术利用3D-GS进行交互式对象操作,具有暴露区域修复功能。该方法支持直观的对象选择、高质量的修复和实时编辑,通过双阶段自我提示掩模传播过程实现。尽管其在正向和360°场景中的有效性,局限性包括专注于几何编辑,没有处理照明或纹理,以及由于分割中的精度问题可能导致修复区域变暗。
在[41]中,Yi等人通过高斯分组扩展了高斯溅射,解决了外观和几何建模的局限性。Identity Encoding促进了对象实例或stuff成员分组,允许通过2D掩模预测进行高效的分割监督。与隐式NeRF表示相比,高斯分组展示了3D场景中的重建、分割和编辑能力。一种局部高斯编辑方案在多样化的场景编辑应用中展示了其有效性。
Cen等人在[128]中引入了Segment Any 3D Gaussians (SAGA)用于交互式3D分割,将2D分割结果整合到3D高斯中。与以前的最先进水平相比,SAGA实现了近1000倍的加速,提供了实时的多粒度分割,适应了像点、涂鸦和2D掩模这样的提示。挑战包括3DGS学习的高斯的歧义和SAM提取掩模的噪声,这表明了未来改进的领域。
Zou等人将3D高斯溅射与特征场蒸馏集成,推进了3D场景表示在语义任务中的应用[129]。该框架实现了显著的效率提升,比基于NeRF的方法快2.7倍。实验结果展示了在语义分割任务上mIoU的提高,并引入了像点和边界框提示这样的新功能。尽管承认了局限性,这项研究在交互式和语义增强的3D场景应用中,对显式的3D特征场表示迈出了重要的一步。
讨论 传统上,3D场景使用网格和点表示,因为它们具有显式性质,并且与快速的GPU/CUDA基础的光栅化兼容。然而,像NeRF方法这样的最新进展选择了连续的场景表示,采用多层感知器优化通过体积光线步进来实现新视图合成的技术。虽然连续表示有助于优化,但必要的随机采样用于渲染引入了昂贵的噪声。高斯溅射通过利用3D高斯表示进行优化,实现了最新的视觉质量和竞争性的训练时间。此外,基于瓦片的溅射解决方案确保了实时渲染与顶级质量。高斯溅射在渲染3D场景方面提供了一些最佳的质量与效率结果。
高斯溅射已经发展到可以处理动态和可变形的对象,通过修改其原始表示。这包括纳入参数,如3D位置、旋转、缩放因子和用于颜色和不透明度的球谐系数。这方面的最新进展包括引入用于鼓励基础轨迹共享的稀疏损失,用于捕获时间依赖残差的双域变形模型,以及将生成器网络与3D高斯渲染连接的高斯壳映射。还努力解决诸如非刚性跟踪、头像表情变化和高效渲染逼真人类表演等挑战。这些进步共同旨在实现实时渲染、优化效率和处理动态和可变形对象时的高质量结果。
在另一方面,扩散和高斯溅射协同作用,从文本提示创建3D对象。扩散模型,一种神经网络,通过逆转图像腐败的过程,通过一系列越来越清晰的图像来学习从带噪声的输入中生成图像。在文本到3D的管道中,扩散模型从文本描述生成初始的3D点云,然后使用高斯溅射将其转换为高斯球体。渲染的高斯球体产生了最终的3D对象图像。这一领域的进展包括使用结构化噪声来解决多视图几何挑战,引入变分高斯溅射模型来解决收敛问题,以及优化去噪分数以增强扩散先验,旨在文本基础的3D生成中实现无与伦比的现实感和性能。
高斯溅射已被广泛应用于AR/VR应用中数字头像的创建。这涉及从最少数量的视点捕获主题并构建3D模型。该技术已被用于模拟人体关节、关节角度和其他参数,实现了富有表现力和可控的头像生成。这方面的进展包括开发捕捉高频面部细节、保留夸张表情和高效变形头像的方法。此外,提出了混合模型,结合显式表示和可学习的潜在特征,以实现基于表情的最终颜色和不透明度值。这些进步旨在增强生成的3D模型的几何和纹理,满足AR/VR应用中对逼真和可控头像日益增长的需求。
高斯溅射还在SLAM中找到了多种应用,提供了在GPU上的实时跟踪和映射能力。通过采用3D高斯表示和可微分的溅射光栅化流水线,它实现了真实世界和合成场景的快速和逼真渲染。该技术扩展到网格提取和基于物理的模拟,允许在没有显式对象网格化的情况下对机械属性进行建模。在连续力学和PDEs方面的进展使得高斯核的演变,简化了动作生成。值得注意的优化包括使用高效的数据结构如OpenVDB、用于对齐的正则化项和用于减少错误的物理启发式项,提高了整体效率和准确性。还在压缩和提高高斯溅射渲染效率方面进行了其他工作。
A. 比较 从表2可以看出,在撰写本文时,高斯溅射是最接近实时渲染和动态场景表示的选项。占用网络根本不适合NVS用例。摄影测量学非常适合创建具有强烈上下文感的高度准确和逼真的模型。NeRFs擅长生成新视图和逼真的照明效果,提供创作自由度,并处理复杂场景。高斯溅射在实时渲染能力和交互式探索方面表现出色,适用于动态应用。每种方法都有其独特的应用领域,并补充了其他方法,为3D重建和可视化提供了多样化的工具。
表2. 摄影测量学、占用网络、NeRFs和高斯溅射的比较。
方法 优点 缺点 摄影测量学 准确的测量、详细的表面纹理、逼真的上下文 处理时间、计算资源 占用网络 高效的表示、很好地处理遮挡、可扩展性 仅限于离散占用信息、在详细几何上存在挑战 NeRFs 新视图生成、逼真的照明效果、创作自由度 高训练时间、计算资源、可访问性 高斯溅射 实时渲染、交互式探索、准确的表示 较少的照片写实性
B. 挑战和限制 尽管高斯溅射是一种非常强大的技术,但它也有一些注意事项。其中一些如下所列:
计算复杂性:高斯溅射需要为每个像素评估高斯函数,这在计算上可能非常密集,特别是当处理大量点或粒子时。 内存使用:存储高斯溅射的中间结果,如每个点对邻近像素的加权贡献,可能会消耗大量的内存。 边缘伪影:高斯溅射可能在图像的边缘或高对比度区域产生不良的伪影,如振铃或模糊。 性能与准确性的权衡:实现高质量的结果可能需要使用大核尺寸或每个像素评估多个高斯函数,这会影响性能。 与其他渲染技术的集成:在保持性能和视觉一致性的同时,将高斯溅射与其他技术(如阴影映射或环境光遮蔽)集成可能很复杂。 C. 未来方向 实时3D重建技术将使计算机图形学和相关领域具备多种能力,例如实时交互式探索3D场景或模型,以及立即反馈地操作视点和对象。它还将使动态场景中移动对象或变化环境的实时渲染成为可能,增强现实感和沉浸感。实时3D重建可以用于模拟和培训环境,为汽车、航空航天和医学等领域的虚拟场景提供逼真的视觉反馈。它还将支持AR和VR体验的实时渲染,用户可以实时与虚拟对象或环境进行交互。总的来说,实时高斯溅射提高了计算机图形学、可视化、模拟和沉浸式技术应用的效率、互动性和现实感。
结论 在本文中,我们讨论了与3D重建和新视图合成相关的高斯溅射的各种功能和应用方面。它涵盖了动态和变形建模、运动跟踪、非刚性/可变形对象、表情/情感变化、基于文本生成的扩散、去噪、优化、头像、可动化对象、基于头部的建模、同步定位和规划、网格提取和物理、优化技术、编辑能力、渲染方法、压缩等主题。
具体而言,本文深入探讨了基于图像的3D重建中的挑战和进步,基于学习的方法在改进3D形状估计方面的作用,以及高斯溅射技术在处理动态场景、交互式对象操作、3D分割和场景编辑方面的潜在应用和未来方向。
高斯溅射在包括计算机生成图像、VR/AR、机器人技术、电影和动画、汽车设计、零售、环境研究和航空航天应用等多个领域具有变革性的影响。然而,需要注意的是,与其他方法(如NeRFs)相比,高斯溅射在实现照片写实主义方面可能存在局限性。此外,应考虑与过拟合、计算资源和渲染质量相关的挑战。尽管存在这些限制,高斯溅射的持续研究和进步继续解决这些挑战,并进一步提高该方法的有效性和适用性。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 、 最前沿 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向,细分群包括:
工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机 :四旋翼建模、无人机飞控等
2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿 :具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职 、硬件选型 、视觉产品落地、产品、行业新闻 等交流群
添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。
▲长按扫码添加助理:cv3d008 「 3D视觉从入门到精通 」 知识星球「3D视觉从入门到精通 」知识星球,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目&作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球 官网:www.3dcver.com 具身智能、3DGS、NeRF 、 结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测 、 BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制 、 无人机仿真 、 C++、三维视觉python、dToF、相机标定、ROS2 、 机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap 、线面结构光、硬件结构光扫描仪等。
▲长按扫码学习3D视觉精品课程 3D视觉模组选型:www.3dcver.com
点这里👇 关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~