专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

ACM MM 2024 | SaRO-GS: 具有尺度感知残差场和自适应优化的4DGS——用于时间复杂动态场景的实时渲染

3DCV · 公众号 · · 2025-02-08 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：媒矿工厂

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

来源： ACM MM 2024
题目： 4D Gaussian Splatting with Scale-aware Residual Field and Adaptive Optimization for Real-time Rendering of Temporally Complex Dynamic Scenes
作者： Jinbo Yan, Rui Peng, Luyang Tang, Ronggang Wang
原文链接： https://arxiv.org/abs/2412.06299
内容整理： 李雨航
从视频序列重建动态场景是多媒体领域中一项极具前景的任务。尽管之前的方法取得了一些进展，但它们通常难以处理缓慢的渲染速度以及时间复杂性（例如显著的运动和物体的出现/消失）。在本文中，我们提出了一种名为SaRO-GS的新型动态场景表示方法，该方法能够在有效处理动态场景的时间复杂性的同时实现实时渲染。为了应对渲染速度缓慢的问题，我们采用了一种基于高斯基元的表示方式，并优化了4D空间中的高斯点，这在3D高斯泼溅的帮助下促进了实时渲染。此外，为了处理时间复杂的动态场景，我们引入了一个尺度感知残差场（Scale-aware Residual Field）。该场在编码残差特征时考虑了每个高斯基元的尺寸信息，并与高斯基元的自分裂行为相一致。此外，我们提出了一种自适应优化调度（Adaptive Optimization Schedule），根据高斯基元的不同时间属性分配不同的优化策略，从而加速动态区域的重建。通过对单目和多视角数据集的评估，我们的方法展现了当前最先进的性能。

引言
方法

SaRO-GS的表示
尺度感知残差场
自适应优化
损失函数

实验

实验结果
消融实验
局限性

结论

引言

动态场景的重建对沉浸式成像至关重要，推动了虚拟现实（VR）、增强现实（AR）和元宇宙等多种多媒体技术的进步。然而现有的方法难以同时实现高质量重建和实时渲染，这正是我们方法试图解决的问题。

近年来，基于 NeRF 和 3DGS 的方法在动态场景重建中取得了一定的进展。NeRF使用隐式场来建模静态场景，实现了照片级真实感的视图合成，但在渲染速度上存在显著劣势。3DGS的出现使得动态场景的实时渲染成为可能。一些方法尝试基于3DGS进行动态场景建模。然而，这些方法要么难以处理如物体出现和消失等时间复杂的场景，要么忽略了场景中的时空信息，在处理时间复杂的动态场景时存在不足。

为了解决上述挑战，本文提出了SaRO-GS，旨在实现实时渲染，同时保持时间复杂动态场景的高质量重建。SaRO-GS由一组4D空间中的高斯基元和一个尺度感知残差场（Scale-aware Residual Field）组成。通过自适应优化策略（Adaptive Optimization Strategy），每个高斯基元根据其独特的时间属性分配一个独特的优化调度。为了解决渲染速度缓慢的问题，4D空间中的高斯基元可以基于其时间属性和从尺度感知残差场获得的残差特征投影到3D，然后利用3DGS的快速可微g实现实时渲染。

本文在单目和多视角动态场景数据集上进行了广泛评估，涵盖了真实和合成场景。定量和定性结果表明，我们的方法能够实时实现高质量渲染，并有效处理动态场景中的时间复杂性。

方法

为了对时间复杂场景进行高质量建模，SaRO-GS采用了以下策略：

每个4D高斯基元具有时间属性，包括时间位置和生命周期。生命周期允许我们建模动态场景中物体的出现和消失，而高斯基元的时间位置覆盖了整个时间范围，而不像之前的方法固定在帧0。
将高斯基元的尺度信息整合到残差场中，以适应其椭球特性。通过编码高斯基元占据的区域而不仅仅是其位置，确保特征提取的准确性，并与高斯基元的自分裂行为一致。
引入了自适应优化策略，根据高斯基元的时间属性分配独特的优化策略，从而加速动态区域的重建。

SaRO-GS的表示

图1: SaRO-GS的整体流程。(a) 在4D空间中，我们同时优化一组4D高斯和一个尺度感知的残差场M。当与M结合时，每个高斯生成一个残差特征和一个寿命。它们都代表了高斯基元的时间特性。(b) 给定一个采样时间，我们可以计算高斯的生存状态，并使用MLP在时间解码高斯的残差特征，从而得到属性的残差。最后，我们将这些残差与4D空间中高斯的初始属性结合起来，得到3D高斯表示。(c) 一旦我们获得了3D高斯的表示，我们就可以使用高斯绘制技术生成渲染图像。

为了表示动态场景，我们使用一组4D空间中的高斯基元以及感知缩放的残差场，如图1(a)所示。每个4D高斯基元拥有一个时间位置，与其3D位置一起形成一个4D位置。连同初始属性，和，一个4D高斯基元和其残差特征可以表示如下：

，和分别代表4D空间中高斯基元的初始协方差，颜色和不透明度。类似于3D高斯，我们采用四元数旋转和缩放向量来表示协方差，并使用SH (球谐) 系数来描述视角依赖的颜色。

为了处理如对象出现和消失这样的复杂时间场景，每个高斯基元应该有一个寿命来指示它在时间域中可以存在多久。为了有效地整合Scale-aware Residual Field 与我们的4D高斯基元，并利用的时空特性，我们采用一个小型MLP 来对进行推断，并计算的寿命：

因此，在我们的4D空间中，每个高斯基元可以通过获得一个残差特征和一个寿命。完全代表了4D空间中高斯基元的初始属性和时间特性。一旦给定采样时间，我们需要将高斯基元从4D空间投影到3D空间，如图1(b)所示。我们首先需要检查在当前采样时间是否仍然存在。启发于Spacetime-GS，我们采用一个类似高斯的状态函数来模拟随采样时间变化的状态：

随着采样时间逐渐远离的时间位置，从1减少。当采样时间达到高斯寿命时，将减少到0.01，表示在时几乎不活跃，这意味着它在投影到3D空间时应该是不可见的。因此，对于给定的采样时间，我们可以使用这个状态函数来表示在3D空间中投影后的不透明度：

除了不透明度，的其他特征在投影到3D空间时也会随采样时间变化。我们可以使用一组MLPs 来解码在采样时间的残差特征，从而获得随采样时间变化的投影属性的残差。

，和分别代表位置、协方差和颜色的残差。这里我们使用而不是仅仅，因为我们的目标是获得相对于4D空间中的初始属性的残差，其中是使用进行时间定位的。

因此，我们可以在给定时间获得投影的的属性：

表示提取的 xyz 分量作为初始的3D位置，可以分解为和，分别代表的三维缩放向量和四元数旋转的残差。通过对和进行相应的四元数旋转、缩放向量和SH系数的调整，我们可以根据方程[8-14]，在给定采样时间将4D空间中的高斯基元投影到3D空间。然后，基于方程34，我们使用3DGS渲染3D高斯，从给定的相机视点获得渲染图像，如图1(c)所示。

尺度感知残差场

图2: 在高斯自分裂中没有考虑尺度的影响。(a) 当考虑大小信息时，分裂后的高斯特征与其父高斯保持相似。(b) 否则，分裂后的高斯将具有与其父高斯不同的特征。

为了充分整合场景的时空信息并节省计算资源，我们采用hexplanes来表示我们的Scale-aware Residual Field ，它由空间平面和时空平面组成。

然而，忽略高斯基元的大小，仅基于其4D位置将其投影到平面上进行特征提取，将导致错误的残差特征。首先，高斯基元可以被近似为椭球体。因此，当将高斯基元投影到空间平面上时，我们得到的是一个椭圆形区域，而不是当前基于NeRF的方法中的一个单点。因此，对于高斯基元对应的特征应该是它在平面上占据的所有区域的组合。其次，如果我们遵循3DGS的自分裂策略，将一个大的高斯基元分裂成更小的，它们将具有不同的残差特征，这与它们父基元的特征显著偏离，这与我们的原始意图相矛盾，如图3所示。因此，找到一种合适的方法来编码高斯基元的投影区域是至关重要的。

我们提出了一个尺度感知残差场（scale-aware Residual Field）来解决上述问题，它将4D空间分解为三个空间平面和三个时空平面。鉴于高斯基元的大小影响其在空间平面上的投影，我们特别只在这空间平面上采用尺度感知编码，如图2所示。

对于每一个空间平面，我们采用MipMap堆栈来表示场景中不同空间尺度的特征。MipMap堆栈的第0层是一个形状为的特征图，它具有所有层中最小的空间尺度。剩余层是基于前一层的特征计算得到的缩略图，其中宽度和高度都缩小了2倍。以为例，它们的空间尺度关系如下：

其中和分别代表场景边界框的最大值和最小值，是MipMap堆栈中第层的空间尺度。在实践中，我们只存储和优化第0层MipMap的特征，其余层在前向推理期间动态计算和生成。这样，我们有能力在场景中编码不同空间尺度的特征。

同时，对于4D空间中具有缩放的高斯基元，当其投影到空间平面上时，它会产生一个轴为的2D椭圆。因此，基于高斯基元在上的投影轴和对应的基础空间尺度，我们可以确定与此高斯基元相关联的空间尺度级别：

为了保持最高的精度，我们选择两者中的最小值作为最终的空间级别。所以现在我们可以获取两个最接近其空间级别的MipMap特征：，并且我们可以通过中 4D 的位置获得高斯基元的嵌入：

这里，代表三线性插值。通过实验，我们发现求和是我们Scale-aware Residual Field中比其他方法更有效的特征组合方式。

完整的表达式为高斯基元的scale-aware残差特征如下：

这里，和分别代表三线性插值和双线性插值。通过实验，我们发现求和是在我们的Scale-aware Residual Field中组合特征的更有效方式。

自适应优化

由于4D空间中高斯基元的不同时间属性，每个高斯基元在观察时间内的采样概率不同。动态基元为了表示场景的时间复杂性，通常具有较短的寿命，导致与静态基元相比具有较低的采样概率。这些动态基元在损失函数的反向传播过程中的梯度值较小。梯度值在3DGS框架中至关重要，因为它需要超过一个阈值才能密集化相应的基元，并优化当前未完全重建的区域。因此，直接将3DGS中的相同优化和密集化策略应用于每个基元可能会导致优化不平衡。

为了解决上述问题，我们提出了一种自适应优化策略，它根据其在可观察时间范围内的采样概率动态调整的学习和密集化梯度阈值。具体来说，我们可以使用的来计算其在可观察范围内的时间积分，代表其采样概率。积分值越大，高斯基元的寿命与可观察范围的交集越多，被采样的可能性就越大。

时域分布的定积分。

基于每个高斯基元的的状态函数，我们可以计算其在整个时间域上的积分。

其中

ACM MM 2024 | SaRO-GS: 具有尺度感知残差场和自适应优化的4DGS——用于时间复杂动态场景的实时渲染

正文

引言

方法

SaRO-GS的表示

尺度感知残差场

自适应优化

请到「今天看啥」查看全文