专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

多伦多大学 & 华为诺亚开源 AutoSplat | 几何约束下的高斯 splatting 场景重建方法！

智驾实验室 · 公众号 · · 2024-07-22 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

现实场景重建和视图合成对于通过模拟安全关键场景来推进自动驾驶系统至关重要。3D高斯 splatting 在实时渲染和静态场景重建方面表现出色，但在建模驾驶场景时，由于复杂的背景、动态物体和稀疏视图而遇到困难。

作者提出了AutoSplat，一个采用高斯 splatting 的框架，以实现自动驾驶场景的高度逼真重建。

通过在表示道路和天空区域的的高斯上施加几何约束，作者的方法能够实现多视图一致性的挑战性场景模拟，包括变道。

通过利用3D模板，作者引入了反射高斯一致性约束来监督前景物体可见和不可见侧。

此外，为了建模前景物体的动态外观，作者估计了每个前景高斯的残差球面谐波。

在Pandaset [36] 和 KITTI [12] 上的大量实验表明，AutoSplat 在各种驾驶场景中的场景重建和新视图合成方面优于现有技术水平。

作者的项目页面位于：https://autosplat.github.io/。

1 Introduction

从捕获的图像中进行视图合成和场景重建是计算机图形学和计算机视觉领域的基本挑战[14, 25, 26]，这对于自动驾驶和机器人技术至关重要。在移动车辆上从稀疏传感器数据重建详细的3D场景[12, 36]尤其具有挑战性，尤其是在高速情况下，此时自身车辆和周围物体都在运动中。这些技术通过模拟真实驾驶场景来提高安全性，特别是对于那些成本高昂或危险的边缘情况。

神经辐射场（NeRFs）[18]的出现通过使用多层感知机（MLP）隐式地表示场景，从而改变了视图合成和重建。许多努力解决了NeRF的挑战，例如训练和渲染速度慢，以及渲染质量，特别是在重建有界的静态场景方面。对无界场景和大型城市区域的扩展也已被探索。各种方法已解决了自动驾驶场景中的动态场景建模。然而，基于NeRF的方法在训练和渲染包含多个动态目标的大型场景时仍然面临重大障碍。

与基于NeRF的方法相比，3D高斯溅射（3DGS）[16]通过使用各向异性的3D高斯显式地表示场景，这可以实现更快的训练，实现高质量的新视图合成和实时光栅化。尽管3DGS在处理纯粹静态场景方面表现出色，但它无法重建包含动态目标的场景。此外，3DGS并不是为了重建自动驾驶场景而设计的，在这些场景中可用的视图是稀疏的。这导致了前景物体重建和新视图合成的失真，如图1所示的自身车辆变道场景。

在本文中，作者提出了AutoSplat，这是一个专门设计的基于3DGS的自动驾驶场景模拟框架。为了在背景重建期间确保新视图中的一致性和高质量合成，作者将道路和天空区域与其他背景区分开来。作者限制它们的高斯分布变得平坦，从而保证多视图一致性。这在图1所示的变道场景中尤为明显。

此外，代表前景物体的3D点无法通过运动结构（SfM）方法和激光雷达点云捕获，因为它们稀疏且不完整。

因此，作者利用密集的3D模板作为高斯初始化的先验，然后微调以重建场景中的前景物体。这使作者能够引入反射高斯一致性约束，该约束通过使用 GT 相机视图反射所有高斯分布，来监督前景物体的不可见部分。

最后，为了捕捉前景物体的动态外观，作者估计了不同时间步每个高斯分布的残余球面谐波。总的来说，作者的主要贡献有四点：

将背景分解，并对道路和天空区域进行几何限制，以实现多视图一致的光栅化。
利用3D模板初始化前景高斯分布，并通过反射高斯一致性约束来重建对称可见视图中的不可见部分。
通过估计随时间变化的残余球面谐波来捕捉前景物体的动态视觉特征。
作者在Pandaset[36]和KITTI[12]上对AutoSplat进行了全面评估，与最先进（SOTA）的方法进行了比较。此外，广泛的消融研究证明了作者提出组件的有效性。

2 Related Work

2.0.1 Implicit Representations and Neural Rendering

体积渲染技术，尤其是NeRF，显著推进了三维重建和新型视图合成。然而，NeRF面临包括训练和渲染速度慢、内存使用高以及几何估计不精确等挑战，尤其是在稀疏视点的情况下[18, 19, 21]。为了解决训练速度慢的问题，已经探索了不同的方法，如 Voxel 网格[10, 29]、张量分解[5, 6]以及哈希编码[19, 32]。为了提高渲染延迟，FasterNeRF[11]设计了一种受图形启发的分解方法，以紧凑地缓存空间中每个位置的深度辐射图，同时通过光线方向有效地 Query 该图。MobileNeRF[8]和BasedSDF[40]通过将隐式体积转换为显式纹理网格，实现了快速的渲染速度。为了解决NeRF的低质量渲染问题，Mip-NeRF[1]有效地渲染了抗锯齿的锥形截头体，而不是光线。Mip-NeRF 360[2]通过采用非线性格式场景参数化、在线精炼以及基于失真的正则化器，解决了从少量图像中固有模糊的大型（无限定）场景的问题。

2.0.2 Urban Scene Reconstruction with NeRF

在城市尺度场景建模方面具有挑战性，因为需要管理成千上万张具有不同光照条件的图像，每张图像仅捕捉到场景的一小部分，这提出了显著的计算需求。MegaNeRF [31] 和 BlockNeRF [30] 通过将场景划分为多个区块，并为每个区块训练独立的NeRF模型。然而，这些方法并未传统地模拟在自动驾驶场景中常见的动态目标。NSG [22] 和 MARS [35] 通过结合场景图来执行动态场景建模。与NSG不同，SUDS [32] 在 ego-vehicle 运动期间处理重建问题，利用激光雷达数据改进深度感知和光流，以减轻对目标标注的严格需求。EmerNeRF [37] 通过分层场景并使用诱导流场来学习驾驶场景的空间-时间表示，从而提高动态目标的渲染精度。

尽管在优化努力和创新策略方面取得了进展，基于NeRF的方法仍然计算量大，并且需要密集重叠的视图。此外，模型容量的限制在准确建模具有多个目标的长期动态场景方面提出了挑战，导致视觉伪影。

2.0.1 3D Gaussian Splatting (3DGS)

3DGS [16] 使用了一种显式的场景表示。其有效性的核心在于优化各向异性的3D高斯分布，这负责忠实重建场景，同时辅以快速、考虑可见性的栅格化算法的整合。这不仅加快了训练速度，也使得实时栅格化成为可能。然而，由于3DGS假设场景为静态，并且可用的相机视角有限，其在重建大规模自动驾驶场景时仍然面临重大挑战。此外，3DGS在背景区域缺乏几何约束，导致在合成新视角时质量大幅下降，如图1所示。最近，PVG [7] 基于3DGS构建，通过使用基于周期性振动的时态动态来模拟自动驾驶场景中的动态情况。然而，这种方法并未解决模拟新情景的问题，例如自动驾驶车辆变道和调整物体轨迹。相比之下，作者的方法在重建动态场景和模拟多种新情景方面表现出色，包括改变自动驾驶车辆和前景物体的轨迹。

3 Method

Prerequisites

三维高斯场景（3DGS）[16]通过使用从一组三维点初始化的各向异性三维高斯来显式地表示场景。它被定义为：

其中，和分别表示每个三维高斯的中心向量和协方差矩阵。此外，在3DGS [16]中，每个高斯分配有一个不透明度和颜色属性，后者使用球面谐波系数表示。为了便于优化，协方差矩阵被分解为一个缩放矩阵和一个旋转矩阵：

为了可微渲染，通过近似它们在二维中的投影位置和协方差，将三维高斯溅射到图像平面上。通过根据高斯在相机空间中的深度进行排序， Query 每个高斯的属性，并计算像素的最终栅格化颜色，通过混合个重叠高斯的贡献：

其中，是目标像素位置，是第个溅射的高斯。利用可微栅格化器，直接优化三维高斯（）的五个可学习属性，使用训练视图重建。

Overview

在给定依次捕获并校准的多传感器数据的情况下，这些数据包括一系列张图像（），由具有相应内参（）和外参（）矩阵的相机拍摄，以及3D激光雷达点云和相应的动态目标轨迹，作者的目标是利用3DGS重建3D场景，并在任意相机姿态下合成新视图以及新的目标轨迹。作者提出方法的概览如图2所示。首先，作者重建一个具有几何感知能力的静态背景。然后，从3D模板出发，重建前景目标，确保在建模它们的动态外观时，可见区域与不可见区域之间的一致性。最后，作者将前景和背景高斯融合在一起，以产生一个精细且统一的表示。

Background Reconstruction

自动驾驶场景庞大且无边无界，而传感器观测数据稀疏。简单地使用3DGS从这些有限的观测数据中表示背景，对于真实重建和模拟来说是不够的。此外，用于重建道路和天空区域的高斯分布存在几何错误，并产生浮动伪影。尽管这些高斯分布能够从 GT 视角重建场景，但它们不正确的几何形状在模拟新场景时（如图1所示的横向移动自我车辆）会产生明显的失真。

为了解决这些问题，作者框架中的背景训练分为两个阶段。在第一阶段，使用从现成的预训练分割模型[9]获得的语义 Mask ，将道路和天空区域从背景的其他部分分解出来。通过在每个时间步使用校准矩阵将激光雷达点投影到图像平面上，每个高斯分布被分配到道路、天空和其他类别中的一个。这种分解的目的是双重的。首先，这防止了非天空和非道路的高斯分布重建天空和道路区域。其次，当进行涂抹操作时，可以限制天空和道路的高斯分布产生多视图一致的结果。由于激光雷达点不包括天空点，作者在最大场景高度以上添加了一个表示天空的平面点。上述区域使用和损失项进行监督，如[16]中所做。为了在涂抹道路和天空高斯分布时确保视图之间的一致性，这些高斯分布被限制为平面。这是通过最小化它们的滚转角、俯仰角以及它们的垂直尺度来实现的。因此，第一阶段背景训练的总体损失项定义如下：

其中和分别表示区域（可以是道路、天空或其他）的语义 Mask GT 图像和光栅化图像。是应用于道路和天空区域的约束，其中、和分别表示第个高斯分布的滚转角、俯仰角以及沿Z轴的垂直尺度。此外，用于加权几何约束。所提出的约束保证了无论视角如何变化，道路和天空高斯分布的光栅化都是一致的。

在背景重建的第二阶段，所有高斯分布一起涂抹，并在整个图像上使用进行监督，其中。在此阶段中，道路、天空和其他背景区域被混合以优化最终背景图像。需要提到的是，在两个训练阶段中，动态前景区域都被 Mask 了。

Foreground Reconstruction

在自动驾驶场景中，前景重建对于真实模拟至关重要，尽管存在遮挡和动态外观等挑战。在这里，作者引入了新的策略来在3DGS范式下解决这些复杂性。

3.4.1 Constructing Template Gaussians

三维生成场景（3DGS）在重建前景物体时面临挑战，这主要是因为它依赖于针对静态场景定制的结构从运动（SfM）技术，并且缺乏运动建模能力。为了克服这些限制，作者需要一种替代方法来初始化代表这些前景物体的高斯分布，并优化它们的属性。这可以通过利用随机初始化的点、累积的激光雷达扫描，或者使用单次或少量拍摄的3D重建方法来实现[20, 4, 23]。尽管激光雷达捕捉到了详细的几何信息，但它也存在限制，比如对于远距离物体会有盲点和稀疏的表面细节。因此，作者使用带有真实车辆几何的3D模板来建模前景物体。值得注意的是，作者采用了[23]的方法，它可以从单张图像生成车辆等物体的3D形状。在作者的方法中，给定包含

多伦多大学 & 华为诺亚开源 AutoSplat | 几何约束下的高斯 splatting 场景重建方法 ！

正文