专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

SplatAD：首个基于3DGS实时渲染相机与激光雷达数据，提效增质助力自动驾驶测试！

智驾实验室 · 公众号 · · 2025-03-11 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

确保自动驾驶机器人（如自动驾驶汽车）的安全性需要对多种驾驶场景进行广泛的测试。模拟是进行这种成本效益高且可扩展的测试的关键。神经渲染方法已经变得越来越受欢迎，因为它们可以从收集的日志中以数据驱动的方式构建模拟环境。

然而，现有的用于传感器真实渲染的神经辐射场（NeRF）方法在渲染速度方面存在低效问题，限制了它们在大规模测试中的适用性。

虽然3D高斯插值（3DGS）实现了实时渲染，但当前的方法仅限于相机数据，无法渲染对自动驾驶至关重要的激光雷达数据。

为了解决这些限制，作者提出了SplatAD，这是第一个基于3DGS的实时渲染动态场景的相机和激光雷达数据的方法。

SplatAD准确地建模了关键的传感器特定现象，如滚动快门效应、激光强度和激光光束衰减，使用专门优化的算法来提高渲染效率。

在三个自动驾驶数据集上的评估表明，SplatAD在提高渲染速度的同时，实现了最先进的渲染质量，对于NVS的峰值信噪比（PSNR）提高了+2，对于重建的PSNR提高了+3。

1 Introduction

大型规模的测试对于确保自主机器人的安全性至关重要，这些机器人在实际部署之前需要进行安全检查，例如自动驾驶汽车（ADVs）。从收集的日志中生成数字双胞胎的数据驱动方法提供了一种可扩展的方式来构建多样、真实的模拟环境进行测试。与实际测试相比，模拟测试可以实现快速、低成本探索多个场景，有助于优化ADVs的安全性、舒适性和效率。因此，基于神经辐射场（NeRFs）[25, 35, 36, 45]和3D高斯插值（3DGS）[14, 43, 51]等方法应运而生。

最近基于NeRF的方法[35, 45]为摄像头和激光雷达同时提供高保真传感器模拟，与流行的自动驾驶（AD）数据集[1, 5, 38]中最常见的传感器配置相匹配。然而，基于NeRF的方法的渲染速度较慢，使其在大规模测试中变得昂贵且具有挑战性。3DGS提供了一个有吸引力的替代方案，因为它通过加速渲染实现了与NeRF相当的真实感图像，同时将推理速度提高了一个数量级。然而，用于AD设置的基于3DGS的方法[7, 43, 51]继承了只能渲染相机数据的限制，忽视了激光雷达模式。激光雷达能够直接感知3D环境，使其成为现代AD堆栈中的强大工具，因此是模拟的重要模式。

在本文中，作者旨在利用3D高斯插值解决相机和激光雷达数据的实时、可微分和逼真渲染。将3DGS应用于激光雷达传感器面临着独特的挑战，因为它们具有独特的特性。首先，与相机不同，激光雷达记录稀疏、非线性的点云，其中非返回射线的空洞较大。

其次，大多数激光雷达能捕捉到场景的360°全景，而现有方法通常将数据投影为多个深度图像[7]——这是一种低效的方法，忽视了激光雷达稀疏结构的特性。最后，激光雷达存在滚动 shutter 效应，每次扫描需要100 ms，在此期间，自动驾驶车辆可能移动数米，违反了3DGS的单一来源假设。为了克服这些挑战，作者引入了SplatAD，一种新颖的视图合成方法，将相机和激光雷达渲染统一起来，并设计用于实时渲染大规模动态交通场景。作者的方法用每个高斯可学习的特征替代球谐波，共同建模传感器特定的现象，如激光雷达射线滴落和强度变化到相机的特定外观变化。通过引入专用的渲染算法，作者在球坐标下实现优越的效率和逼真度。此外，作者还展示了在两种传感器模式上有效模拟滚动 shutter 效应的方法。作者在三个流行的汽车数据集上验证了作者的方法的有效性和普遍性，在所有数据集上都取得了最先进的结果。

总之，作者的贡献如下：

作者提出了第一个使用3D高斯分布进行高效激光渲染的方法，并引入了自定义的CUDA加速算法，用于在球坐标系中渲染稀疏点云。
作者提出了第一个能从统一的表示中渲染相机和激光雷达的3DGS方法，实现了加速应用于汽车的新视角合成的扩展。
作者提出了使用3D高斯分布的有效技术，实现传感器模型的实时性，能够精确处理滚动 shutter、激光强度、光线衰减以及传感器外观的变化。

通过在三个流行的汽车数据集上进行广泛的评估，作者在所有基准测试上取得了最先进的结果，证实了作者的方法的有效性和泛化性。

2 Related work

NeRFs在汽车数据上的应用： 自从NeRFs的提出以来，神经表示已成为3D重建和新型视图合成的核心 [2, 3, 4, 25]。许多工作将基于NeRF的方法应用于汽车数据 [35, 36, 44, 45]，实现了在大规模和动态场景中传感器真实的渲染新视角。最近的研究为下游应用提供了足够的真实性 [22, 23]。早期的方法主要关注摄像头 [10, 19, 29, 42]或激光雷达 [13, 39, 49]，而新的方法旨在同时处理它们。UniSim [45]展示了在PandaSet数据上的前摄像头和360°激光雷达的逼真渲染。该方法使用了一个散列网格表示 [27]，分别有天空、静态背景和动态演员的单独特征，并从体积渲染的特征中解码颜色和激光强度。

NeuRAD [35]提出了一种简化的网络结构和改进的传感器建模，实现了最先进的360°摄像头和激光雷达装置的结果。然而，基于NeRF的方法的渲染速度较慢，使得扩展成本高昂且具有挑战性。SplatAD旨在克服这一局限性，通过使用基于CUDA加速的渲染算法同时渲染摄像头和激光雷达数据，同时借鉴NeuRAD，强调建模重要的传感器特性以提高逼真度。

3DGS在汽车数据中的应用： 3DGS [14]使用显式表示结合栅格化技术以及专用的硬件加速算法来实现实时渲染。此外，3DGS已被证明可以创建接近最近基于NeRF的方法的忠实场景重构，渲染质量接近。因此，许多工作将3DGS应用于汽车数据上的相机渲染[7,15,43,50,51]。周期性振动高斯（PVG）[6]通过学习所有高斯分布的3D流将3DGS应用于动态场景。然而，PVG缺乏显式演员表示，限制了方法的可控性和适用性，因此不适合仿真。街道高斯（43），类似于Unisim和NeuRAD，使用3D边界框将场景分解为静态背景和刚性动态演员。作者进一步通过添加傅里叶系数来捕捉动态演员随时间变化的特点。此外，为了处理天空区域，他们使用语义 Mask 和视图相关的立方体图。OmniRe [7]通过使用非刚性节点增强场景图的组合，以更好地模拟行人和自行车。然而，这需要预处理来跟踪和校正人体姿势[12]，以便初始化SMPL [24]的姿势参数。

PVG、Street Gaussians 和 OmniRe 都使用激光点进行初始化和深度监督。然而，它们的点云是通过将激光点投影到深度图像中产生的，这既不高效，也不适用于新视角。因此，这两种方法都无法模拟激光的重要特性，如强度变化、光线衰减和滚动快门。相比之下，作者的方法可以从新视角有效渲染相机和激光雷达，同时模拟两种传感器的关键特性。

3 Method

作者的目标是学习从收集的车辆日志中获取的场景表示，以实现实时的摄像头和激光雷达数据的渲染，并能够更改自车和其他角色的位置。为了实现有效的缩放，渲染过程必须快速，因为更快的推理速度提高了其应用的实际性。在以下部分，作者将描述作者的场景表示（第3.1节）、渲染算法（第3.2和3.3节）和实现与优化策略（第3.4节），请参见图2以获得概述。

Scene representation

作者的场景表示基于3DGS [14]，但进行了关键更改以处理AD场景的特定细节，并使摄像头和激光雷达渲染从相同的表示中进行。与3DGS类似，每个场景由一组可学习的透明3D高斯分布表示，可学习占据度，均值，协方差矩阵，而这些参数分别由缩放和四元数参数表示。取而代之的是球谐函数 [14]，作者为每个高斯分配一个可学习的RGB基础颜色和特征向量，其中用于表示视图相关效果和激光雷达属性。最后，作者的表示包含一个可学习的嵌入，用于模拟每个传感器的特定外观特征。

为处理动态，作者遵循常见的场景图分解方法 [29, 35, 43, 51]，将场景划分为静态背景和一组动态演员。每个动态演员由一个3D边界框和一系列SE(3)位姿序列描述，这些位姿序列可以来自现成的目标检测和跟踪器，或者标注。对于分配给演员的Gaussian，它们都有一个非可学习的ID，表示它们被分配给静态世界还是属于哪个演员。对于分配给演员的Gaussian，它们的均值和协方差用对应轴对齐边界框的局部坐标系表示。在给定的时间，将边界框上分配的Gaussian变换到世界坐标是基于演员的位姿。由于演员的位姿估计可能包含不准确的信息，作者用可学习的偏移来调整这些。此外，每个演员都有一个从位姿差异初始化的速度和可学习的速度偏移。

Camera rendering

给定一个摄像头，作者在相应的拍摄时间处组成一组高斯分布，并使用3DGS [14]中的高效瓷砖渲染方法生成图像。虽然作者保留了3DGS的高级步骤--投影和 Frustum 裁剪、瓷砖分配、深度排序和基于瓷砖的栅格化，但作者针对AD数据的特点进行了关键的调整。

投影、分块和排序：每个均值和协方差都从世界坐标转换到摄像机坐标，得到和。然后，使用透视投影将均值转换到图像空间，同时使用投影的Jacobian矩阵的左上角部分将协方差转换为。在 Frustum 外的高斯核被裁剪掉，为了效率，3DGS使用一个正方形轴对齐边界框（AABB）来近似高斯核的范围，该边界框覆盖了它们的99%置信水平。此外，3DGS将图像分成每个尺寸为16×16像素的块，并将经过它们的块上的高斯核分配给这些块，如果需要的话则重复。这样，在光栅化过程中，每个像素只需要处理所有高斯核的一个子集。最后，高斯核按照其均值的深度进行排序。

卷帘快门： 许多相机使用卷帘快门，这意味着图像的捕捉并非即时的，而是按行逐行进行的，允许相机在曝光期间移动。以前的工作[35]强调了在AD数据中存在的高传感器速度时建模卷帘快门效果的重要性，其中基于光线追踪的方法可以通过将每条射线的原点进行位移来轻松应对这一点。对于3DGS，等效的实现需要将所有3D高斯核投影到曝光期间遇到的每个相机姿态，因为高斯核相对于相机的位置会随时间变化。然而，[31]只考虑了静态场景，因此作者调整公式以考虑动态因素。

对于每个高斯分布，其像素速度可以近似为

在相机坐标系中，表示相机角速度和线速度的向量分别为：和。

表示与其相关的主体（用主体坐标系表示）的角速度和线性速度所诱导的高斯速度，以及表示主体坐标系中的高斯均值。为了将主体坐标系中的速度转换为摄像机坐标系，是主体到世界和世界到摄像机变换的组合。对于静态背景中的高斯，为零。有关更多信息，请参阅附录D。

作者在裁剪高斯和检查高斯与瓷砖的交点时，考虑了像素速度，通过增加近似高斯范围来实现。作者使用一个覆盖了三个标准差范围的矩形AABB，并将其范围扩展为，其中表示滚动快门持续时间，即最后一行像素和第一行像素之间的时间差。扩展范围的增加对应于传感器时间戳在曝光时间中间的情况下高斯均值覆盖的区域。由于并非总是如此，作者还进一步包括了一个可学习的时间偏移，描述了传感器时间戳和曝光时间中间的区别。使用矩形AABB相对于[14, 31]可以减少不必要的交点，尤其是在窄高斯和轴对齐的高斯中，后者通常适用于侧面朝向的相机。

纹理化： 3DGS 通过启动每个块的一个线程块并将其分配到块内的每个像素，以并行方式对像素进行纹理化。对于每个像素，其坐标是由块和线程索引推理出来的。从中，作者可以找到像素的捕获时间和图像的中行之间的时间差。

为了对像素进行栅格化，作者 -混合法则 RGB 值和与当前图块相交的深度排序高斯核的特征。

在计算α时，

正如[31]中所述，作者使用通过卷积 shutter 补偿的平均值计算像素与高斯核之间的距离，从而有效地将高斯核移至图像的正确位置。与 3DGS 相比，在公式（5）中，作者使用了[47]中的 3DGS+EWA[52] 表述，其中。

基于视角相关的效应，使用一个小的卷积神经网络（CNN）进行建模。给定特征图 , 对应的射线方向 , 以及一个特定的摄像机嵌入 , 它预测一个像素级的仿射映射和应用到。

SplatAD：首个基于3DGS实时渲染相机与激光雷达数据，提效增质助力自动驾驶测试 ！