万能3D高斯预训练表示！GaussianPretrain：爆拉3D检测、Occ、高精地图等四大任务！

arXiv每日学术速递 · 公众号 · · 2024-11-26 13:33

正文

写在前面 && 笔者理解

受Tesla的技术的推动，越来越多的厂商开始走"纯视觉"的路线，多数方案还是集中在从多视图输入图像中提取鸟瞰图（BEV）特征，来解决下游目标检测、在线地图等各种应用。尽管有监督的方法还是占主导地位，但是它们非常依赖精确的GT标注，成本高、难度大往往成为一个比较显著的瓶颈。相反，大量且易于获取的未标记数据为提高性能提供了一个充满希望的途径。这就是所谓的 自监督预训练 技术，其核心思想是，通过利用精心设计的代理任务，从丰富的未标记数据中学习有意义的表示。然而当前的一些方案要么无法捕捉到有效的几何信息，要么无不能学习到详细的纹理信息。

3D Gaussian Splatting（3D-GS）以点云的形式表示，为场景重建提供了强大的表示，通过位置、颜色、旋转、缩放和不透明度等属性 编码几何和纹理信息 。正是受到3D-GS在有效场景表示和Masked autoencoders（MAE）在2D图像自监督学习中的成功的启发，作者提出了一种新颖的预训练方法GaussianPretrain，它结合了3D-GS和MAE方法，用于3D视觉学习中的预训练任务。

作者的方法包括两个关键创新：

LiDAR深度指导掩码生成器。为了提高效率，作者只关注从多视图图像中的有限数量的有效掩码补丁中学习高斯信息。这些补丁由MAE策略识别，并进一步过滤，只包括那些具有LiDAR深度监督的补丁。
基于射线的3D高斯锚点指导策略：对于每个LiDAR投影像素，执行射线投射操作到3D空间以采样体素内的点。作者引入了一组可学习的高斯锚点来指导从3D体素中作为体积LiDAR点的高斯属性的学习，并预测相关属性（例如，深度、不透明度）。这使得模型能够通过3D Gaussian Splatting同时理解场景的几何和纹理信息。
论文链接：https://arxiv.org/pdf/2411.12452

方法论

图3展示了作者GaussianPretrain的结构，一个使用3D-GS表示进行视觉预训练的简单、创新且高效的框架。给定带有有效掩码补丁的多视图图像，作者的目标是通过解码每个场景的高斯参数来重建RGB、深度和占用，其中、、和分别是3D高斯的位置、不透明度、协方差和颜色信息，K表示最大高斯锚点的数量。

LiDAR 深度引导掩模生成器

受MAE 的启发，作者对多视图图像应用随机补丁掩码，表示为M。此外，稀疏卷积被用来替代图像主干中的传统卷积，如SparK 的实现增强了性能和泛化能力。为了计算效率，作者只关注从有限的一组有效掩码补丁中学习高斯参数。此外，作者通过检查LiDAR点是否在某个深度范围内来双重检查掩码区域。

如图4所示，如果一组点投影到图像中的掩码补丁，并且它们的深度落在[a, b]的范围内，掩码区域将被标记为有效，。这种策略确保作者的模型集中于前景，避免了对天空等不相关背景元素的不必要关注。

基于射线引导的 3D 高斯锚点

为了使模型能够同时理解场景的几何和纹理信息，作者引入了一系列在3D空间中的可学习高斯锚点。这些锚点引导从3D体素网格中派生的高斯属性的学习，被视为体积LiDAR点。考虑由表示的LiDAR投影像素，它对应于从相机延伸到3D空间的射线R。沿着这个射线，作者采样D个射线点，其中是沿射线的相应深度。每个在有效掩码区域M′中的采样射线点p可以立即反投影到3D空间，使用投影矩阵摘要作为3D高斯锚点，。这种策略不仅消除了完整图像渲染的需要，显著减少了内存使用，而且还实现了RGB、深度和占用的同时重建。

体素编码

在大多数感知任务中，通常使用视图变换器生成鸟瞰图（BEV）特征，然后用于后续的下游任务。值得注意的是，作者的预训练方法与任何类型的视图变换器兼容。在作者的基线模型UVTR 中，采用lift-splat-shoot (LSS)方法，并将通道维度扩展以包含高度维度，产生3D体素特征，其中C、H、W和Z分别代表通道数以及沿x、y和z轴的维度。此外，对于每个LiDAR投影像素，作者执行射线投射操作，从3D体素网格V中提取Nt个采样目标体素，其中存在高斯锚点。

Gaussian 参数解码

如图3所示，通过将概念化为3D高斯锚点，这种统一表示使作者能够高效地捕获高质量、细粒度的细节，提供对场景更全面的了解。特别地，每个3D高斯锚点由属性特征化，所提出的高斯映射G定义为：

其中x是3D空间中高斯锚点的位置，、、、分别代表颜色、旋转、缩放和不透明度的高斯参数图。由于多视图图像中的重叠区域，像素级的高斯参数预测可能会导致由于重叠splats引起的歧义。相比之下，作者认为直接从3D体素特征预测高斯参数是更好的选择。给定体素特征V和中心坐标x，作者使用三线性插值来采样相应的特征f(x)如下：

高斯参数图由预测头生成，定义为h = MLP(·)，由多个MLP层组成。每个预测头专门设计用于根据采样的特征f(x)回归特定参数。对于颜色和不透明度参数，作者使用sigmoid函数进行范围[0,1]的回归，如下所示：

其中、分别表示颜色和不透明度的头。在用于形成高斯表示之前，旋转图应该被归一化，因为它表示一个四元数，以确保单位大小，而缩放图需要激活以满足其范围，如下所示：

其中、分别表示旋转头和缩放头。

通过重构信号来监督

为了在MAE策略下更好地重建掩码区域，作者使用从高斯表示派生的不同重建信号来监督学习过程。具体来说，RGB、深度和占用信号是基于有效掩码补丁中预测的高斯锚点参数解码的。

RGB Reconstruction . 由于作者不需要重建任意视角的图像，作者直接预测固定视点的RGB，而不是使用球谐系数。在预测高斯锚点参数后，作者使用GS中的相关方程来解码颜色信息，以渲染每个目标重建像素的图像RGB值图，表示为

万能3D高斯预训练表示！GaussianPretrain：爆拉3D检测、Occ、高精地图等四大任务！

正文

写在前面 && 笔者理解

相关工作

自动驾驶中的预训练

从NeRF到3D-GS

3D Gaussian Splatting

方法论

LiDAR 深度引导掩模生成器

基于射线引导的 3D 高斯锚点

体素编码

Gaussian 参数解码

通过重构信号来监督

请到「今天看啥」查看全文