专栏名称: arXiv每日学术速递
跟踪计算机视觉、人工智能、机器学习、NLP、语音识别、量化金融等热门方向学术信息
目录
相关文章推荐
BNU统计  ·  统计赋能|第七季“新统学”培训来袭 ·  12 小时前  
刀法研究所  ·  影石创新IPO获准注册;小米SU7Ultra ... ·  19 小时前  
兰州大学萃英在线  ·  榜样力量 | ... ·  昨天  
兰州大学萃英在线  ·  活动早报2.27—3.6 ·  2 天前  
51好读  ›  专栏  ›  arXiv每日学术速递

万能3D高斯预训练表示!GaussianPretrain:爆拉3D检测、Occ、高精地图等四大任务!

arXiv每日学术速递  · 公众号  ·  · 2024-11-26 13:33

正文

写在前面 && 笔者理解

受Tesla的技术的推动,越来越多的厂商开始走"纯视觉"的路线,多数方案还是集中在从多视图输入图像中提取鸟瞰图(BEV)特征,来解决下游目标检测、在线地图等各种应用。尽管有监督的方法还是占主导地位,但是它们非常依赖精确的GT标注,成本高、难度大往往成为一个比较显著的瓶颈。相反,大量且易于获取的未标记数据为提高性能提供了一个充满希望的途径。这就是所谓的 自监督预训练 技术,其核心思想是,通过利用精心设计的代理任务,从丰富的未标记数据中学习有意义的表示。然而当前的一些方案要么无法捕捉到有效的几何信息,要么无不能学习到详细的纹理信息。

3D Gaussian Splatting(3D-GS)以点云的形式表示,为场景重建提供了强大的表示,通过位置、颜色、旋转、缩放和不透明度等属性 编码几何和纹理信息 。正是受到3D-GS在有效场景表示和Masked autoencoders(MAE)在2D图像自监督学习中的成功的启发,作者提出了一种新颖的预训练方法GaussianPretrain,它结合了3D-GS和MAE方法,用于3D视觉学习中的预训练任务。

作者的方法包括两个关键创新:

  • LiDAR深度指导掩码生成器。为了提高效率,作者只关注从多视图图像中的有限数量的有效掩码补丁中学习高斯信息。这些补丁由MAE策略识别,并进一步过滤,只包括那些具有LiDAR深度监督的补丁。

  • 基于射线的3D高斯锚点指导策略:对于每个LiDAR投影像素,执行射线投射操作到3D空间以采样体素内的点。作者引入了一组可学习的高斯锚点来指导从3D体素中作为体积LiDAR点的高斯属性的学习,并预测相关属性(例如,深度、不透明度)。这使得模型能够通过3D Gaussian Splatting同时理解场景的几何和纹理信息。

  • 论文链接:https://arxiv.org/pdf/2411.12452

相关工作

自动驾驶中的预训练

使用对比学习和掩码信号建模来捕获语义和纹理信息,在2D图像上的预训练已经取得了巨大的成功。但是,自动驾驶的视觉预训练需要准确的几何表示。目前有的研究,比如,UniScene和OccNet利用占用预测进行预训练,而ViDAR 从历史帧图像预测未来的LiDAR数据。尽管这些方法在捕获几何信息方面是有效的,但却无法学习详细的纹理信息。相反,像Self-OCC 、UniPAD 和MIM4D 这样的方法使用NeRF 来渲染RGB图像和深度图,学习了纹理但几何信息有限。OccFeat 在占用预测期间使用知识蒸馏从图像基础模型转移纹理信息,但会产生高昂的预训练成本。相比之下,作者的工作引入了3D Gaussian Splatting进行自动驾驶的视觉预训练,有效地捕获纹理和几何信息,来解决这些限制。

从NeRF到3D-GS

Neural Radiance Fields (NeRF) 通过隐式表示场景的颜色和密度,参数化多层感知机(MLP)结合体积渲染技术,实现了令人印象深刻的渲染质量。后续工作已成功将NeRF扩展到各种任务,但是这些工作都需要针对每个场景来优化,由于优化和渲染速度慢,限制了它们的效率。相比之下,3D Gaussian Splatting 通过各向异性高斯显式表示场景,通过可微光栅化实现实时渲染。然而,由于依赖于特定场景的优化,它倾向于过度拟合特定场景。最近的方法通过预测高斯参数的前馈方式来缓解这个问题,这样就不需要针对每个场景来优化了。例如,GPSGaussian 从图像对执行极线校正和视差估计,依赖立体图像和真实的深度图。同样,Spatter Image 专注于从单一视图重建单个对象的3D结构。这两种方法因为效率低,仅限于对象重建,并且依赖于特定的输入格式,如图像对或单一视图。在本文中,作者将3D Gaussian Splatting扩展到视觉预训练任务中,通过在3D空间中预设固定位置的3D高斯锚点,克服了与视图数量和深度图需求相关的问题,标志着3D-GS的新应用。

3D Gaussian Splatting

3D GS由于其高效的光栅化设计和显式表示,在场景表示、编辑和新视角合成方面展现出强大的能力。通常,场景由一组高斯组成,这些高斯通常从重建方法或LiDAR数据中得到的点云初始化而来。每个高斯被赋予可学习的属性,包括 方向、颜色、位置、尺度和不透明度 。在渲染过程中,这些3D高斯被使用可微光栅化投影到2D图像平面上。对于场景表示任务,通过将渲染输出与真实图像进行监督,迭代优化高斯属性。对于3D空间中的一个高斯点,它被定义为

其中 分别指的是高斯的均值中心和3D协方差矩阵。投影到2D后,有2D协方差矩阵 ,其中视图变换由 表示,雅可比矩阵 对应于变换的线性近似。最后,像素颜色是从N个有序高斯中渲染出来的,混合方程为

其中 是用球谐表示的高斯颜色, 是这个高斯对当前像素的不透明度影响。 是透明度。

方法论

图3展示了作者GaussianPretrain的结构,一个使用3D-GS表示进行视觉预训练的简单、创新且高效的框架。给定带有有效掩码补丁的多视图图像,作者的目标是通过解码每个场景的高斯参数 来重建RGB、深度和占用,其中 分别是3D高斯的位置、不透明度、协方差和颜色信息,K表示最大高斯锚点的数量。

LiDAR 深度引导掩模生成器

受MAE 的启发,作者对多视图图像应用随机补丁掩码,表示为M。此外,稀疏卷积被用来替代图像主干中的传统卷积,如SparK 的实现增强了性能和泛化能力。为了计算效率,作者只关注从有限的一组有效掩码补丁中学习高斯参数。此外,作者通过检查LiDAR点是否在某个深度范围内来双重检查掩码区域。

如图4所示,如果一组点投影到图像中的掩码补丁 ,并且它们的深度落在[a, b]的范围内,掩码区域将被标记为有效, 。这种策略确保作者的模型集中于前景,避免了对天空等不相关背景元素的不必要关注。

基于射线引导的 3D 高斯锚点

为了使模型能够同时理解场景的几何和纹理信息,作者引入了一系列在3D空间中的可学习高斯锚点。这些锚点引导从3D体素网格中派生的高斯属性的学习,被视为体积LiDAR点。考虑由 表示的LiDAR投影像素,它对应于从相机延伸到3D空间的射线R。沿着这个射线,作者采样D个射线点 ,其中 是沿射线的相应深度。每个在有效掩码区域M′中的采样射线点p可以立即反投影到3D空间,使用投影矩阵摘要作为3D高斯锚点, 。这种策略不仅消除了完整图像渲染的需要,显著减少了内存使用,而且还实现了RGB、深度和占用的同时重建。

体素编码

在大多数感知任务中,通常使用视图变换器生成鸟瞰图(BEV)特征,然后用于后续的下游任务。值得注意的是,作者的预训练方法与任何类型的视图变换器兼容。在作者的基线模型UVTR 中,采用lift-splat-shoot (LSS)方法,并将通道维度扩展以包含高度维度,产生3D体素特征 ,其中C、H、W和Z分别代表通道数以及沿x、y和z轴的维度。此外,对于每个LiDAR投影像素,作者执行射线投射操作,从3D体素网格V中提取Nt个采样目标体素,其中存在高斯锚点

Gaussian 参数解码

如图3所示,通过将 概念化为3D高斯锚点,这种统一表示使作者能够高效地捕获高质量、细粒度的细节,提供对场景更全面的了解。特别地,每个3D高斯锚点由属性 特征化,所提出的高斯映射G定义为:

其中x是3D空间中高斯锚点的位置, 分别代表颜色、旋转、缩放和不透明度的高斯参数图。由于多视图图像中的重叠区域,像素级的高斯参数预测可能会导致由于重叠splats引起的歧义。相比之下,作者认为直接从3D体素特征预测高斯参数是更好的选择。给定体素特征V和中心坐标x,作者使用三线性插值来采样相应的特征f(x)如下:

高斯参数图由预测头生成,定义为h = MLP(·),由多个MLP层组成。每个预测头专门设计用于根据采样的特征f(x)回归特定参数。对于颜色和不透明度参数,作者使用sigmoid函数进行范围[0,1]的回归,如下所示:

其中 分别表示颜色和不透明度的头。在用于形成高斯表示之前,旋转图应该被归一化,因为它表示一个四元数,以确保单位大小,而缩放图需要激活以满足其范围,如下所示:

其中 分别表示旋转头和缩放头。

通过重构信号来监督

为了在MAE策略下更好地重建掩码区域,作者使用从高斯表示派生的不同重建信号来监督学习过程。具体来说,RGB、深度和占用信号是基于有效掩码补丁中预测的高斯锚点参数解码的。

RGB Reconstruction . 由于作者不需要重建任意视角的图像,作者直接预测固定视点的RGB,而不是使用球谐系数。在预测高斯锚点参数后,作者使用GS中的相关方程来解码颜色信息,以渲染每个目标重建像素的图像RGB值图,表示为







请到「今天看啥」查看全文