0. 论文信息
标题:Point Cloud Unsupervised Pre-training via 3D Gaussian Splatting
作者:Hao Liu, Minglin Chen, Yanni Ma, Haihong Xiao, Ying He
机构:Nanyang Technological University、Sun Yat-Sen University、South China University of Technology
原文链接:https://arxiv.org/abs/2411.18667
1. 导读
对大规模未标记数据集的预训练有助于模型在3D视觉任务中实现强大的性能,尤其是在注释有限的情况下。然而,由于体绘制的固有性质,现有的基于绘制的自监督框架在预训练期间计算要求高且存储密集。本文提出了一个有效的框架GS3学习点云表示,它将快速3D高斯分布无缝集成到基于渲染的框架中。我们框架背后的核心思想是通过将渲染的RGB图像与真实的RGB图像进行比较来预先训练点云编码器,因为只有丰富了丰富的几何和外观信息的高斯点才能产生高质量的渲染。具体来说,我们将输入的RGB-D图像反投影到3D空间中,并使用点云编码器来提取逐点特征。然后,我们从学习的点云特征预测场景的3D高斯点,并使用基于图块的光栅化器进行图像渲染。最后,可以对预训练的点云编码器进行微调,以适应各种下游3D任务,包括3D分割和检测等高级感知任务,以及3D场景重建等低级任务。对下游任务的大量实验证明了预训练点云编码器的强可移植性和我们的自监督学习框架的有效性。此外,我们的GS3框架是高效的,实现了大约9×训练前加速比小于0.25×与之前基于渲染的框架相比,内存开销更大。
2. 引言
近年来,我们在诸如目标检测等各类视觉任务中见证了使用监督学习的深度神经网络所取得的巨大成功。然而,获取大量高质量且多样化的标注既昂贵又耗时,尤其是3D标注。例如,标注一个由数千个3D点组成的室内场景大约需要30分钟。在此背景下,自监督学习(SSL)已成为监督学习在标注有限的任务中的一种可行替代方案。
现有的针对3D点云的SSL方法大致可分为三类:基于补全的方法、基于对比的方法和基于渲染的方法。基于补全的方法通常设计一个预训练任务,从不完整的观测中重建被遮挡的点云,其灵感来源于掩码自编码器(MAE)。尽管取得了显著进展,但由于点云的不规则和稀疏特性,这一范式仍然极具挑战性且研究不足。此外,这些方法对遮挡率和缺失部分的选择很敏感。基于对比的方法旨在学习在不同几何变换下的不变表示。然而,这些方法收敛缓慢,且严重依赖于诸如正负采样和数据增强等精细策略。随后,Huang等人提出了一种名为Ponder的新型基于渲染的框架,该框架将多视图RGB-D图像反投影到3D空间以构建3D特征体,并通过可微体积渲染来渲染图像。该模型通过最小化渲染图像与输入图像之间的差异来进行预训练。尽管学习到的特征可以有效地编码场景的几何和外观线索,但这种方法不仅需要密集的多视图图像作为输入和额外的深度图监督,而且由于每条光线上的数十个点查询,还需要大量的内存和计算资源。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
受此启发,我们提出了一种高效的基于3D高斯溅射的自监督(GS3)框架,该框架可接受稀疏视图RGB-D图像。所提出的GS3构建了一个基于3D高斯溅射(GS)的神经渲染预训练任务,该任务利用点云特征生成场景3D高斯分布,并采用快速基于瓦片的渲染器来渲染RGB图像。得益于实时3D GS渲染框架,与Ponder[21]相比,我们的模型在预训练期间显著降低了计算负担和内存成本。此外,为了渲染高质量的新视图图像,3D GS强制点云编码器捕获丰富的几何和外观信息,这进一步促进了点云编码器的预训练。据我们所知,我们的框架是首次尝试探索用于点云自监督学习的可泛化的3D GS。
具体来说,我们首先将输入的稀疏视图RGB-D图像提升到3D空间,以生成一组彩色点云。然后,将生成的点云输入到点云编码器中,以提取逐点特征,这些特征用于预测与点对齐的高斯位置和基本参数。最后,给定特定的相机内参和姿态,我们采用实时基于瓦片的渲染器来生成RGB图像。我们的模型通过最小化渲染图像和输入RGB图像之间的差异进行训练。通过我们的SSL框架预训练的点云编码器可以作为各种下游任务(包括3D语义分割、3D实例分割、3D目标检测和3D场景重建)的强大初始化。
3. 效果展示
比较了Ponder和我们提出的GS3在3D检测性能[email protected]、3D分割准确性mIoU、预训练时间和内存消耗方面的表现。我们的方法的预训练时间和内存使用情况是在渲染图像分辨率为320 × 240时测量的。由于计算资源有限,Ponder在76,800条采样光线下的预训练时间是根据其4,800条光线的结果估计的。预训练的内存消耗仅针对Ponder在4,800条光线下的情况进行了报告。
4. 主要贡献
本文的主要贡献如下:
• 我们提出了一种基于3D高斯溅射的自监督模型,该模型将可泛化的3D GS无缝集成到基于渲染的SSL框架中。
• 所提出的模型GS3能够容纳各种点云编码器。通过我们的框架预训练的编码器可以有效地迁移到各种下游任务。
• 在四个下游任务上的大量实验表明,预训练的编码器具有出色的可迁移性,从而验证了我们的框架的有效性。此外,与Ponder相比,我们的框架实现了9倍的预训练加速,且内存成本不到Ponder的0.25倍。
5. 方法
我们提出了GS3,一个基于高斯溅射的3D点云自监督学习框架,如图2所示。首先,根据提供的相机内参和姿态,将输入的RGB-D图像反投影到3D空间以形成3D点云。接下来,我们使用点云编码器提取逐点特征,这些特征随后用于生成表示场景几何和外观的场景3D高斯分布,从而能够通过基于瓦片的渲染器进行RGB图像渲染。最后,将渲染的图像与输入图像进行比较,作为我们模型的监督信号。通过我们的框架预训练的点云编码器可以针对各种下游任务进行微调。
6. 实验结果
表1报告了当前自监督方法在下游3D检测任务中的量化结果。表2展示了当前基于渲染的框架的预训练时间和内存消耗。请注意,由于计算资源有限,Ponder的预训练开销是在4800条采样光线的基础上测量的。所有预训练开销均是在单块NVIDIA A100 40G GPU上获得的。我们观察到,基线VoteNet在采用我们的GS3后取得了显著改进,在SUN RGB-D数据集上的[email protected]提升了3.0%。Ponder是一个基于渲染的框架,它利用NeRF生成渲染图像用于预训练。我们提出的基于渲染的框架GS3与Ponder相比,对基线VoteNet的改进程度相当。然而,与Ponder相比,我们的方法实现了9倍的预训练加速,并且内存消耗不到Ponder的0.25倍。此外,与最近的基于对比的方法IAE相比,我们的方法学到的点云特征在SUN RGB-D数据集上实现了更高的mAP值,增益为0.7%。
为了进一步验证我们GS3框架的有效性,我们遵循Ponder的方法,将GS3与更强大的基线方法H3DNet相结合。表3展示了3D检测结果。我们可以看到,我们的方法在[email protected]和[email protected]方面分别比H3DNet高出2.3%和0.8%。
7. 总结 & 未来工作
在本文中,我们提出了一种基于3D高斯溅射的自监督(GS3)框架,用于点云表示学习。我们利用基于3D高斯溅射的神经渲染作为前置任务,该任务从学习的点云特征中预测场景3D高斯分布,然后使用基于瓦片的栅格化器进行图像渲染。与现有的基于渲染的框架相比,我们的方法实现了显著的预训练加速,并且所需的内存大大减少。通过我们的框架预训练的点云编码器可以很好地迁移到各种下游任务中。在四个下游任务上的一致改进证明了该点云编码器的强大迁移能力。
在未来,可以探索几个方向。首先,3D高斯溅射领域的最新进展有助于我们的GS3获得高质量的渲染图像,从而增强点云编码器的迁移能力。其次,我们的GS3框架可以扩展到2D图像领域。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球