CVPR'24开源 | 增强一切3D任务！UniPAD：自动驾驶的通用预训练范式

3DCV · 公众号 · · 2024-04-18 11:00

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

0. 这篇文章干了啥？

自监督学习能够高效利用大量未标记数据，对于3D点云数据具有重要意义。由于数据的固有稀疏性和传感器放置以及其他场景元素的遮挡而导致的点分布的可变性，直接将2D方法扩展到3D非常困难。

因此，这篇文章 提出了一种针对有效3D表示学习的新型预训练范式，不仅避免了复杂的正/负样本分配，而且隐含地提供连续的监督信号来学习3D形状结构。

下面一起来阅读一下这项工作~

1. 论文信息

标题：UniPAD: A Universal Pre-training Paradigm for Autonomous Driving

作者：Honghui Yang, Sha Zhang, Di Huang, Xiaoyang Wu, Haoyi Zhu, Tong He, Shixiang Tang, Hengshuang Zhao, Qibo Qiu, Binbin Lin, Xiaofei He, Wanli Ouyang

机构：上海AI Lab、浙江大学、香港大学、中国科学技术大学、悉尼大学、之江实验室

原文链接：https://arxiv.org/abs/2310.08370

代码链接：https://github.com/Nightmare-n/UniPAD

2. 摘要

在自动驾驶的背景下，有效特征学习的重要性被广泛认可。虽然传统的3D自监督预训练方法已经取得了广泛成功，但大多数方法都遵循了最初设计用于2D图像的思想。在本文中，我们提出了UniPAD，一种新颖的自监督学习范式，应用了3D体积可微渲染。UniPAD隐含地编码3D空间，有助于重建连续的3D形状结构和它们的2D投影的复杂外观特征。我们方法的灵活性使其能够无缝集成到2D和3D框架中，从而更全面地理解场景。我们通过在各种下游3D任务上进行大量实验，证明了UniPAD的可行性和有效性。我们的方法显著提高了基于激光雷达、摄像头和激光雷达-摄像头的基线分别达到了9.1、7.7和6.9的NDS。值得注意的是，我们的预训练管道在nuScenes验证集上实现了73.2的NDS，对3D物体检测和3D语义分割的mIoU为79.4，与之前的方法相比取得了最先进的结果。

3. 效果展示

预训练对3D检测和分割的影响， 其中C，L和M分别表示相机，LiDAR和融合模态。3D目标检测的NDS提高了9.1，3D语义分割的mIoU提高了6.1，超过了基于对比和MAE的方法的性能。在nuScenes数据集上实现了79.4的分割mIoU的最新SOTA。此外，该预训练框架可以无缝应用于2D图像骨干，基于多视图摄像机的3D检测器的NDS提高了7.7。

4. 主要贡献

（1）第一个在自动驾驶背景下探索新型3D可微分渲染方法用于自监督学习的研究。

（2）该方法的灵活性使其易于扩展到预训练2D骨干。通过一种新颖的采样策略，在效率和效果上都表现出优势。

（3）在nuScenes数据集上进行了全面的实验，在这些实验中，该方法超越了六种预训练策略的性能。涉及七种骨干和两种感知任务的实验为方法的有效性提供了令人信服的证据。

5. 基本原理

这个方法将掩蔽的点云作为输入，并旨在通过3D可微分神经渲染在投影的2D深度图像上重建缺失的几何形状。具体而言，当提供掩蔽的LiDAR点云时，使用3D编码器提取分层特征。然后，将3D特征通过体素化转换为体素空间，进一步应用可微分的体积渲染方法来重建完整的几何表示。多视图图像特征通过lift-split-shoot（LSS）构建3D体积。为了在训练阶段保持效率，提出了一种专门设计用于自动驾驶应用的内存高效的射线采样策略，它可以大大降低训练成本和内存消耗。与传统方法相比，新的采样策略显著提高了准确性。

总体架构。 以LiDAR点云或多视角图像作为输入。首先提出掩码生成器对输入进行部分掩码。接下来，使用特定模态的编码器来提取稀疏的可视特征，然后将其转换为以屏蔽区域为零的稠密特征。模式特异性特征随后被转换到体素空间，接着是一个投影层以增强体素特征。最后，基于体的神经渲染对可见区域和遮挡区域都产生RGB或深度预测。

6. 实验结果

3D目标检测效果。 在采用UVTR作为点模式( UVTR-L )，相机模式( UVTR-C )，相机扫描模式( UVTR-CS )和融合模式( UVTR-M )的基线。得益于有效的预训练，UniPAD将基线UVTR - L、UVTR - C和UVTR - M分别提高了2.9、2.4和3.0 NDS。当使用多帧相机作为输入时，UniPAD - CS比UVTR - CS带来了1.4 NDS和3.6 mAP的增益。在基于单目的基线FCOS3D上也实现了1.7 NDS和2.1 mAP的提升。在没有任何测试时间增长或模型集成的情况下，单模态和多模态方法UniPAD - L，UniPAD - C和UniPAD -- M的NDS分别为70.6，47.4和73.2，超过了现有的最先进的方法。

3D语义分割。 在nuScenes Lidar - Seg数据集上将UniPAD与先前的点云语义分割方法进行了比较。采用Pointcept实现的SpUNet作为基线。得益于有效的预训练，Uni PAD将基线提高了6.1 mIoU，在验证集上达到了最先进的性能。同时，UniPAD在测试集上取得了令人印象深刻的mIoU为81.1，这与现有的最先进的方法相当。

基于图像的预训练。 将UniPAD与其他几种基于图像的预训练方法进行了比较：1 )深度估计器：通过深度估计将3D先验注入到2D学习的特征中；2 )检测器：使用MaskRCNN在nuImages数据集上预训练的权值初始化图像编码器；3 ) 3D检测器：使用广泛使用的单目3D检测器的权重进行模型初始化，该模型依赖于3D标签进行监督。与之前的无监督或有监督的预训练方法相比，UniPAD展示了更强的知识迁移能力，展示了基于渲染的前文本任务的有效性。

基于点的预训练。 对于点模态，也与最近提出的自监督方法进行了比较：1 )基于占位的方法：在框架中实现了ALSO来训练点编码器；2 )基于MAE的方法：采用领先执行的方法，利用倒角距离重建被遮挡的点云。3 ) .基于对比：对比采用像素对点的对比学习方法，将2D知识集成到3D点中。在这些方法中，UniPAD取得了最好的效果 NDS性能。而UniPAD相对于基于对比的方法mAP略低，但避免了对比学习中复杂的正负样本分配的需要。

不同的视角转换。 研究了将2D特征转换到3D空间的不同视图转换策略，包括BEVDet，BEVDepth和BEVformer。持续改进范围为5.2 ~ 6.3 NDS可以通过不同的变换技术观察到，这证明了所提出的方法具有很强的泛化能力。

不同模态。 与以往大多数预训练方法不同，该框架可以无缝地应用于各种模态。为了验证方法的有效性，将UVTR作为基线，它包含了点、相机和融合模式的检测器。显示了UniPAD对不同模态的影响，Uni PAD将UVTR - L、UVTR - C和UVTR - M分别提高了9.1、7.7和6.9 NDS。

7. 总结 & 未来工作

这篇文章介绍了一种创新的自监督学习方法，命名为UniPAD，它在一系列3D下游任务中表现出优异的性能。UniPAD以其巧妙地将NeRF适配为统一的渲染解码器而脱颖而出，能够无缝集成到2D和3D框架中。此外，作者提出了深度感知的采样策略，不仅降低了计算需求，而且提高了整体性能。UniPAD所固有的适应性为未来在自动驾驶领域利用成对图像点数据进行跨模态交互的研究打开了大门。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程：
3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪。

3D视觉学习圈子

3D视觉从入门到精通知识星球 、国内成立最早、6000+成员交流学习。包括： 星球视频课程近20门（价值超6000） 、 项目对接 、 3D视觉学习路线总结 、 最新顶会论文&代码 、 3D视觉行业最新模组 、 3D视觉优质源码汇总 、 书籍推荐 、 编程基础&学习工具 、 实战项目&作业 、 求职招聘&面经&面试题 等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

CVPR'24开源 | 增强一切3D任务！UniPAD：自动驾驶的通用预训练范式

正文

0. 这篇文章干了啥？

1. 论文信息

2. 摘要