专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
51好读  ›  专栏  ›  计算机视觉工坊

上交&华为 | OccGen:生成式3D语义占用预测模型在自动驾驶领域的新突破

计算机视觉工坊  · 公众号  ·  · 2024-04-26 11:00

正文

点击下方 卡片 ,关注 「计算机视觉工坊」 公众号
选择 星标 ,干货第一时间送达

编辑:计算机视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入 3D视觉知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门视频课程(星球成员免费学习) 最新顶会论文 计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

1、这篇文章干了啥?

现有方法通常将3D语义占用预测视为一次性3D体素分割感知问题,侧重于在单步学习中建立输入和占用图之间的映射,但缺乏逐步细化占用图的能力以及合理的场景想象能力来完善局部区域。为了解决这一问题,研究提出了OccGen,这是一个简单而强大的用于3D语义占用预测的生成感知模型。OccGen采用了“噪声到占用”的生成范式,通过预测并消除来自随机高斯分布的噪声,逐步推断和细化占用图。OccGen包含两个主要组件:一个能够处理多模态输入的条件编码器,以及一个使用多模态特征作为条件的渐进细化解码器。这一生成管道的关键洞察是,扩散去噪过程能够自然地模拟3D占用图的从粗到细的细化过程,因此能够产生更详细的预测。在多个占用基准测试上的广泛实验证明了该方法的有效性,例如,OccGen在nuScenes-Occupancy数据集上相对于最先进方法,分别提高了多模态、激光雷达独占和摄像头独占设置下的mIoU 9.5%、6.3%和13.3%。此外,作为一个生成感知模型,OccGen展示了判别式模型无法实现的理想特性,例如,在多步预测的同时提供不确定性估计。

(a)语义分割(seg)、对象检测(det)和3D语义占用预测(occ)的生成图。(b)与以往采用单一前向评估方案的判别方法相比,OccGen是一种生成模型,可以粗细地生成占用图

2、论文信息

标题:OccGen: Generative Multi-modal 3D Occupancy Prediction for Autonomous Driving
作者:Guoqing Wang等人
单位:上海交通大学等单位
主页:https://occgen-ad.github.io/

3、主要贡献&创新点

生成范式 :采用“噪声到占用”的生成范式,逐步从噪声中推断和细化占用图,以生成更细致的预测结果。
高效设计 :采用高效的编码器-解码器设计,编码器在整个推理过程中仅运行一次,解码器逐步进行细化,实现了与单次前向方法相当的低延迟。
多步预测 :作为生成模型,OccGen能够提供多步预测,逐步从噪声中生成占用图,实现从粗到细的预测,并提供了不确定性估计。

4、OccGen框架

OccGen框架:它具有编码器-解码器结构。条件编码器提取特征从输入作为条件。渐进式细化解码器由一堆细化层和占用头,将3D噪声图、采样步骤和条件多尺度融合特征作为输入并逐步生成占用预测

4.1、噪声到占用生成范式

噪声到占用 生成范式将3D语义占用预测视为一个生成过程,从单模态或多模态输入逐步生成周围3D环境的详细几何和语义信息。

具体来说,该范式旨在学习一个占用感知模型 ,通过总共 个扩散步骤,模拟从粗糙到精细的3D占用图细化过程。这个过程可以用以下数学公式表示:

1.如下公式所示:该模型 通过给定的扩散步骤索引 和上一步的占用预测 ,来细化当前的占用预测,其中 表示逐元素求和。

2.如下公式所示:其中扩散步骤 代表从3D高斯体素图到精细占用图的从粗到细的细化过程。

这一范式利用了扩散模型强大的生成能力,通过逐步去噪和细化的过程,实现了从噪声到占用图的生成,生成更精确和细致的3D环境表示。与传统的判别式方法相比,这种方法可以更好地模拟占用图的分布。

4.2、条件编码器

条件编码器由三个主要组件组成:多模态编码器、融合模块、和占用骨干网。如上图所示,多模态编码器为双流结构,包括LiDAR和相机流。

多模态编码器 :这是一个双流结构,包含激光雷达流和摄像头流。对于激光雷达流,使用VoxelNet和3D稀疏卷积将原始激光雷达点转换为激光雷达体素特征。而在摄像头流中,使用预训练的2D骨干网络和特征金字塔网络(FPN)从多视角图像中提取多模态图像特征。这里涉及到的主要数学原理包括稀疏卷积和特征金字塔网络的构建。
融合模块 :用于融合来自激光雷达和摄像头流的特征,生成多模态融合特征。这里的融合过程可能涉及加权平均或特征拼接等操作,涉及到多模态特征的加权或组合。
占用骨干 :用于从多模态融合特征中生成多尺度特征,为后续的渐进细化解码器提供条件输入。这里可能采用类似于FPN的多尺度特征金字塔构建,涉及到特征的上采样和下采样操作。

4.3、渐进式细化解码器

OccGen的渐进细化解码器包括一系列细化解码层和一个占用头。如上图所示,细化解码层将随机噪声图或预测噪声图作为输入最后一步,当前采样步骤 ,以及多尺度融合特征。细化解码层利用高效的3D可变形交叉注意力和自注意力以优化3D高斯噪声图。

细化解码层 :该层接受随机噪声图或上一步的预测噪声图Yt+1,当前采样步骤t,以及多尺度融合特征 作为输入。
3D可变形交叉注意力 :该层使用高效的3D可变形交叉注意力和自注意力来细化3D高斯噪声图。与2D视觉中的传统可变形注意力不同,3D可变形注意力在3D像素坐标系中围绕参考点采样兴趣点,以计算注意力结果。
数学表达 :3D可变形注意力可以用以下通用方程表示:

其中 分别代表3D查询和参考点, 表示平展的3D体素特征, 代表从参考点 周围采样的兴趣点, 表示用于值生成的可学习权重, 表示可学习的注意力权重,而 表示对参考点 的预测偏移。
细化解码层的作用 :细化解码层通过使用可变形交叉注意力和自注意力,逐步细化3D高斯噪声图,实现从粗到细的占用图预测。这一过程是OccGen生成式框架的关键部分。

4.4、训练

OccGen的训练过程。主要包括以下:

Occupancy Corruption :通过逐步向真值Y0中添加高斯噪声,构造从真值到3D高斯噪声图的扩散过程。
损失函数 :采用交叉熵损失、lovasz-softmax损失、场景级和类别级指标损失(如几何IoU和语义mIoU)以及深度损失来优化网络。总体损失函数可以表示为:

训练过程 :首先构建从真值到噪声图的扩散过程,然后训练渐进细化解码器来逆转这个过程。训练算法伪代码如下:

输入:多模态输入{Xp, Xc};真值占用Y
输出:训练损失
1. 提取多模态特征Fp和Fc
2. 聚合摄像头特征
3. 获取多模态融合特征Fm
4. 编码真值占用Y0
5. 构建噪声信号并选择步骤索引
6. 信号缩放
7. 损坏占用输入
8. 获取下采样的多尺度噪声图
9. 获取细化的噪声图
10. 预测占用结果
11. 计算训练损失

训练细节 :在训练过程中,采用AdamW优化器,权重衰减为0.01,初始学习率为2e-4,采用余弦学习率调度器以及线性升温策略。模型在8个V100 GPU上进行训练,批处理大小为8,训练24个周期。

4.5、推理

推理阶段的关键步骤包括:

条件输入和采样 :给定多尺度融合特征作为条件输入,OccGen从3D高斯分布中采样一个随机噪声图,并逐步生成占用图。
采样规则 :在推理过程中,采用DDIM策略进行采样。在每个采样步骤t,将随机噪声图或上一步的预测噪声图以及条件的多尺度融合特征发送到渐进细化解码器进行占用预测。获得当前步骤的预测结果后,使用重参数化技巧计算下一个步骤的细化噪声图。推理阶段使用非对称时间间隔,由超参数td控制,本文中设置td=1。
渐进推理 :根据扩散模型可以逐步生成分布的特性,OccGen可以进行渐进推理,以获得从粗到细的占用。相比之前的一步到位方法,OccGen不仅可以输出确定的占用,还可以评估模型预测的不确定性。
不确定性评估 :在多步采样过程中,OccGen可以统计每步预测结果与上一步结果的差异,从而获得不确定的占用结果。这为模型预测提供了不确定性的自然感知能力。

5、实验结果

nuScenes-Occupancy 验证集上的语义占用预测结果。C、D、L、M 表示摄像头、深度、LiDAR 和多模态。最佳仅摄像头、仅激光雷达和多模态结果分别标记为红色、蓝色和黑色。观察表明,OccGen 优于所有现有竞争对手,无论是仅摄像头、仅激光雷达还是多模态方法,这证明了 OccGen 在语义占用预测中的有效性。

SemanticKITTI 验证集上的语义场景完成结果。&dagger 表示 MonoScene 提供的结果。结果显示 与所有现有竞争对手相比,OccGen 实现了最高的 mIoU。

nuScenes-Occupancy上3D语义占用预测的定性结果。最左边的一列显示图像周围的输入,以下四列可视化了来自基本事实CONet、OccGen(step1)和OccGen(step2)的3D语义占用结果。矩形突出显示的区域表示这些区域具有明显的差异(放大时查看效果更好)。很明显, 我们的OccGen预测的“可行驶路面”和“人行道”区域具有更高的连续性和完整性,可以有效减少与CONet相比,孔面积大。

6、总结

本文介绍了一种名为OccGen的生成式感知模型,用于自动驾驶中的3D语义占用预测任务。该模型采用“噪声到占用”的生成范式,通过逐步消除噪声并预测3D环境中的占用情况,实现了从粗糙到精细的占用预测。该模型包含条件编码器和渐进细化解码器两个主要组件。在训练过程中,OccGen将高斯噪声逐渐添加到真实占用,并通过解码器逐步消除噪声以重建占用。在推理阶段,OccGen以从噪声到占用的方式逐步生成占用图,并通过DDIM采样策略进行推理。与一步到位的判别式方法相比,OccGen不仅可以逐步提高占用预测的精细度,还可以提供不确定性估计。实验结果表明,在nuScenes和SemanticKITTI数据集上,OccGen的性能优于多个状态-of-the-art方法,证明了其在3D语义占用预测任务中的有效性。综上所述,本文提出了一种新颖的生成式方法,实现了更精细和可靠的3D语义占用预测。

本文仅做学术分享,如有侵权,请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 大模型 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

2D计算机视觉:







请到「今天看啥」查看全文