专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
51好读  ›  专栏  ›  3DCV

复旦最新!实时高效3D占用预测,自动驾驶场景理解的全新突破

3DCV  · 公众号  ·  · 2024-03-07 20:50

正文

点击下方 卡片 ,关注 「3DCV」

选择 星标 ,干货第一时间送达

点击加入 「3DCV」技术交流群

作者:小柠檬 | 来源:3DCV

在公众号「3DCV」后台,回复「原论文」可获取论文pdf

添加微信:dddvision,备注:自动驾驶,拉你入群。文末附行业细分群

1、导读

我们提出了一种称为FastOcc的新的3D占用预测方法,它通过融合2D鸟瞰视图和透视视图来加速3D占用预测。在无人驾驶中,3D占用预测对于理解3D场景非常重要,相比传统的感知任务,如3D对象检测和鸟瞰语义分割,它能提供更全面的信息。然而,该任务的推理速度常常被忽视,这对于在自主车辆上实时运行是至关重要的。为了提高占用预测的推理速度,本文通过仔细分析网络效果和延迟,提出了FastOcc方法。该方法通过用一个轻量级的2D鸟瞰卷积网络主要消化特征,并整合从原始图像特征插值得到的3D体素特征,来替换耗时的3D卷积网络。在Occ3D-nuScenes基准数据集上的实验表明,FastOcc实现了状态最先进的成果,同时推理速度也得到了显著提升。总的来说,本文提出了一种有效的3D占用预测方法,它通过将3D感知任务简化为先将特征压缩为BEV表示,然后在2D形式中解码,最后通过插值3D特征进行细化和增强,从而实现了准确性和计算效率的平衡。

2、主要贡献

  • 对占用预测任务中的四个部分进行了网络效应和延迟的详细比较,包括输入图像分辨率、图像主干、视图变换和占用预测头。结果显示在消融研究中。
  • 提出了一种名为FastOcc的新颖高效方法,该方法通过将3D卷积块简化为2D BEV卷积网络并通过插值体素特征完成BEV特征来加速3D占用预测过程。
  • FastOcc实现了最先进的mIoU 40.75,同时与Occ3D-nuScenes数据集上的其他方法相比运行速度更快。单次推理的延迟降低至63ms,通过TensorRT SDK加速可进一步降低至32ms。

3、方法

在本节中,我们首先说明视觉3D占用预测任务,并在3.1节中提供整个过程的公式化表达。随后,如图2所示,所提出的FastOcc的流程可以分为三个部分,包括图像特征提取、视图变换和占用预测头。3.2节显示采用特征提取主干。在3.3节中,评估了广泛使用的2D到3D视图转换方法,并说明了我们的方法中使用的策略。最重要的是,我们新颖的占用预测头在3.4节中进行了说明,其中3D卷积块通过2D BEV卷积网络进行简化,并且2D特征与插值体素特征融合以进行进一步微调。3.5节介绍了训练损失函数。

图1:流程图

所提出方法的流程。首先,使用骨干网络从图像输入中提取多相机特征。然后按照LSS策略将图像特征转换到3D空间。体素特征被折叠为BEV形式并以2D表示进行解码。随后,BEV特征被上采样、重复,并补充有从图像特征插值的体素特征。BEV语义分割作为辅助损失进行监督。

3.1、问题表述

在这项工作中,要预测的3D周围场景被体素分割。假设自主自我被置于真实世界坐标的原点,场景感知范围记为 。给定三维体网格的形状为 ,则每个体素 的形状为:

语义占用标签可以定义为 ,其中M为语义标签的数量,其中未占用的体素表示为空。以N台摄像机的多摄像机图像 为输入,开发神经网络 来处理语义占用预测任务,表示为:

其中 为预测结果。

3.2、图像特征提取

图像特征提取过程以多摄像头图像 为输入,其中 为输入图像的形状。然后利用类似unet的骨架提取多相机特征 。在我们的实现中,使用类似resnet的块将图像特征编码为原始形状的1/16,并使用特征金字塔网络(FPN)将特征聚合成尺度 。输出特征可以表示为

3.3、视图转换

在视图变换过程中,将多台摄像机的图像特征F提升为统一的3D形式,唯一地表示3D场景。变换后的特征可以表示为 ,其中 为嵌入点,为了降低成本,将特征变换为比较粗的网格尺寸[H/2,W/2,Z/2]。以往的占用率预测方法、构建三维体查询,并应用交叉视点关注将多视点二维图像特征融入三维空间。但为了提高效率,我们采用LSS提出的原理作为视图转换策略。LSS方法同时估计深度和上下文特征,并应用体素池机制将2D特征集成到3D表示中。此外,我们采用了引入点云的BEVDepth来监督LSS深度网预测的深度特征。通过估计每个像素的深度,在考虑深度不确定性的情况下,对图像特征进行投影。将深度监督与深度上下文对应相结合的转换策略在我们的实验中被证明具有更好的性能和更快的速度。

3.4、占用率预测头

为了高效有效地获得三维预测输出,将原有的三维特征解码过程替换为类残差架构,该架构由BEV特征解码过程、补偿z轴信息的图像特征插值采样和最终的特征集成组成。这些组件的介绍如下。

BEV特征解码

现有的方法大多直接以三维形式解码体特征。以三维全卷积网络(FCN)为例,对于第j个三维卷积层,浮点数为 操作数(flop)可以计算为:

其中,在第 层中, 为输入通道数, 为卷积核大小, 为输出通道数, 为三维特征图的形状。与直接解码三维空间中的提升体素特征相比,该方法采用了一种轻量级的二维BEV解码器。鉴于之前的视图变换输出 ,提出的方法首先将三维体素特征VB的z维度与其嵌入通道结合,得到二维BEV特征 。然后用二维FCN对B′进行解码,得到BEV特征 ,如图3所示。这在很大程度上降低了计算复杂度。每个二维卷积层 可以计算为

图3

因此,在第一层( )中,2D卷积层理论上比3D卷积层快 倍。在后续的层 ( )中,二维卷积层的速度是三维卷积层的 倍, 可以计算为

图像特征插值采样

为了增强BEV形式中缺失的z轴信息,降低计算复杂度,设计了一种简单有效的三维特征获取方法。

更具体地说,首先,根据体素空间形状[ ]创建一个三维体坐标,并将其分配给自我坐标,定义为 。那么从自我到图像的变换可以计算为 ,其中 为相机的固有矩阵, 为自我汽车到相机的变换。将坐标 投影到图像上,得到网格坐标与透视图特征的对应关系,投影网格定义为 。之后,超出图像范围或具有负深度的点被滤除。随后,我们应用双线性采样从多个相机的投影亚像素坐标中插值特征,并在屏蔽未观察到的体素后计算平均值。具体过程如图4所示。插值采样过程的

图4

功能集成

为了将2D BEV特征与插值3D体素特征集成,解码的BEV特征B在尺度 上采样到细粒度尺度 并在 轴上重复,表示为 。插值体素特征 是直接在细粒度尺度上快速获得的,具有更详细的信息。 连接在一起并通过卷积层集成以获得输出体素特征 。此外,为了确保解码的BEV特征B包含足够的信息以供进一步微调,它由类似UNet的处理语义分割头并由BEV地面实况 监督。为了从占用地面实况







请到「今天看啥」查看全文