专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

国防科技大学提出混合 BEV-Voxel 表示：自动驾驶中占用预测的快速准确方法！

智驾实验室 · 公众号 · · 2024-07-23 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

占用预测在自动驾驶（AD）中扮演着至关重要的角色，因为它具有细粒度的几何感知和通用目标识别能力。然而，现有的方法往往会产生较高的计算成本，这与AD的实时需求相矛盾。

为此，作者首先评估了大多数公开可用方法的速度和内存使用情况，旨在将重点从单纯优先考虑准确度转向同时考虑效率。接着，作者确定了一个在实现快速和准确性能方面的核心挑战： 几何与语义之间的强烈耦合 。

为了解决这个问题，作者采取了以下措施：

作者提出了一个几何-语义双分支网络（GSDBN），采用混合的鸟瞰图（BEV）- Voxel 表示。在BEV分支中，引入了BEV Level 的时序融合模块和U-Net编码器以提取密集的语义特征。在 Voxel 分支中，作者提出了一种大核重新参数化的3D卷积来细化稀疏的3D几何并减少计算量。此外，作者还提出了一个新颖的BEV- Voxel 提升模块，它将BEV特征投影到 Voxel 空间以实现两个分支的特征融合。

除了网络设计之外，作者还提出了一个几何-语义解耦学习（GSDL）策略。该策略最初使用准确的几何 GT 深度学习语义，然后逐渐混合预测的深度以使模型适应预测的几何。在广泛使用的Occ3D-nuScenes基准上的大量实验证明了作者方法的优势，它实现了39.4 mIoU的准确度，同时保持了20.0 FPS的处理速度。与CVPR2023 3D占用预测挑战赛的获胜者FB-OCC相比，这个结果大约快了3倍，并且mIoU提高了1.9。

1 Introduction

基于视觉的占用预测[1]利用 ego 车辆的环视摄像头图像来估计 Voxel 空间内的物体占用和语义。与3D目标检测[15, 22, 37]相比，它提供了更细粒度的3D场景感知，并产生了一种无需激光雷达的替代方案。此外，通过确定网格单元内的物体存在，占用预测模型可以有效识别一般物体，有效处理词汇外和异常障碍物。

尽管具有这些优势，现有方法通常受限于较低的计算速度和较高的内存使用，这是由于3D Voxel 特征的高计算成本所致。这些限制阻碍了它们在配备车载GPU的自动驾驶车辆中的应用。为了将重点从单纯优先考虑准确性转向同时考虑部署友好性，作者对大多数可用的公共方法进行了广泛的速度和内存使用评估。

图1：占用预测方法在Occ3D-nuScenes[32]基准上的推理速度（FPS）和准确性（mIoU）。GSD-Occ在实时性方面具有明显的准确性优势。

通过对现有方法的广泛回顾和评估，作者确定了一个实现快速和准确性能的核心挑战： 几何与语义之间的强烈耦合 。如图2所示，几何预测（深度）作为2D到3D特征投影的输入，并影响下游的语义分类。因此，预测深度的不准确会破坏特征的判别力，并增加优化难度。为了解决这个问题，作者提出从网络设计和学习策略两个角度解耦几何学习和语义学习。

在网络设计方面，现有方法主要依赖重的3D网络[11, 24]同时细化几何结构并学习语义知识。然而，3D网络的高计算成本对于实时方法是难以承受的。最近，一些研究[10, 38]将3D Voxel 特征压缩为鸟瞰图（BEV）特征以提高效率，但它们通常无法达到满意的准确度（例如，图1中的FastOcc[10]），因为BEV表示丧失了高度信息[24]。因此，采用结合了BEV表示的计算效率和 Voxel 表示的几何完整性的混合BEV- Voxel 表示，既是自然而然的，也是大有希望的。为此，作者提出了一个基于两种原则指导的几何-语义双分支网络（GS-DBN）：“稀疏几何”和“密集语义”。在BEV分支中，作者采用了具有U-Net[29]结构的鸟瞰图 Level 时间融合和一个2D语义编码器来提取密集的语义特征。在 Voxel 分支中，作者提出了一个具有重参化3D大核卷积的3D几何编码器，它通过增强感受野来细化稀疏的几何结构，并通过重参化技术减少计算量。为了融合两个分支的特征，作者提出了一个BEV- Voxel 提升模块，它沿着高度维度将鸟瞰图 Level 的语义特征投影到 Voxel 空间，从而有效地恢复丢失的高度信息。

关于学习策略，继Lift-Splat-Shoot (LSS) [26]之后，几乎所有现有方法都直接使用预测深度进行2D到3D视角转换。然而，它们忽略了预测深度并不总是准确，尤其是在训练的早期阶段，这加剧了耦合问题，并导致优化不稳定。受到语言模型[2, 27, 28]的启发，这些模型提供顺序的 GT 标记来预测下一个标记，作者在训练期间用 GT 深度替换预测深度进行2D到3D视角转换。然而，当在测试中使用预测深度时，这种策略表现不佳，因为模型没有适应预测深度，并且无法校正预测几何中的错误。为此，作者引入了一种几何-语义解耦学习（GSDL）策略。最初，作者使用 GT 深度进行2D到3D视角转换，以保持准确的几何结构，便于进行孤立的语义学习。逐渐地，作者将 GT 深度与预测深度混合，使模型能够学习细化预测的几何形状。通过解耦几何细化与语义知识的学习，作者有效地降低了优化难度，在不产生额外部署成本的情况下实现了进一步的准确度提升。

作者的贡献可以总结如下：

作者对大多数公开可用的方法的速度和内存使用进行了广泛评估，旨在将关注点从单纯优先考虑准确度转向同时考虑部署友好性。
作者提出了一种双分支网络，采用混合BEV- Voxel 表示，将稀疏几何学习和密集语义学习分离，确保了计算效率和几何完整性。
作者提出了一种新颖的学习策略，以解耦几何细化和语义知识的学习，这在各种预训练模型和方法中均实现了稳定的准确度提升。
作者提出了GSD-Occ，一种几何-语义解耦占用预测器，为实时占用预测建立了新的技术水平，实现了39.4 mIoU和20.0 FPS。

2 Related works

基于视觉的鸟瞰图感知。 鸟瞰图（BEV）感知方法[16]最近取得了显著进展，由于其计算效率和丰富的视觉语义，发展成为自动驾驶（AD）中的一个关键组成部分。通过利用2D到3D视图变换将相机图像特征投影到BEV表示中，可以将多个任务集成到一个统一框架中。视图变换大致可以分为两类：正向投影和反向投影。前者采用显式深度估计将图像特征投影到3D空间。相比之下，后者首先初始化一个BEV空间，然后通过空间交叉注意力隐式地建模深度信息。尽管BEV感知在3D目标检测方面表现出色，但在处理自动驾驶安全至关重要的极端情况和词汇外目标方面仍存在困难。为了解决这个问题，提出了3D占用预测，很快在AD中成为了一个有前景的解决方案[1]。

3D占用预测。 3D占用预测使用连续 Voxel 网格重建3D空间，这为检测一般目标提供了增强的几何信息和能力。一个直接的想法是将3D目标检测方法的BEV表示替换为 Voxel 表示，然后附加一个分割头。然而，与BEV相比， Voxel 表示带来了相当大的计算和内存成本。为了解决这个问题，TPVFormer[13]将3D空间划分为三个视图平面进行特征提取，然后通过插值恢复 Voxel 表示。SurroundOcc和CTF-Occ[32]利用多尺度编码器逐步增强 Voxel 表示。FB-OCC[21]采用正向和反向视图变换的混合来完成稀疏 Voxel 特征。COTR[24]提出了一种通过下采样获得紧凑 Voxel 表示的方法，但其特征增强网络过于庞大，显著降低了运行速度。PannoOcc[34]基于占用表示引入了一种新颖的全景分割任务，并采用稀疏3D卷积减少计算量。尽管在准确性上取得了进展，但现有方法通常受到速度和内存限制的困扰。因此，作者建立了一个包含速度和内存使用的基准，以提供更全面和公平的方法评估。

部署友好的占用预测。 最近，一些研究工作关注占用预测的部署友好性。例如，FlashOcc[38]直接使用BEV表示预测几何和语义，从而降低了计算成本。同样，FastOcc[10]采用了BEV表示，但通过整合从视图变换获得的 Voxel 特征的残差结构来增强它。SparseOcc[31]采用纯稀疏 Transformer 基网络以减少计算。然而，这些方法通常只评估有限方法集的速度或内存使用。为了建立一个全面且公平的评估基准，这项工作在相同的实验环境下评估了大多数可公开获得的方法。此外，尽管现有方法在效率上有了显著提升，但它们通常无法在实时条件下达到满意的准确性。本文通过解耦几何和语义的学习，同时实现了实时和高精度的性能，以解决这一局限性。

3 Method

3.1 数据收集与预处理

在这一部分，作者将详细描述数据收集的过程以及为后续分析所做的预处理步骤。

Problem Formulation

给定来自个环视相机的图像序列，跨越帧，其中和。每帧中的相机内参和外参也是已知的。基于视觉的3D占用预测旨在估计 ego 车辆周围范围内的3D Voxel 的状态。3D Voxel 形状为（例如，在 [32] 中的 [200,200,16]），其中是每个 Voxel 的大小。每个 Voxel 包含占用状态（"占用"或"空置"）和特定的语义信息（"类别"或"未知"）。得益于占用学习，3D占用预测可以发展出一种通用的物体表示，以处理词汇外和异常障碍物。

Overall Architecture

图3展示了几何-语义解耦占用预测器（GSD-Occ）的概览，包括一个图像编码器来提取图像特征，一个2D到3D的视图转换将图像特征投影到3D空间，一个几何-语义双分支网络（第3.3节）以有效保持几何完整性并提取丰富的语义信息，以及一个几何-语义解耦学习策略（第3.4节）进一步强化了几何细化和语义学习的能力。

图像编码器。 在第帧给定一组环视摄像头图像，表示为，作者采用一个预训练的主干网络（例如，ResNet-50 [9]）来提取图像特征，其中和分别是图像和特征的结构。是 ego-vehicle 上摄像头的数量。 2D到3D视图转换。 2D到3D视图转换旨在将2D图像特征转换为 Voxel 表示。鉴于实时模型的学习能力有限，作者采用了一个由深度监督的显式视图转换模块[26]。具体来说，图像特征首先输入到DepthNet [18]中以生成预测的深度分布，其中是深度分箱的数量。通过外积，以和作为输入，可以获得伪点云特征。最后，对应用 Voxel 池化以获得 Voxel 特征，并执行下采样以降低计算复杂度。

Geometric-Semantic Dual-Branch Network

几何-语义双分支网络（GSDBN）模块背后的关键思想是采用混合的BEV- Voxel 表示方法，其中稀疏的 Voxel 特征作为“骨架”来保持3D几何信息，而计算高效的BEV特征则作为“血肉”用语义信息来完善 Voxel 特征。作者首先详细阐述了GSDBN设计的两个原则，即“稀疏几何”和“密集语义”。

（1）3D占用栅格中的稀疏几何反映了物理世界的离散化，这导致了 Voxel 特征的稀疏性，在2D到3D视图转换后，超过35%的值变为零。

（2）另一方面，密集语义对于维持模型的分类能力是必要的，因为过多的零值会严重降低性能。

然后，作者基于这两个关键原则详细介绍了GSDBN。

3.3.1 Semantic BEV Branch

图4：3D几何编码器中大型核3D卷积重参化技术的说明。

该技术采用并行的膨胀小型核3D卷积来增强非膨胀大型核3D卷积。本例展示的是。

多摄像头图像首先被送入图像 Backbone 网络以获取图像特征，并使用DepthNet [18]预测深度分布。随后，采用Lift-Splat-Shoot (LSS) [26]模块将2D图像特征显式转换为3D Voxel 特征。接着，几何-语义双分支网络利用混合的BEV- Voxel 表示有效地维持几何结构同时提取丰富的语义信息。几何-语义解耦学习策略将 GT 深度注入LSS，以分离几何校正和语义知识的学习，从而进一步提高准确性。

BEV级时间融合。

为了减少计算和内存成本，作者提出使用BEV特征代替[21]中用于时间融合的 Voxel 特征。此外，作者引入了[25]中的历史特征队列，以避免[11, 24, 38]中的耗时且重复的特征重新计算。具体来说，作者将 Voxel 特征沿着高度维度折叠以获得BEV特征，并维护一个长度为的记忆队列来存储历史BEV特征。为了将历史帧的BEV特征与当前帧融合，作者首先将它们变换到当前时间戳，然后通过2D卷积处理以获得时间BEV特征。 Voxel 特征的稀疏性使得BEV特征能够保留丰富信息，从而产生可接受的准确性下降（0.69 mIoU）和显著的推理时间减少（0.025秒）。

2D语义编码器。

作者采用轻量级的2D类似UNet [30]编码器来提取富含语义信息的特征。具体来说，时间BEV特征被下采样并通过4倍上采样，使用残差融合多尺度特征。这个过程产生了语义BEV特征。

3.3.2 Geometric Voxel Branch

3D几何编码器。 受[7, 8]的启发，作者通过设计一个具有大核的重新参数化的3D卷积来扩展重参化技术到3D占有预测，以进行几何编码。通过这种方式，作者可以增强 Voxel 特征的感受野以细化几何结构，同时重参化技术显著减少了推理时间。

在训练过程中，作者采用了非膨胀的小核3D卷积以及批量归一化（BN）层的多个膨胀小核3D卷积。这种组合有助于捕捉小尺度模式并增强感受野。在推理过程中，这些并行的小核3D卷积可以转换成大核卷积以提高效率。

如图4所示，作者展示了一个尺寸为等于的3D卷积核的案例。由于在输入中省略像素等同于在卷积中插入额外的零条目，具有小核的膨胀卷积可以等价地转换为具有稀疏大核的非膨胀卷积[8]。对于具有膨胀率的小型3D卷积核，这种转换可以通过转置卷积优雅地实现：

其中

国防科技大学提出混合 BEV-Voxel 表示：自动驾驶中占用预测的快速准确方法 ！

正文