专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

从2D到3D,EFFOcc 高效占用网络简化架构,降低标注需求 !

智驾实验室  · 公众号  ·  · 2024-06-16 14:24

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

扫描上方二维码,加入【 智驾实验室 】交流群,

获取更多内容和资料

三维占用预测(Occ)是自动驾驶领域迅速崛起的一项具有挑战性的感知任务,它将驾驶场景表示为具有语义信息的统一划分的3D Voxel 网格。与3D目标检测相比,网格感知在识别不规则形状、未知类别或部分遮挡的一般物体方面具有很大优势。

然而,现有的3D占用网络(occnets)既计算量大,又对标签需求高。在模型复杂性方面,occnets通常由 Voxel  Level 的重型Conv3D模块或 Transformer 组成。在标签标注要求方面,occnets需要大规模昂贵的密集 Voxel 标签进行监督。

由于过多的网络参数和标签标注需求导致的模型和数据效率低下,严重阻碍了occnets在车载部署上的应用。

本文提出了一种高效的三维占用网络(EFFOcc),旨在最小化网络复杂性和标签需求的同时达到最先进的准确性。

EFFOcc仅使用简单的2D操作符,并在多个大规模基准测试上提高了Occ的准确性:Occ3D-nuScenes、Occ3D-Waymo和OpenOccupancy-nuScenes。在Occ3D-nuScenes基准测试上,EFFOcc只有 个参数,并在平均交并比(mIoU)方面达到 ,据作者所知,与相关occnets相比,它是参数最少的近期工作。此外,作者提出了一种两阶段主动学习方法来减少标记数据的需求。

仅用6%的标记 Voxel 训练的主动EFFOcc达到 mIoU,这是完全监督性能的 。所提出的EFFOcc还支持通过区域分解提炼改进仅视觉占用预测。代码和演示视频可在https://github.com/synsin0/EFFOcc获取。

I Introduction

自主感知需要对环境有全面的理解。常见的以目标为中心的流水线,包括检测、跟踪和预测,将障碍物表示为边界框。它们难以处理超长、形状不规则的目标。近年来,占有栅格在自主感知方面重新受到关注。特斯拉率先将占有栅格地图(OGM)扩展到占有网络(occnet)。特斯拉的FSD感知利用深度学习技术将视觉特征投影到3D Voxel 中,并解码占用、语义和运动流等多种信息[1]。跟随这一趋势,新的3D占有基准[2, 3]建立在大型公共数据集之上。这些基准将任务制定为在3D Voxel 栅格上进行前景物体和背景内容的语义分割。

尽管高性能ocnets近年来取得了成功,但它们带来了大量的计算负载,这限制了实时车载部署。降低模型复杂性是提高ocnets的主要方向之一。然而,现有的计算效率高的ocnets专注于视觉网络,而轻量级的激光雷达-相机融合ocents却鲜少被探索。

为此,作者介绍了EFFOcc,这是一个高效的3D占有网络,具有更快的推理速度和最先进的表现。作者期望EFFOcc能够在常用GPU设备(2080ti)上以可接受的时长进行训练,并实现实时延迟部署。作者的动机始于这样一个事实:激光雷达点云天然适合几何重建,而轻量级的视觉分支足以补偿语义识别能力。作者设计了一个轻量级融合网络EFFOcc,并利用检测任务作为有益的预训练,以达到最先进的表现。EFFOcc与其他融合ocnets的比较如图1所示。

此外,作者进行了有效的主动学习,以确定ocnet训练的最小数据要求。由于标签生成过程需要大量预处理,如聚合、匹配、消除遮挡,作者相信减少对标记 Voxel 数量的需求可以显著降低成本。作者提出了一种两阶段的主动学习方法,用于标签高效的适应性标注。首先,从 未标注 的池中选择一定比例的高价值帧作为候选,然后从高价值帧中找到高价值 Voxel 作为主动学习的最终选择。

总结来说,作者的贡献如下:

  • 作者提供了一个简单的 Baseline EFFOcc,用于基于融合的3D占有预测,并通过轻量级设计和适当的预训练技术提升了EFFOcc的最先进水平。作者提供了一个以占有为导向的蒸馏 Baseline ,用基于融合的教师模型提炼实时视觉占有网络,与其他实时视觉ocnets相比具有竞争力。
  • 作者提出了一种新颖的两阶段主动学习方法,专门针对3D占有标签的标注成本降低,成功减少了标注成本和训练ocnets的计算成本。
  • 作者在两个大型数据集nuScenes和Waymo Open Dataset上的三个公共基准上验证了作者的模型,并证明了它们的有效性。

II Related Works

3D Occupancy Prediction

三维占用预测源自语义场景完成(SSC)任务[8]。Occ3D[2]在大型环视数据集nuScenes和Waymo上发布了基准,而OccNet[9]将挑战扩展到3D占用和流。占用网络通常是从视觉鸟瞰图(BEV)网络以及语义分割网络[12]的扩展中发展而来的。SurroundOcc[13]和OpenOccupancy[3]提取多尺度3D Voxel 特征,并使用 Transformer 通过去卷积上采样将它们合并。多尺度特征证明了更好的分割性能。TPVFormer[14]和PointOcc[15]将BEV公式扩展到三重视图特征变换。PanoSSC[16]、Symphonies[17]和OccFormer[18]提出了不同的基于 Mask 的 Transformer 头,用于全景占用分割。FB-Occ[19]提出了一种前向BEV池化风格的视图变换模块和一种后向BEVformer风格的变换,并在占用预测挑战中获得了第一名。

Computationally-efficient Occupancy Network

三维占用网络通常带来大量的计算量。为了减少三维 Voxel 计算的数量,提出了不同的方法。PanoOcc [20] 在每一层中将3D卷积操作符替换为稀疏卷积,同时在预测非空 Voxel 的占用率时删除预测的空 Voxel 以保持稀疏性。FlashOcc [4] 和 FastOcc [5] 提出了高效的通道到高度方法,无需复杂的3D卷积计算。

SparseOcc [6] 提出了完全稀疏模型,利用几何稀疏性和稀疏实例 Query 与 Mask  Transformer 拟合目标稀疏性。SparseOcc [21] 在基于几何的视图变换后移除了空 Voxel ,之后使用spconv操作符。此外,还提出了一个稀疏潜在扩散器,以扩散接近占用 Voxel 的空 Voxel 。它们实现了显著的74.9%的FLOPs减少。

Efficient Learning for Autonomous Perception

高效学习的范畴包括知识蒸馏、主动学习、半监督学习等技术。这些技术在2D领域得到了广泛研究,但在3D领域的研究相对较少。知识蒸馏广泛应用于视觉BEV检测学习,从教师模型(如基于LiDAR或融合检测器)[22, 23]中进行。然而,占用任务比检测任务更具挑战性,因为占用预测存在更严重的类别不平衡问题,不仅是前景物体之间的类别不平衡,还包括背景元素。因此,当前的占用网络在前景障碍物的准确度上存在不足。为了在 Voxel 特征之间进行蒸馏,RadOcc [24] 将神经渲染应用于图像平面,作为对 Voxel 特征蒸馏的辅助监督。

另一种标签高效的方法是主动学习或数据集蒸馏,它有效地提高了训练性能并降低了标签成本,这已经在基于LiDAR的3D检测[25]和LiDAR分割[26, 27]中进行了探索。

Annotator [27] 提出了一个以 Voxel 为中心的主动学习范式,它主动标记那些 Voxel 混淆度(VCD)较高的 Voxel 内的点。他们展示了使用主动选择标签训练的模型具有竞争力,其最小单元的标签部分不到1%。

III Methodology

Architecture

EFFOcc的架构如图2所示。作者的总体目标是追求网络的简化以及从模型中心视角和数据中心视角分别降低训练的最低成本。在第三节-B中,作者首先提出了仅使用2D操作符的轻量级EFFOcc-LiDAR和EFFOcc-Fusion,并通过适当的检测预训练进一步提升它们的性能至最先进水平。在第三节-C中,使用基于融合的EFFOcc作为教师模型和占用结果作为感兴趣区域,通过区域分解的蒸馏提高了仅视觉的EFFOcc-C的性能。在第三节-D中,作者提出了一种基于最大熵帧和 Voxel 选择的两阶段主动学习方法,以探索在占用精度没有显著下降的情况下对标签的极端压缩。

EFFOcc Fusion Network

作者的设计目标是使用尽可能少的网络参数实现相似的准确度。作者从OpenOccupancy [3]中引入的 Voxel 级密集融合方法开始。它包括一个视觉分支、一个点云分支、一个由3D卷积操作支持的自适应 Voxel 融合模块以及一个具有从粗到细 Query 的多尺度分割头。作者将每个模块用轻量级版本替换,而不损失性能准确度。作者移除了OpenOccupancy LiDAR分支上的3D CNN,用BEVpoolv2 [28] 和Conv2D BEV编码器替换了所有的Occ池化和Conv3D Occ编码器,在视觉分支上,还用BEV融合层替换了 Voxel 融合层。此外,该模型仅使用单尺度特征图和单阶段粗略预测。作者网络与 Voxel 级密集融合方法的对比展示在图3中。

对于点云分支,作者使用平均特征编码作为预处理,并使用下采样步长为8的Spconv8x作为LiDAR编码器。然后,将稀疏3D特征铺展为BEV特征。对于图像分支,作者使用图像编码器,并采用BEVpoolv2 [28] 作为视图投影仪,以加速从透视视图到BEV的转换。作者采用简单的基于conv2d的算子作为融合层。融合后,作者进入BEV编码器阶段,BEV编码器网络结构与点云检测的2D编码器相同的SECOND FPN,而不是resnet18,这使得模型更多地从检测预训练中受益,并使用更少的参数。占有率头由两个Conv2d层组成,并将高度通道从特征通道分离以进行最终的3D输出。

从零开始训练轻量级融合模型,其性能大约比最新的基于融合的RadOcc [24]教师模型低 mIoU,该模型的结构与OpenOccupancy [3]非常相似。作者发现,在稀疏卷积(Spconv)之后去掉3D CNN自然会降低性能。作者发现,缓解这一差距的一个有希望的方法是使用检测任务预训练模型部分。基于这一观察,作者调整网络使其更接近于久经考验的点云检测网络。实验表明,如果模型从相应检测网络的预训练权重加载,EFFOcc可以在更复杂的ocnetcs情况下实现相似的性能。

训练策略。 作者从DAL [29]的预训练权重初始化而不是随机初始化,因为作者发现检测预训练可以提高前景分割的准确度。

作者使用了先前研究中的现有损失函数。它们包括交叉熵损失 ,lovasz-softmax损失 [30],亲和力损失 [31]。对于Occ3D-waymo案例,作者使用OHEM [32]损失。lovasz-softmax损失和亲和力损失消耗更多的GPU内存,在OpenOccupancy基准测试上带来了很大的提升,但在Occ3D基准测试上的帮助较小(在mIoU方面 )。除非特别提及,在Occ3D基准测试的大多数实验中,作者只使用交叉熵损失以节省训练阶段的GPU内存。总损失 是每个损失的加权和,

作者将所有权重设置为

Occupancy-oriented Distillation

作者尝试应用训练好的融合模型来提高仅视觉模型的性能。现有的BEV知识蒸馏方法通常是为检测方法设计的,主要用于检测框的多阶段(特征级、框级等)知识传递。首先,作者进行了简单的蒸馏尝试,即在融合型教师模型和视觉型学生模型之间简单地进行全空间特征对齐,但未能提高准确性。一个可能的原因是,占用网络需要同时处理前景、背景和空旷环境,面临着严重的语义分布不平衡问题。作者对BEV特征图的统计发现,不到1%的柱子包含前景物体,大约40%的柱子包含背景,而其余的柱子都是空的。作者设计的蒸馏策略更多地关注前景 Voxel 。作者将完整的BEV空间分解为上述三个子区域。作者通过定义一个区域权重图 ,迫使学生模型更多地关注前景和背景区域:

在方程2中, 表示BEV特征图上的坐标索引。

教师模型 和学生模型 之间BEV特征的蒸馏损失为:

仅视觉的学生网络用蒸馏损失和分类损失的之和进行训练。

Two-stage Active Learning

作者希望主动学习方法能够在与100%标签训练模型相似的性能下,节省占用标签的标注成本和占用帧的计算成本。

主动学习过程如图2左部分所示。首先,作者以固定的跳过间隔均匀收集样本,形成初始化的标注训练集。其余未标注的样本形成一个未标注池。对于每个样本的模型推理,模型输出每个 Voxel 上的类别概率。在第一阶段,作者主要为了减少计算成本,在帧预算内主动选择高价值帧。在第二阶段,作者主要为了减少标注成本,对于每个选定的标注帧主动选择高价值 Voxel 。

评估未经标注的新样本数据的价值是主动学习的核心问题。许多先前的工作通过预测不确定性来表征价值:如果预测结果表现出高度不确定性,标注这些样本将对新一轮训练带来好处。否则,预测不确定性低的样本被视为多余的训练资源。本文将占用视为一个分割任务而非定位任务,即每个 Voxel 网格的分类。因此,作者选择ENTROPY [33]作为主要的主动选择策略。ENTROPY是一种基于不确定性的方法,针对占用预测器的语义分类头。作者使用最大熵作为主动选择的主要标准。

作者将未标注池中的所有样本传递给ocenet,提取预测的 Voxel 占用 ,其形状为







请到「今天看啥」查看全文