专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
51好读  ›  专栏  ›  智驾实验室

AdaOcc 自适应分辨率占用率预测 !

智驾实验室  · 公众号  ·  · 2024-09-05 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

复杂的 urban scenarios 下自动驾驶需要 3D 感知具备全面性和精确性。

传统的 3D 感知方法注重目标检测,导致表示稀疏且缺乏环境细节。最近一些方法估计车辆周围的 3D 占用率,以获得更全面的场景表示。

然而,密集 3D 占用预测增加了计算需求,使得效率和分辨率之间的权衡更加困难。高分辨率的占用网格提供准确度,但需要大量的计算资源,而低分辨率的网格既高效又缺乏细节。

为了解决这个问题,作者引入了 AdaOcc,一种新颖的适应性分辨率、多模态预测方法。

作者的方法将物体中心 3D 重建和整体占用预测集成到单个框架中,只在感兴趣区域(ROI)执行高度详细且精确的 3D 重建。这些高详细的 3D 表面以点云表示,因此其精度不受占用图预定义网格分辨率的限制。

作者在 nuScenes 数据集上进行了全面的实验,证明了与现有方法相比显著的改进。在近距离场景中,作者在 IOU 指标上超过了以前的基准,超过 13%;

在 Hausdorff 距离上超过了 40%。总之,AdaOcc 提供了更灵活且有效的框架,以实现跨各种驾驶场景的准确 3D 语义占用预测。

1 Introduction

自动驾驶决策取决于周围环境的准确表示。所需感知粒度因任务而异:高速公路可能需要稀疏但长程视图,而城市区域需要密集、近距离详情。在所有场景中找到一种能够安全导航的表示,并适应实时动态变化仍是一个重大的挑战。

自动驾驶研究领域已经出现了各种场景表示。典型的包括均匀 Voxel 基于表示,边界框表示,隐式表示,基于点表示,以及其他形式的表示。尽管传统的以边界框为中心的目标表示广受欢迎,但近年来由于其提供的三维语义占用图丰富的信息, Voxel 基于表示变得越来越普及,它们可以提供更全面理解场景。它们包括额外的背景描述和捕获一定粒度的表面形状。此外, Voxel 基于表示因其与导航和规划框架的平滑集成而受欢迎。

尽管语义占用的灵活性可用于调整网格大小,但大多数现有方法产生相对较低分辨率的占用图( 或更高),限制了它们的应用范围在高速公路上。在市区驾驶或停车场景中,更高的分辨率表示对于精确车辆操控至关重要。如图2所示,当使用0.8m和0.2m voxels时,两车之间测量的距离最大可偏差0.6米。然而,分辨率越高,计算复杂性和GPU内存消耗也将增加。

为平衡内存效率和感知准确性,作者提出两种策略:

非均匀分辨率: 在车辆路径规划中,近程元素比远程元素更重要,物体(例如,车辆,行人)比背景元素(例如,道路,人行道)更优先。因此,作者提出了一种非均匀分辨率表示,将高分辨率预测聚焦在近程物体上。

多模态3D表示 。该设计基于 Voxel 网格表示的两个主要缺点。首先,其精度受到 Voxel 大小限制,当追求更细粒度时会导致GPU资源过载。其次,实际场景中的稀疏性通常会导致许多未占用 Voxel ,从而导致内存使用低效。为了解决这些问题,作者提出了一种针对3D表示的多模态方法,将包括 Voxel 网格、点云和边界框等输出纳入,而不是仅仅依赖 Voxel 网格进行3D语义占用(如图1左所示)。在这些方法中,点云具有特殊优势,因为它们具有高细节和独立于 Voxel 大小。它们并不一定需要增加内存使用,仅指示占用元素的存

为了增强不同模态之间的协同作用,作者共同训练了一个共享的 Backbone 网络(2D鸟瞰图(BEV)[19]或3D特征体积[40]),提供 Voxel 网格、边界框和点云在一个统一的网络架构中。利用多模态表示,作者的占用预测模型可以用粗粒度的真实占用数据和原始LIDAR点有效地进行训练,同时仍然被评估为高分辨率的占用。AdaOcc在既定短程和远程场景下的nuScenes数据集上与先前的方法进行了实验比较,以证明其有效性。值得注意的是,近程评估中IOU(提高13%)和Hausdorff距离(提高40%)指标的显著改善,证明了作者方法在捕捉目标重建细节和实现精确目标位置估计方面的优越性能。

总的来说,作者的贡献如下:

  1. 作者提出了一个多模态自适应分辨率方法,在关键区域内提供高精度的输出表示,同时保持了实时应用的效率。
  2. 作者开发了一种有效的共同训练范式,提高了占用预测和目标折叠分支之间的协同作用。
  3. 作者的方法在nuScenes数据集上显示出优越的准确性,尤其是在需要精确操作的近程场景中。

2 Related Works

3D语义占用预测。3D语义占用预测迅速发展,在实现无需安全驾驶城市环境的精确感知方面发挥着至关重要的作用。一些先驱性工作[1, 18]旨在处理单视图图像输入,为从单一视角推导出密集几何和语义推理奠定了基础。相比之下,其他方法利用环绕视图图像来实现对环境的360度全面的 Understanding。其中,OpenOccupancy[40]提供了评估占用预测的最细粒度的参考标准,使用0.2-米 Voxel 大小。提出的CONet方法是第一个通过级联方法在0.2-米 Voxel 尺度上实现占用预测的。

由于这些方法依赖于均匀采样的 Voxel ,它们的准确度很大程度上取决于计算单元能够承载的 Voxel 数量。通过将计算资源集中在目标目标上,AdaOcc在关键区域内实现高度精确的感知,同时保持整体的计算成本。

从环绕视图图像进行3D目标检测。基于摄像头的环绕视图3D目标检测在自动驾驶领域在统一的框架设计方面取得了显著的进步,如同所示。研究者们集中在将多个视图转换为统一的3D空间在单个帧内,如同所示。

这个过程可以分为两种主要的途径:一种是基于BEV( bird's eye view)的算法,另一种是基于稀疏 Query 的算法 。与BEV方法相比,transformer-based backbones被认为是更兼容与其他需要密集输出的3D感知任务,如3D占用预测,深度估计和3D场景重构。

受启发,为了进一步增强3D理解,AdaOcc进一步将目标检测、占用预测和目标表面重建集成到一个统一的框架中。作者的框架不仅能全面地表示整个场景,而且还能在物体区域内关注高表面精度。虽然[41]使用类似策略在一定的ROIs(Regions of Interest)内进行语义占用预测,但它仍然输出3D Voxel 网格。这种方法在选择网格分辨率时仍然面临效率与精度两难选择的问题,正如其他占用预测方法一样。

2D-3D编码前馈。在2D-3D编码前馈领域,两种主导方法出现:

基于transformer-based的 backbones 和 Lift-Splat-Shoot (LSS)-based backbones 。Transformer-based backbones通常在3D空间创建一个 Query 网格,将这些网格点投影到2D图像平面上,然后利用可变形 Transformer (deformable transformer)将提取的特征聚合回 Query 网格[50]。相反,LSS-based backbones包括一个深度概率预测模块,该模块根据估计的深度概率在3D空间中将2D图像特征分配。每种方法都具有独特的优势。在实验中,作者选择了BEVFormer [19](基于transformer)和CONet [40](基于LSS)作为 Baseline 网络,以突出AdaOcc的能力。

多分辨率3D表示。多分辨率表示在计算机图形和几何建模的各个领域都取得了重要进展,就像所证明的那样。一些方法采用分层方法进行形状重建,该方法从初步的低分辨率模型开始,逐步改进为高分辨率输出。其他方法[21, 35]扩展了分层结构,如隐式函数的八叉树,以表示神经渲染的辐射场,但八叉树的精度由深度图输入确定。

在占用预测领域,CONet [40]开辟了一个从粗糙到精细的战略,只对粗糙的占用图进行细化,以实现第一个实用的0.2米语义占用预测方法。仅依赖CONet的粗糙占用图,作者的方法在Hausdorff距离方面显著提高了性能,并减少了内存使用,具体内容在第四节详细介绍。

3 Methodology

问题陈述 :作者将任务形式化为多模态自适应分辨率占位预测。网络的输入是一组环绕视图输入图像 ,输出网络的多模态,包括: (1)从 范围内的3D语义占位图 ,其中此图跨越 等子集。 (2)一组由 ,大小 和(3)目标形状,以点云格式表示 ,其中作者选择

通过自适应分辨率,作者旨在创建一个混合分辨率的占位图,将目标的细分辨率与所有事物的粗分辨率相结合。占位图网格大小包括0.2m,0.4m,0.8m等。在本工作中,作者将voxel尺寸小于或等于0.2m定义为高分辨率,否则为低分辨率。

架构概述 :作者的方法多样化,能够与BEVFormer [19]或CONet [40]相结合,如图3所示。它将六张环绕视图输入图像 通过2D-3D编码器进行处理。具体来说,通过时间 捕捉的图像 使用CNN提取二维图像特征。这些特征随后投影到3D特征体积 ,以方便语义占位预测,目标检测和目标表面重建。BEV特征被认为是3D特征体积的一个特定实例。

Occupancy Decoder

以自我为中心的占据感知旨在在环绕视驾驶场景中创建固定网格大小的语义占据图。这个模块旨在提供对整个区域的全面理解,允许使用低分辨率占据解码器提高效率。 所有的CONet变体(使用CONet作为 Backbone )仅依赖于当前特征( )来预测 ,然后在其原始占据预测之上添加一个额外的基于注意力的占据细化步骤。

3D Object Detector

三维目标检测器旨在生成有助于目标中心形状重建的3D物体边界框,也可直接用于下游任务。预测的3D物体边界框,用







请到「今天看啥」查看全文