专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
平安天津  ·  赴浪漫的玉兰之约 出行提示在此→ ·  7 小时前  
平安天津  ·  赴浪漫的玉兰之约 出行提示在此→ ·  7 小时前  
黑龙江交通广播  ·  出行请注意!哈铁近期列车调整信息来了 ·  10 小时前  
湛江日报  ·  加开!湛江西站列车有调整→ ·  11 小时前  
湛江日报  ·  加开!湛江西站列车有调整→ ·  11 小时前  
苍梧晚报  ·  重要提醒!市区该路段施工请绕行! ·  昨天  
贵州省应急管理厅  ·  春分至,踏青正当时!这份安全指南伴你畅游春天! ·  3 天前  
贵州省应急管理厅  ·  春分至,踏青正当时!这份安全指南伴你畅游春天! ·  3 天前  
51好读  ›  专栏  ›  智驾实验室

DAOcc 3D目标检测辅助多传感器融合用于3D 占用预测 !

智驾实验室  · 公众号  ·  · 2024-11-08 08:24

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

多传感器融合显著提高了3D语义占用预测的准确性和鲁棒性,这对自动驾驶和机器人技术至关重要。

然而,现有方法依赖于大的图像分辨率和复杂的网络来实现最佳性能,限制了它们在实际场景中的应用。此外,大多数多传感器融合方法主要关注改进融合特征,而忽视了这些特征的监督策略的探索。

为此,作者提出了一种新颖的多传感器融合占用网络,利用3D目标检测监督来辅助实现卓越性能,同时使用部署友好的图像特征提取网络和实际输入图像分辨率。

此外,作者还引入了一种BEV视图范围扩展策略,以减轻降低图像分辨率的不利影响。

因此,作者的方法在Occ3D-nuScenes和SurroundOcc数据集上实现了新的最先进结果,使用ResNet50和256x704输入图像分辨率。

代码将在https://github.com/AlphaPlusTT/DAOcc上提供。

1 Introduction

3D语义占用预测(occ)是自动驾驶和机器人系统中的一个关键任务,准确理解环境对安全和高效导航至关重要。可靠的占用预测不仅需要准确的空间数据,还需要全面理解环境的上下文。

实现这一目标需要集成来自多个传感器的数据。激光雷达提供精确的3D空间信息用于障碍物检测,而摄像头则捕捉颜色和纹理等视觉细节以深入理解场景。通过结合这些互补的数据来源,占用预测的准确性和鲁棒性将显著提高。

在现有的多模态或基于图像的occlusion攻击研究中,实现优越性能通常需要使用极高分辨率的图像和复杂的图像特征提取网络(见表1和表3),例如使用900x1600分辨率输入图像和配备DCN[7, 62]的ResNet101。然而,这种方法由于计算需求高,在边缘设备上的部署受到限制。

与图像相比,点云数据要稀疏得多。例如,在nuScenes数据集的训练集中,单帧点云中的最大点数仅为34,880,相当于900x1600分辨率图像中像素数的2.4%。因此,如何在多模态occlusion框架内有效利用点云数据仍需进一步探索。

此外,作者观察到大多数关于多模态光流(multi-modal occlusion)的工作[33, 40, 46, 49, 57, 58]主要关注于获得更有效的融合特征,而对于这些融合特征的监督形式并未进行充分探索。

尽管CO-Occ [34]引入了基于隐式 Voxel 渲染的正则化来监督融合特征,但它只利用了原始点云数据的距离 GT ,未能充分发掘点云特征所固有的几何和结构信息。相比之下,基于点云的3D目标检测器[6, 31, 56]有效利用了这些信息,在3D目标检测任务中相较于图像检测器[16, 26, 27, 28]实现了显著更好的性能。这一观察表明了一个新的研究方向:如何在多模态光流任务中更好地发掘点云数据的独特优势。

根据这些观察,作者提出了一个名为 DAOcc 的全新多模态目标检测框架,该框架利用 3D 目标检测来辅助实现卓越性能,同时使用一种部署友好的图像特征提取网络和实用的输入图像分辨率。

在构建DAOcc的 Baseline 网络结构中,作者采用最直接和最简单的方法:首先,从图像和点云中分别提取特征。由于单目图像的深度估计是一个病态问题[13, 20],而变形注意力模块过于复杂[10],因此作者采用类似于Harley的方法[9],将图像特征从二维空间转换到三维体积空间。具体而言,作者将一组预定义的三维点投影到二维图像特征平面,并使用双线性插值采样这些三维点对应的二维图像特征。接下来,作者采用与BEV-Fusion[30]相同的最简单的融合策略,将图像和点云特征拼接,然后进行二维卷积以融合它们,从而得到统一的BEV特征。最后,作者应用一个具有残差结构的完全卷积BEV编码器,进一步融合统一的BEV特征,并使用Channel-to-Height操作[54] Reshape 统一BEV特征的高度。

为了充分利用点云特征中固有的几何和结构信息,作者将在基准模型的统一BEV特征中增加3D目标检测监督,从而提高统一BEV特征的判别性。这使得统一BEV特征更加敏感于物体边界,并能够感知内部物体结构之间的关系。此外,考虑到点云的稀疏性,作者扩展了点云的处理范围,并采用稀疏卷积[52]来降低由此扩展带来的计算开销。作者将这种方法称为BVRE(BEV视场范围扩展)。BVRE提供了更大的BEV视场,提供了更多的上下文信息,并减轻了降低图像分辨率的不利影响。值得注意的是,3D目标检测监督仅在训练中作为辅助分支使用,而在推理时(对于目标检测任务)可以移除。

因此,提出的DAOcc在Occ3D-nuScenes和SurroundOcc基准测试上实现了最先进的表现,同时使用了ResNet50和256x704的输入图像分辨率。具体而言,在Occ3D-nuScenes验证集上,当使用相机 Mask 进行训练时,DAOcc达到了53.82 mIoU,而在不使用相机 Mask 时,达到了48.2 RayIoU。此外,在SurroundOcc验证集上,DAOcc实现了45.0 IoU和30.5 mIoU。

总结而言,作者的贡献可以概括为以下几点:

  1. 作者设计了一个简单而高效的多模态3D语义占用预测 Baseline ,无需使用复杂的变形注意力模块以及图像深度估计,从而实现了特征融合。

  2. 作者提出了DAOcc,一种新颖的多模态占用预测框架,该框架利用3D目标检测来辅助实现卓越性能,同时使用一种部署友好的图像特征提取网络和输入图像分辨率。

  3. 作者提出了一种BEV视场范围扩展策略,它提供了更大的BEV视场,提供了更多的上下文信息,并减轻了降低图像分辨率带来的负面影响。

  4. 作者在Occ3D-nuScenes数据集和SurroundOcc数据集上,使用ResNet50和256x704的输入图像分辨率,实现了最先进的性能。

2 Related Work

基于相机的3D占用预测由于其成本效益而受到广泛关注。MonoScene [4] 是第一个从单个RGB图像中推理户外和室内场景的稠密占用和语义的工作。由于在自动驾驶和机器人领域做出准确决策需要对周围环境有全面的感知,因此大多数最近的工作都是基于周围视图图像输入。

TPVFormer [15] 提出了一种高效的三视角视图(TPV)表示,它结合了BEV与两个额外的垂直平面,以提供具有多视图图像输入的3D感知结果。由于TPV表示的细粒度语义信息不足,OccFormer [59] 利用密集3D特征并提出了一个双路径 Transformer 基的占用网络。然而,TPVFormer和OccFormer 都使用稀疏激光点作为监督,导致稀疏占用预测。

为了获得稠密占用预测,OpenOccupancy [46],SurroundOcc [48] 和Occ3D [41] 开发了生成稠密占用标签的方法,并在各自提出的数据集上建立了基准。值得注意的是,SurroundOcc没有引入人工标注。这些基准的出现进一步推动了3D占用预测的发展。

PanoOcc [47] 采用 Voxel  Query 和从粗到细的方法学习一个统一的占用表示。FlashOcc [54] 使用BEV特征和2D卷积实现高效特征提取,并提出了通道到高度的转换,将BEV的输出提升到3D空间。SparseOcc [29] 利用稀疏 Voxel 解码器重建场景的稀疏几何,并使用稀疏 Query 预测 Mask 和标签。OSP [39] 将场景视为一个点集,并使用灵活的采样允许模型特别关注某些区域。然而,所有基于相机的

尽管基于相机的占用预测已经取得了有前景的结果,但多模态方法提供了更高的可靠性和鲁棒性,使其在自动驾驶和机器人领域的实际应用不可或缺。由于摄像头对光照和天气条件的变化敏感,OccFusion [33]通过集成LiDAR和雷达的特征,增强了占用网络的准确性和鲁棒性。

同时,OccFusion [58]将预处理的更密集、更均匀的点云投影到图像平面上,建立映射关系,并执行变形注意力 [63]以融合相应的特征。尽管OccFusion [58]避免了深度估计,但使用变形注意力会带来更大的计算负担。Hydra [49]将FB-BEV [24]扩展到摄像头-雷达融合领域,并利用雷达特征帮助改进深度估计的准确性。

Co-Occ [34]使用K-近邻搜索在选择相邻摄像头特征以增强相应的激光雷达特征,并基于隐式体积渲染提出一种正则化方法。然而,这种正则化方法仅利用点云的距离 GT 值,而没有利用其固有几何信息。EFFOcc [40]提出了一种高效且轻量级的多模态占用网络,但其在优化结果方面严重依赖于激光雷达分支的3D检测预训练。然而,这种依赖性限制了网络结构设计的灵活性。

具体来说,为了最大限度地利用3D检测预训练的优势,EFFOcc需要调整其网络架构,使其更接近已建立的激光雷达检测网络。此外,单目深度估计问题的固有性质使其图像分支的鲁棒性较差 [13]。在本工作中,作者介绍了一种简单而高效的多模态占用预测网络,无需复杂的变形注意力 [22, 63]以及特征融合过程中的图像深度估计,并且不需要3D目标检测预训练。此外,为了充分利用点云特征的固有几何信息,作者在融合特征上添加了3D目标检测的辅助分支。

近年来,多模态3D目标检测方法主要关注学习有效的BEV特征表示。TransFusion[1]提出了一种两阶段的Transformer-decoder检测Head,并应用交叉注意力为每个目标 Query 获取图像特征。BEVFusion[30]提出了一种高效且通用的多任务多传感器融合框架,将多模态特征统一在共享的鸟瞰视角(BEV)表示空间中,并引入了一种专门的核来加速BEV池化操作。

同时,为了提高LiDAR-摄像头融合框架的鲁棒性,以应对传感器故障,如缺少LiDAR传感器输入,BEVFusion将LiDAR-摄像头融合分解为两个可以独立输出感知结果的流,并在两个流之后进行特征融合。

DAL[13]遵循“检测作为标签”的概念,在分类和回归过程中解耦融合特征。具体而言,它使用融合特征进行分类,而仅使用点云特征进行回归。在本工作中,作者引入了BEVFusion简单而有效的特征融合方法,并在训练过程中将3D目标检测作为一个辅助分支。

3 Proposed Method

Overall Framework

作者的目标是充分利用点云特征进行多模态占用预测。以前的多模态研究尚未充分利用这一点,只能通过更复杂的图像特征提取网络和更大的输入图像分辨率来实现优越性能。作者提出的DAOcc的整体框架如图2所示。DAOcc接受周围图像及其对应的时间同步点云作为输入,通过Camera Encoder和LiDAR Encoder分别获得图像和点云的特征。将2D图像特征通过投影和采样转换到3D Voxel 空间。

接下来,将3D空间中的图像和点云特征沿着高度维度压缩,生成相应的BEV特征。然后,应用简单的2D卷积进行特征融合,将融合特征完全卷积化,并通过Channel-to-Height操作[54]恢复BEV表示的高度,从而得到最终3D Voxel 空间表示,可以用于占用预测。这些模块共同构成了DAOcc的基本网络架构,将在第3.2节详细阐述。

在基本网络的基础上,作者引入了BVRE策略(参见第3.3节)来补偿由于图像分辨率降低而产生的信息损失。该策略旨在通过从鸟瞰视角(BEV)拓宽感知范围来丰富空间上下文语义信息。此外,为了充分利用点云特征内的固有几何结构,作者将其作为辅助监督纳入。

这种辅助监督不仅增强了融合特征的可判别性,还导致了作者的提出的框架非常简洁的整体训练损失。

Basic Network

LiDAR编码器。 将原始LiDAR点嵌入3D Voxel 化特征的方法与BEVFusion [30]一致。作者首先 Voxel 化点云,保留每个 Voxel 中的最多10个点,从而得到一个大小为 的3D Voxel 网格。每个 Voxel 的特征表示由该 Voxel 内所有点的特征的平均值得到。接下来,作者应用3D稀疏卷积[52]来编码这些 Voxel 特征,生成空间压缩的LiDAR Voxel 特征 ,其中 表示特征维度。

摄像头编码器。对于图像特征提取,作者以环绕图像为输入,首先使用ResNet50 [11]作为 Backbone 网络来提取多尺度特征,表示为 ,其中 表示在 倍降采样后提取的特征。然后,作者使用特征金字塔网络(FPN)[25]作为 Neck 分来聚合这些多尺度特征。输出特征图 的形状为 ,其中 分别表示图像的输入分辨率, 分别表示通道数和环绕图像的数量。

投影与插值。对于图像相关的占用预测,关键的一步是将图像特征从2D图像平面转换到3D体积空间。大多数现有方法使用单目深度估计[12, 40, 46, 54]或变形注意力[41, 47, 48, 58]。然而,单目深度估计固有的问题是欠定问题[13, 20],而变形注意力则带来显著的计算负担[10]。鉴于这些限制,作者使用类似于Harley等人[9]的简单而有效的投影和取样方法。具体而言,作者首先预定义一个形状为 的3D Voxel 网格,其中 表示沿 轴的 Voxel 数量。每个 Voxel 的中点然后被投影到图像特征平面上,并且只保留位于图像特征平面和摄像机视场内的点。接下来,保留的点的子像素投影位置进行双线性插值,以生成对应于每个 Voxel 的图像特征。对于位于周围摄像机重叠视场内的 Voxel ,作者分别计算两个对应摄像机中的图像特征的平均值,以获得每个 Voxel 的最终特征。输出摄像机 Voxel 特征可以表示为

基于融合特征 , 作者进一步优化 通过 ResNet18 [11] 的三个模块,从而得到两个特征图 , 分别从第一个和最后一个模块提取,且具有两个尺度。然后,类似于 FPN [25], 作者对 进行双线性上采样,并将其与 沿着特征维度进行拼接。最后,作者使用卷积模块融合不同尺度的特征。经过优化的BEV特征可以表示为

Bvre







请到「今天看啥」查看全文