专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

DualBEV | 无需Transformer ,统一3D至2D与2D至3D视图转换,提升自动驾驶鸟瞰感知能力!

智驾实验室  · 公众号  ·  · 2024-06-27 08:00

正文

请到「今天看啥」查看全文


ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

基于摄像头的鸟瞰图(BEV)感知常常在采用3D到2D还是2D到3D视图转换(VT)之间纠结。3D到2D VT通常采用资源密集型的Transformer来建立3D和2D特征之间的稳健对应关系,而2D到3D VT则利用Lift-Splat-Shoot(LSS) Pipeline 以实现实时应用,可能会遗漏远处信息。为了解决这些局限性,作者提出了DualBEV,一个统一的框架,该框架使用基于共享CNN的特征转换,并融合了三种概率测量方法,同时适用于两种策略。通过在一阶段内考虑双视图对应关系,DualBEV有效地弥合了这些策略之间的差距,利用它们各自的优势。作者的方法在没有Transformer的情况下达到了最先进的表现,与LSS方法相比具有可观的效率,在nuScenes测试集上实现了**55.2% 的mAP和 63.4%**的NDS。 总之,利用CNN整合视图变换和BEV表示为自动驾驶技术的前沿发展提供了一个有前景的方向。 代码将在https://github.com/PeidongLi/DualBEV发布。

1 Introduction

在自动驾驶中,有效的鸟瞰图(BEV)目标检测依赖于通过VT模块实现的从视角到BEV空间的精确特征转换。当前的方法主要采用2D到3D或3D到2D的策略。在2D到3D方法中,密集的2D特征通过预测深度概率进行提升,但深度预测的固有不确定性可能会引入不准确,特别是在远距离区域。相反,3D到2D方法通常使用3D Query 来采样2D特征,利用Transformer[29]为3D和2D特征之间的每个对应关系学习注意力权重,同时引入了计算和部署的复杂性。

HeightFormer[32]和FB-BEV[16]探讨了将两种视角转换(VT)整合在一起的方法。通常,这些方法采用两阶段策略,这是由于双视角转换之间的特征变换不同所致。利用LSS特征来初始化基于Transformer的VT,这种策略受限于初始特征的表现,阻碍了双VT之间的无缝融合。此外,这些方法在实现自动驾驶中的实时部署方面仍然面临挑战。

在本文中,作者认为VT本质上在不同视角下建立3D和2D特征之间的对应关系,而LSS和Transformer是用于评估这些对应关系的不同方法。为了统一双重VT,作者提出了一个统一特征转换(如图1所示),适用于2D到3D和3D到2D的VT,通过三种概率测量来评估对应关系:

1) 鸟瞰图概率 ,旨在减轻空白鸟瞰图网格在特征构建中的影响;

2) 投影概率 ,它区分了多个对应关系,考虑到不同的3D点投影到同一个2D位置;

3) 图像概率 ,有助于在特征转换过程中排除背景特征。

应用这种统一的特征转换,作者揭示了一个常被忽视的方法:利用卷积神经网络(CNN)进行3D到2D的视点转换(VT),引入了 HeightTrans 。除了其卓越的性能外,作者还展示了通过预计算实现加速的潜力,使其适用于实时自动驾驶应用。同时,作者将这一特征转换整合到传统的LSS流程中,称为 Prob-LSS ,展示了其对现有检测器的通用性。

结合HeightTrans和Prob-LSS,作者的研究引入了DualBEV(见表1),这是一种创新方法,它在一阶段的方式中融入并考虑了来自BEV和透视视图的对应关系,消除了对初始特征的依赖。此外,作者提出了一种健壮的BEV特征融合模块,称为双重特征融合(DFF)模块。该模块通过利用通道注意力模块增强了双重BEV特征的整合,而空间注意力模块进一步帮助细化了BEV概率预测。DualBEV遵循“宽输入,严输出”的原则,利用精确的双视图概率对应来理解和表示场景的概率分布。

作者的主要贡献如下:

作者揭示了3D到2D与2D到3D视图转换(VT)之间的内在相似性,并识别出一个统一的特征转换,该转换涵盖了双视图转换。这种转换能够从鸟瞰图(BEV)和透视视图中精确建立对应关系,显著弥合了两种策略之间的差距。

作者提出了一种新颖的基于CNN的3D到2D VT技术,称之为HeightTrans。通过利用概率采样和预计算的查找表,HeightTrans能够有效地建立精确的3D-2D对应关系。

作者引入了DFF进行双视图特征融合。这种融合策略在一阶段内捕捉来自近距离和远距离区域的信息,从而显著提高了全面BEV特征的生成。

作者的高效框架DualBEV即便在没有Transformer的情况下,在nuScenes测试集上取得了令人瞩目的55.2%mAP和63.4%NDS的最新性能,这突显了在视图转换中捕捉精确的双视图对应关系的重要性。

2 Related Work

3D-to-2D View Transformation

OFT-Net[28]首次将采样方法整合到单目检测的3D到2D视觉转换中,通过聚集对应投影区域的图像特征来填充 Voxel 特征。最近的鸟瞰图(BEV)方法用 Transformer 扩展了几何投影,并利用交叉注意力机制,大致可以分为两个流派:明确的密集BEV Query 或隐含的稀疏目标 Query 。前者[15, 32, 37]构建了一个预定义的BEV空间,覆盖有限的3D范围,3D-2D对应关系严重依赖注意力机制,导致计算成本高昂。后者[30, 17, 18]采用可学习的目标 Query 来覆盖所有可能的目标 Proposal ,这个概念在像车道分割和3D占用预测这样的密集任务中难以应用。

相反,Simple-BEV[3]将3D Voxel 投影到图像上,并通过双线性采样特征,类似于OFT-Net的方法。它绕过了基于Transformer方法中呈现的可变形注意力[33]权重,转而使用卷积在高度维度上减少拼接的通道。然而,这种简单的无权重采样方法在延迟上仍然落后于基于2D到3D CNN的方法。在本文中,作者提出HeightTrans通过查找表直接在BEV网格中评估对应关系并求和特征,显著提高了这一策略的速度。

2D-to-3D View Transformation

一种流行的2D到3D视觉转换方法涉及通过像素级离散深度估计将多视角2D相机特征提升到3D,然后在3D空间通过柱状求和池化进行鸟瞰图(BEV)特征提取。这种典型方法最初由LSS[26]提出,并被后续许多研究[27, 7, 14, 13]所采用。BEVDepth[14]和BEVStereo[13]突出了准确深度估计的至关重要性,明确的深度监督提高了性能。然而,后续 阶段的效率仍然是一个显著挑战,通过如BEV Pooling[7, 14, 5]的创新得到了解决。BEVSAN[34]提出了一种切片注意力模块,以关注不同类别所在的不同高度切片。在同时期的工作中,SA-BEV[10]建议使用SA-BEVPool在BEV池化过程中忽略属于背景的点。作者的工作进一步将这一想法扩展到BEV空间,以忽略由于深度估计中的不确定性而产生的无效特征。

Fusion View Transformation

近期的方法,如HeightFormer[32]和FB-BEV[16],尝试将这两种方法融合在一起。HeightFormer在初始的鸟瞰图(BEV)特征上引入了一个高度预测器,使用可变形注意力进行特征采样以细化初始特征。HeightFormer通过基于第一阶段的特征生成第二阶段的特征并将它们结合在一起,展示了其融合能力。FB-BEV进一步扩展了这一概念,通过将FRPN[16]引入到第一阶段的BEV特征中,为Depth-Aware BEVFormer(DA-BEVFormer)选择有效的位置来生成第二阶段的特征。FB-BEV注意到了两种范例之间的差异,实现了一个两阶段的视觉转换(VT),利用了2D到3D和3D到2D的策略。作者的框架DualBEV进一步揭示了双重VT的内在同一性,有效地捕捉来自每个流的信息。此外,作者的方法提供了一个更轻量级且适合部署的替代方案,不使用Transformer。如图2所示,作者的方法以单阶段的方式融合了来自不同视图但共享相同变换的特征,消除了对初始BEV特征的依赖,并从更多的输入信息中受益。

3 Method

如图3所示,DualBEV Pipeline 从N个相机中通过图像 Backbone 网络提取图像特征 ,其中 是图像特征的大小。随后,使用SceneNet生成实例 Mask 和深度图 。SceneNet的结构与DepthNet[14]相似,只是增加了输出通道。与SA-BEV[10]一样,实例监督和深度监督都采用二元交叉熵(BCE)损失。

HeightTrans模块采用概率采样来获取图像特征。同时,Prob-LSS流遵循BEVPoolv2[5]中提出的方法,通过深度预测进行实例分割提升图像。这两个流的特征随后被送入DFF模块进行融合和鸟瞰图(BEV)概率预测。最后,将鸟瞰图概率应用于融合特征,以获得用于下游任务的最终鸟瞰图特征 ,其中 是鸟瞰图特征的大小。

HeightTrans

3D到2D视觉转换的基本原则围绕着选择要投影到图像空间的3D位置,并评估这些3D-2D对应关系。在关注显式生成鸟瞰图(BEV)特征的方法中,一旦确定了鸟瞰图网格的高度,预定义的BEV图有助于推导出2D位置。基于这一概念,作者的方法首先在预定义的BEV图内采样一组3D点。然后,仔细考虑并筛选这些采样的对应关系,通过在每个BEV网格内求和来生成BEV特征。

3.1.1 BEV Height

尽管现有的方法通常依赖于在BEV网格的高度范围内进行稀疏均匀采样以初始化3D点,但重要的是要认识到不同高度在3D空间中编码了不同的信息。受到BEV-SAN[34]的启发,HeightTrans引入了一种多分辨率采样策略,覆盖整个高度范围[-5m, 3m],在感兴趣区域(ROI) [-2m, 2m]内的分辨率为0.5m,该区域外为1.0m。这种采样策略增强了对可能在使用较粗分辨率时容易遗漏的小型物体的关注。与在投影的2D位置周围预测一组偏移量的可变形注意力方法不同,作者的方法由于在3D空间中采样点的数量增加,无需在图像空间中预测偏移量,从而允许预计算。

3.1.2 Prob-Sampling

在作者的预定义3D采样点集 中,后续任务包括获取每个位置的特征并权衡各种对应关系。对于一个在3D空间中的3D点 ,相机的 extrinsic 矩阵 和 intrinsic 矩阵 ,其投影产生了图像空间中相应的2D点 ,其中 表示该点的深度。

一个直接获取三维特征 的方法是使用双线性网格采样器 在投影位置 对图像特征 进行采样:

然而,预测的位置可能会落在背景像素上,这不仅没有用,还可能对检测造成误导。相反,作者使用从SceneNet得到的实例 Mask 来表示图像概率 ,作者将这个概率应用到图像特征上,以缓解这个问题。

为了区分多个3D点撞击同一2D位置,作者进一步使用由三线性网格采样器 在深度图 中获得的投影概率 来评估这些多个对应关系。

最后,为了解决空白鸟瞰图(BEV)网格对于检测没有提供有用信息的问题,作者引入了一个BEV概率 来表示BEV网格被占据的概率,其中 是在BEV空间中的位置。

3.1.2 Acceleration

BEVPoolv2[5] 利用预计算来确定从定义的视锥中在BEV空间内的3D点索引,其中在推理过程中图像特征索引和深度图索引保持固定。同样,作者可以通过用圆函数替换网格采样器后来构建查找表来加速作者的VT。等式5中的BEV特征可以简化为:

现在作者可以将每个鸟瞰图(BEV)网格中 个预定义点的特征进行求和,对应于 个相应的2D位置,以获得最终的HeightTrans特征,如下所示:

正如表1所示,这种表示与BEV池化相似。因此,作者可以通过将预定义的3D点投影到图像空间,然后计算特征图和深度图中的索引来建立查找表。与BEV池化不同,在作者的方法中,BEV图中的索引是恒定的。然后作者可以使用与BEVPoolv2[5]中相同的CUDA算子以及查找表来加速推理过程中BEV特征的计算。

Prob-LSS

传统的LSS流水线首先预测每个像素的深度概率,以便将其提升为视锥点,然后通过BEV池化将其投影到BEV空间。SA-BEV[10]引入了语义感知的BEV池化,以避免在图像空间中提升不相关的像素。然而,深度估计的内在不确定性可能导致BEV空间中存在多余的信息。

为了解决这个问题,作者进一步将BEV概率集成到LSS流程中,这被称为Prob-LSS。在位置 构建LSS特征的方式与方程7类似,可以表述如下:

其中 表示在位置 处的鸟瞰图(BEV)网格中投射的椎体点的数量。值得注意的是,对于每个鸟瞰图网格,HeightTrans 提供了一个恒定的数量,即 转换后的图像特征,而 LSS 根据提升的椎体提供动态的数量 特征。LSS 的这种动态特性作为对 HeightTrans 的补充。

Dual Feature Fusion

统一方程7和方程8,作者观察到在双重特征融合之后可以得到鸟瞰图(BEV)概率。受到CBAM[31]和AFF[2]框架的启发,作者提出了一个双重特征融合(DFF)模块,以有效地整合这些特征并预测BEV概率。DFF模块包括一个融合模块 ,它利用通道注意力为双重特征求和预测权重,以及一个空间注意力增强的ProbNet(SAE-ProbNet)来预测BEV概率 ,公式化表示为:

3.3.1 Fusion Module

如图4所示, 更专注于占据图像大部分像素的近处物体,而 倾向于包含远处物体的信息。这一观察表明,由LSS特征初始化的两阶段方法[32, 16]可能无法指导第二阶段的VT提取远处区域的特征。

为了应对这些挑战并获得健壮的鸟瞰图(BEV)表示,作者的融合模块 将双重特征进行拼接,并将它们输入到一个基于通道注意力(CAF)的融合模块中,以预测特征选择的亲和力。

融合特征 是通过以下方程获得的:

其中, 表示连接操作,而 代表100AF模块,它是根据图5所示对MS-CAM[2]进行修改得到的。这个融合阶段旨在通过学习权重软选择来自两个流的特征,增强近距离和远距离区域的表示。

4.2.2 BEV Probability Prediction

作者利用SAE-ProbNet预测的BEV概率 来整合 ,从而减轻空白BEV网格的影响。作者采用ProbNet来提取局部信息,作为局部流 。通过结合空间注意力模块来捕捉全局信息,作为全局流 ,进一步增强了预测效果。整个模块可以表述为:

如图5所示,局部流(ProbNet)采用 的卷积核来减少通道维度。随后,通过一个ResBlock-CBAM[31]模块和 的卷积操作来获得局部注意力。在BEV Mask 的监督下,ProbNet使用二进制交叉熵损失(BCE loss)和Dice损失[24],并且将BEV Centerness[35]也纳入损失中,以鼓励网络更多地关注远距离物体。另一方面,全局流采用 的卷积核来计算输入特征的平均值和最大值,从而在BEV空间扩大了感知场。这些流在通过sigmoid函数 之前进行合并。这一设计旨在使作者的模块具备捕捉局部和全局注意力的能力,从而增强BEV概率预测。

4 Experiments

Datasets and Metrics

作者在nuScenes数据集[1]上进行实验,这是一个广泛用于自动驾驶研究的基准。nuScenes提供了在城市驾驶场景中捕获的全面传感器数据,有助于对目标检测算法进行稳健评估。NuScenes检测分数(NDS)[1]作为官方度量标准来衡量3D检测的质量。NDS整合了平均精度(mAP)、平均平移误差(mATE)、平均尺度误差(mASE)、平均方向误差(mOE)、平均速度误差(mAVE)以及平均属性误差(mAAE),从而在性能的各个方面提供一个全面的检测质量度量。

Implementation Details

作者采用了ResNet-50[4]模型,其图像分辨率为704 256。在20个周期的训练阶段中,作者使用了CBGS [39]方法和64的批量大小,并采用了AdamW [23]优化器,学习率设为2 10 。应用了与BEVDet [7]一致的数据增强技术。作者的BEV网格大小设置为128 128,且未构建 Voxel 特征。对于测试集,作者使用VoVNet [11]模型,图像分辨率为1600 640,并将BEV网格大小调整为256 256。该模型仅用CBGS训练了8个周期,并且跟随BEVDet4D[6]方法,应用了8个之前的关键帧进行时间模块处理。所有的延迟测试都是在单个NVIDIA 3090 GPU上进行的。

Main Results

4.3.1 nuScenes val set

作者采用了结合了BEVPoolv2[5]的BEVDepth[14]作为 Baseline 方法。如表格2所示,DualBEV在单帧上比 Baseline 方法提高了1.0%mAP和1.8%NDS。对于多帧,DualBEV不仅以1.2%mAP和1.9%NDS超越了 Baseline ,而且比使用时序立体模块进行精确深度估计的BEVStereo[13]表现更佳。通过利用捕捉远处信息的HT特征,并与LSS特征有效融合,与SA-BEV[10]相比作者还有0.5%的NDS提升,与FB-BEV[16]相比有0.6%的NDS提升。

4.3.2 nuScenes test set

表3展示了DualBEV达到了最先进的表现,相较于VT领域之前的工作,取得了惊人的55.2%mAP和63.4%NDS。值得注意的是,作者的方法在mAP上比SA-BEV[10]高出了1.9%,比FB-BEV[16]高出了1.5%,在NDS上也分别超过了它们1.0%。此外,与专注于时序模块的SOLOFusion[25]相比,即使没有时序-立体模块,DualBEV仍保持了领先优势,在mAP上高出1.2%,在NDS上高出1.5%。进一步地,DualBEV在mAP上以0.9%的显著优势,在NDS上以0.7%的优势,超过了先前最先进的基于Transformer的VT方法SparseBEV[18],证明了在VT中揭示精确对应关系的关键作用。

Ablation Study

4.4.1 Impact of Each Component

作者首先在表4(a)中探讨了每个组件的影响。以BEVDepth[14]作为基准,最初将ProbNet集成以提供BEV概率结果,使mAP和NDS均提高了0.4%。结合HT特征使得mAP和NDS分别增加了0.4%,表明对Prob-LSS的补偿。随后,作者采用CAF模块从两个流中软选择特征,从而进一步使mAP提高了0.3%,NDS提高了0.1%。最后,通过在ProbNet旁边加入空间注意力模块,并采用SAE模块来改进BEV概率预测,作者的方法在NDS上实现了实质性的0.9%的提升。整体组件在mAP上提高了1.0%,在NDS上提高了1.8%。此外,作者还测试了从图像特征到包括深度估计的BEV特征的VT延迟。整个 Proposal 的组件仅增加了1.5ms的额外延迟,其中ProbNet占0.9ms。

4.4.2 Impact of Each Probability

表4(b)展示了每种概率测量对DualBEV的影响。在投影概率 旁边,加入图像概率 带来了0.7% mAP和1.1% NDS的显著提升,而引入BEV概率

这导致了mAP提高了0.4%,NDS提高了0.8%。这一观察表明,图像空间中背景像素的特征与BEV空间中空白网格的特征具有相当的不利影响。当同时应用这两个概率时,性能提升更为显著,mAP提高了1.0%,NDS提高了1.6%。然而,通过为每个像素采用统一分布来关闭 会导致性能显著下降,这表明 的重要性至关重要,它是LSS Pipeline 的基石。

4.2.2 Effect of Prob-Sampling

在表4(c)中,作者仅关注视图变换(VT)操作,使用BEVDet[7]作为基础检测器,将Prob-Sampling与其他方法进行了比较。在准确性方面,Prob-Sampling比FB-BEV[16]提出的1层深度感知空间交叉注意力(SCA )在NDS上高出2.4%,同时与Simple-BEV[3]中使用的双线性采样相比,NDS提高了1.4%。此外,Prob-Sampling在NDS上比BEV Pooling[5]高出0.8%。在推理延迟方面,Prob-Sampling采用预计算来加速,使其速度与BEV Pooling相当,相比于双线性采样有超过20倍的提升,相比SCA 则有40倍的提升。这突显了Prob-Sampling在BEV检测的准确性和延迟方面的竞争力。

4.2.3 Effect of Sampling Strategy in Height

在HeightTrans中,作者在高度范围内应用了多分辨率(MR)采样策略。作者评估了不同的采样策略,如表4(d)所示。在均匀采样8个点之后,性能几乎达到饱和。值得注意的是,与BEVFormer[15]中的4个均匀点相比,作者提出的方法在NDS上提高了0.6%,甚至相对于16个采样点也提高了0.2%。

4.2.4 Effect of Prob-LSS

作者提出的Prob-LSS方法,如表格1所示,扩展了LSS方法的表达方式。作者进一步检查了从BEVDet[7]开始,在没有任何辅助损失的情况下LSS方法的演变,如表格4(e)所示。SA-BEV[10]在基础版本上增加了实例分割,以过滤掉图像空间中的不相关信息。这一增加使得mAP提高了0.2%,NDS提高了0.5%。作者的方法进一步将这一想法扩展到BEV空间,以减轻不准确深度估计产生的无关BEV特征的影响。这一扩展使得mAP显著提高了0.6%,NDS提高了0.4%。

4.2.5 Effect of Fusion Strategy

表4(f)比较了不同的融合策略,用于HT特征和Prob-LSS特征。作者首先探讨了FB-BEV[16]中采用的细化策略,该策略利用Prob-LSS特征来预测HeightTrans的BEV概率。然而,这种细化策略在用于BEV概率预测时,其效果甚至比直接将两个特征相加还要差,NDS下降了0.4%。作者提出的DFF策略取得了显著的改进,比细化策略在NDS上高出0.8%。

Visualization

在图6中,作者展示了BEVDepth[14]与Dual-BEV之间的定性比较。作者的方法在近距离和中等距离上表现出卓越的性能,有效消除了虚假检测,并准确捕捉到障碍物的曲线,甚至是在断裂处(蓝色虚线矩形)。在远距离上,作者的方法还召回了一些遗漏的物体(橙色虚线矩形),这得益于HeightTrans的补偿作用。此外,作者的方法提供了关于小物体(紫色虚线圆圈)的精确信息,这在BEV中并不明显。

5 Conclusion and Limitation

在这项工作中,作者提出了一种新颖的方法,以统一适合3D到2D和2D到3D视图转换(VT)的特征转换,并结合预计算以增强速度。利用基于CNN的概率对应关系,HeightTrans和Prob-LSS有效地扩展了各自VT方法的能力。通过使用DFF进行双特征的一阶段融合,DualBEV捕捉了VT的精髓,并展示了为BEV表示揭示精确对应关系的有效性。此外,作者的方法灵活多变,可适用于BEV分割或3D占用预测等任务。

然而,作者框架当前的设计仅从当前帧推导所有概率,忽视了历史信息,并且没有充分利用时间模块。此外,正如在表4(c)中所示,在切换到均匀分布后观察到的性能显著下降,这表明作者的框架严重依赖于深度估计。

参考

[1].DualBEV: CNN is All You Need in View Transformation.



扫描下方二维码,添加 AI驾驶员

获取更多的 大模型 多模态 等信息









请到「今天看啥」查看全文