专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

八种损坏情境下,RoboBEV 如何测试 BEV感知算法的极限 ?

智驾实验室  · 公众号  ·  · 2024-08-09 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

最近在鸟瞰图(BEV)表示方面取得的进展为车辆内的3D感知展示了极大的潜力。

然而,尽管这些方法在标准基准测试上取得了令人印象深刻的结果,但它们在多变条件下的鲁棒性仍然没有得到充分的评估。

在本次研究中,作者提出了RoboBEV,一个旨在评估BEV算法韧性的广泛基准测试套件。

这个套件包含了多种相机退化类型,每种类型都在三个严重程度 Level 上进行考察。作者的基准测试还考虑了在使用多模态模型时完全传感器故障的影响。

通过RoboBEV,作者评估了33个最先进的基于BEV的感知模型,这些模型涵盖了检测、地图分割、深度估计和占用预测等任务。作者的分析揭示了模型在分布内数据集上的性能与其对分布外挑战的韧性之间的明显相关性。

作者的实验结果还强调了如预训练和无需深度的BEV转换等策略在提高对分布外数据的鲁棒性方面的有效性。

此外,作者观察到,利用广泛的时间信息可以显著提高模型的鲁棒性。基于作者的观察,作者设计了一个基于CLIP模型的有效鲁棒性增强策略。

这项研究的见解为未来BEV模型的开发奠定了基础,这些模型能够将准确性与现实世界的鲁棒性无缝结合。

基准测试工具包和模型预训练权重可在以下链接公开获取:https://github.com/Daniel-xsy/RoboBEV。

1 Introduction

基于深度神经网络的3D感知方法已经取得了变革性的突破,在一系列具有挑战性的基准测试中表现出色。在这些方法中,以相机为中心的方法比以激光雷达(LiDAR)为驱动的方法更受欢迎,这主要归因于其部署成本降低、计算效率提高以及能够提供密集的语义信息。许多这些进步的核心在于鸟瞰图(BEV)表示,它提供了三个重要优势:

  • 它便于从多视角图像中统一学习。
  • 它鼓励在时间实例间融合信息的物理可解释方法。
  • 它的输出领域与多个下游应用(如预测和规划)无缝对接,这加强了基于视觉的3D感知框架的性能指标。

然而,这个兴起的BEV感知方法领域并非没有挑战。尽管这些算法表现出明显的优势,但它们在面对非上下文或无法预见的场景时的韧性仍然没有得到充分研究。这种疏忽尤其令人担忧,因为许多这些算法预计将在自动驾驶等安全关键领域发挥作用。传统上,算法的鲁棒性可以分为对抗性鲁棒性——涉及最坏情况下的场景——以及分布偏移下的鲁棒性,后者考察的是平均情况下的性能,并在一定程度上反映了现实世界的条件。

虽然已经研究了3D感知模型的对抗鲁棒性,但这项工作旨在探索一条少有人走的路:当受到自然且往往不可预测的污染时,以鸟瞰图(BEV)为中心的3D感知系统的鲁棒性。在这项工作中,为了解决现有的知识空白,作者提出了一个全面基准测试,名为 RoboBEV 。这个基准测试评估了BEV感知在应对包括外部环境、内部传感器和时间因素等自然污染时的鲁棒性。

具体来说,外部环境包括通过融入 Brightness(亮度) 、 Dark(黑暗) 、 Fog(雾) 和 Snow(雪) 等污染类型模拟的各种光照和天气条件。此外,输入可能还会受到由传感器引起的内部因素污染,例如 Motion Blur(运动模糊) 和 Color Quant(颜色量化)。作者进一步提出了两种针对基于BEV的时间融合策略量身定制的连续空间新颖污染,分别为 Camera Crash(摄像头故障)和 Frame Lost(帧丢失) 。

此外,考虑到在多模态输入上训练的摄像头-LiDAR融合模型完全传感器故障的情况。该研究涉及对各种分布外污染设置的综合调查,这些设置与真实世界的自动驾驶应用高度相关。图1总结了作者在基准研究中涉及的多样BEV感知任务和污染类型。

利用提出的 RoboBEV 基准,作者对在不同严重程度污染下的33个BEV感知模型进行了详尽的分析。

最后,基于观察结果,作者建议通过利用CLIP[113] Backbone 网络并将其适配到BEV感知任务来提高模型的鲁棒性。这项工作的主要贡献总结如下:

  1. 作者介绍了RoboBEV,这是一个全面的基准测试套件,用于评估在多种自然损坏情况下BEV感知的鲁棒性。
  2. 作者在广泛的实验中评估了30种基于相机的和3种基于相机与激光雷达融合的BEV感知算法的性能。这些算法在八种不同的损坏情况下进行评估,每种损坏情况分为三种不同的严重程度,总计四个感知任务。
  3. 作者的研究通过深入分析在损坏场景下对鲁棒性有贡献的因素,为未来模型设计提供了有价值的见解。

作者的主要观察结果是:

i) 绝对性能与在损坏情况下的性能有很强的相关性。然而,相对鲁棒性并不一定会随着标准性能的提高而增加;

ii) 模型预训练结合无需深度的BEV转换在提高鲁棒性方面具有巨大潜力;

iii) 利用长时丰富的时序信息可以大大增强鲁棒性。

根据作者的观察,作者建议使用CLIP [113] 模型作为主干网络,进一步改进BEV感知模型的鲁棒性。 作者将数据集和基准测试工具公开,旨在鼓励研究界复制和扩展作者的发现。

本文的其余部分组织如下。第2节回顾了与视觉中心化和基于激光雷达的BEV感知、分布外鲁棒性以及使用CLIP增强鲁棒性相关的研究文献。第3节提供了基于BEV感知任务的必要预备知识。第4节详细阐述了作者的基准设计及鲁棒性度量。第5节包含了广泛的实验研究。基于结果,作者在第6节进行了分析和观察。最后,第7节讨论了潜在的局限性并提出了结论性评论。

2 Related Works

在本节中,作者回顾了与鸟瞰图感知、分布外鲁棒性和流行的鲁棒性增强策略最相关的工作。

Camera-Based BEV Perception

BEV感知方法可以根据它们对深度估计的明确性分为两个主要分支[6]。一部分文献,如受LSS[24]影响的BEVDet[3],采用辅助深度估计分支来促进从透视视图到鸟瞰视图(PV2BEV)的转换。

BEVDepth[22]改进了这一范式,利用来自点云的显式深度数据提高深度估计的准确性。同时,BEVerse[51]引入了一个多任务学习框架,取得了标杆性的成果。相比之下,另一种研究轨迹避免了明确的深度估计。

从DETR[21]汲取灵感,像DETR3D[4]和ORA3D[52]这样的模型将3D目标封装为 Query ,利用Transformer的交叉注意力机制。此后,PETR[7]通过制定3D位置感知表示来提升性能。

同时,BEVFormer[2]和PolarFormer[53]分别探索时间交叉注意力和基于极坐标的3D目标预测。借鉴Sparse RCNN[56]的方法,SRCN3D[54]和Sparse4D 开创了稀疏 Proposal 进行特征融合。

同时,SOLOFusion 追求更深的历史数据集成进行时间建模。除了检测之外,BEV感知任务还包括地图分割、多视图深度估计[70]和语义占用预测。尽管这些方法在原始数据集上展示了令人印象深刻的成果,但它们对自然损坏的鲁棒性仍然是一个谜。

LiDAR-Based 3D Perception

激光雷达(LiDAR)通过激光束精确捕捉空间关系,为3D感知领域带来了突破,这对于自动驾驶等应用至关重要[11]。

两项主要任务备受关注:3D目标检测和激光雷达语义分割,这两者都与鸟瞰图(BEV)感知有内在联系。在3D目标检测领域,研究重点一直是如何最优地表示激光雷达点云数据[32]。基于点的方法,如[88, 89, 90, 91]中提出的,在保留点云固有的几何特性、捕捉局部结构和模式方面表现出色。同时,基于 Voxel 的方法,将不规则的点云转换为结构化网格,依靠稀疏卷积技术有效地处理非空 Voxel 。基于柱状的方法,如[29, 95]所示,通过微调垂直分辨率,在检测精度和计算速度之间取得平衡。此外,混合方法,如[96, 97],结合了点和 Voxel 表示的优势,以获得更丰富的特征。

另一方面,语义分割技术通常取决于表示选择。原始点方法,强调直接使用不规则的点云,而范围视图方法,将这些点云转换为2D网格。这种转换与BEV感知紧密相关,将3D数据转换为俯视视角,这对许多应用至关重要。进一步细化这一想法的是鸟瞰技术,如所示,它提供了直接的2D俯视表示。

以 Voxel 为中心的方法,保持了3D空间结构,通常优于其他单一模式。现代研究,通过探索多视图融合,寻求利用不同表示的互补优势,推动边界。总的来说,尽管与BEV感知相关的激光雷达3D感知方法已经显示出巨大潜力,但它们在现实世界条件下的适应性需要更深入的研究和验证。

Robustness under Adversarial Attacks

现代神经网络虽然在展示惊人的能力的同时,仍然对抗击性攻击保持脆弱性,其中精心设计的输入扰动可以引发错误的输出。对抗性样本的梗已经成为各个视觉领域的研究中心:分类,检测,以及分割。这些对抗性刺激既可以在数字领域中出现,也可以在现实世界环境中出现。令人担忧的发现揭示,对抗性样本可以破坏3D感知系统,在实际部署期间引发潜在的安全问题[14, 19, 20]。虽然Xie等人[62]深入研究了以摄像头为中心的检测器的对抗鲁棒性,但作者的关注点转向了更为普遍的自然腐败问题。

Robustness under Natural Corruptions

评估模型对干扰的抗力已经作为一个关键的研究领域迅速发展。有几个基准测试,如ImageNet-C [50],ObjectNet [60],ImageNetV2 [59]等,用于评估2D图像分类器对抗各种干扰的鲁棒性。例如,ImageNet-C通过添加压缩伪影和运动模糊等模拟异常来污染原始的ImageNet样本。另一方面,ObjectNet [60]提供了一个富含旋转、背景和视角变化的测试集。Hendrycks等人[58]强调人工合成干扰鲁棒性与现实世界情景改进之间的相关性。近期,一些研究[76, 79, 80]努力提高3D感知模型的鲁棒性。Kong等人[85, 86]为在干扰下的单目深度估计建立了鲁棒性基准。Ren等人[87]设计了对室内以目标为中心的点云和CAD模型的原子干扰,以理解分类器的鲁棒性。然而,关于3D BEV感知模型的基准测试仍然是一个空白,这些模型在安全性敏感的应用中起着关键作用。虽然Zhu等人[73]的同期研究探索了类似领域,但他们的研究主要关注对抗性的问题。相比之下,作者的基准测试涵盖了模型、任务、场景和验证研究,为这个领域提供了更广泛和更全面的视角。

Robustness Enhancements using CLIP

对比语言-图像预训练(CLIP)模型[113]已被证明与之前的在 ImageNet 上监督训练的模型相比,能显著提高模型的分布外鲁棒性。最近的研究开始探索为什么CLIP表现出卓越的鲁棒性,以及这种鲁棒性在微调后如何保持。特别是,[124]发现尽管端到端的微调可以增强在监督数据集上的分布内性能,但它也可能损害预训练CLIP模型的分布外鲁棒性。为了解决这个问题,他们采用了加权参数调整以实现性能和鲁棒性的双重目标。

鉴于CLIP的鲁棒性能,自然会产生一个问题:作者能否利用预训练的CLIP模型来增强鸟瞰图(BEV)感知的鲁棒性?在这项工作中,作者首次尝试研究如何保持预训练CLIP模型的鲁棒性。

3 BEV Perception Preliminaries

在本节中,作者详细描述了常用的鸟瞰图(BEV)感知算法技术,这些技术已经在标准数据集上显示出性能的提升。

Model Pre-Training

在过去的几年里,预训练增强了计算机视觉模型在多种任务上的性能。在由摄像头驱动的3D感知领域,使用FCOS3D[9]权重初始化ResNet主干网已经成为标准做法。为了稳定训练过程,FCOS3D在微调过程中将深度权重从0.2调整到1[9]。另一种流行的方法是在DDAD15M[64]数据集上训练VoVNet-V2[63]主干网,以目标深度估计,然后使用nuScenes训练集进行检测的微调。

从语义上讲,这些预训练技术分为两类:语义和深度预训练。

此外,M-BEV[114]引入了稳健的 Mask 图像预训练技术,旨在增强模型在缺失传感器数据的场景中的鲁棒性。

Temporal Fusion

自动驾驶领域的动态环境要求对移动实体的速度进行精确估计,这对于单一帧输入来说是一项挑战。这凸显了时间线索在提升视觉系统感知能力方面的重要性。先前的研究已经开创了各种方法来利用这些时间线索。例如,BEVFormer [2] 整合历史数据,并利用时间跨注意力机制从多时间戳图像中聚合鸟瞰图(BEV)特征。同时,BEVDet4D [44] 添加来自多帧的特征以融入时间细微差别,而SOLOFusion [65] 通过合并大量历史数据来追求更具包容性的时间建模。然而,这些复杂的时间模型在损坏条件下的鲁棒性在很大程度上尚未被探索。

Camera-LiDAR Fusion

BEV范式简化了来自多种输入模式特征融合的过程。尽管一些算法专注于仅从图像中构建BEV表示,但文献中有相当一部分工作,如,主张统一的BEV空间。这将对来自图像和点云的特征进行对齐。作者深入研究了这种多模态融合算法的性能,尤其是在图像被破坏,但激光雷达机制仍然正常的情况下。

此外,作者还解决了这样一个常见情景:模型使用多模态输入进行训练,但只在配备了其中一种传感器的车辆上部署。为了评估鲁棒性,作者在完全传感器失效的情况下评估模型的性能,即相机或激光雷达缺失的情况。

BEV View Transformation

关于BEV转换的工作可以根据对深度估计技术的使用进行分类[6]。一方,如文献中讨论的,在其系统中嵌入了一个独特的深度估计分支。鉴于从图像预测3D边界框的固有挑战,这些模型首先预测一个逐像素的深度图。然后这个图作为一个指南针,引导图像特征到它们正确的3D坐标。随后的BEV转换过程通常遵循自下而上的方法,如图[4]所示。

在光谱的另一侧是利用预定义的目标 Query [2, 4]或简化 Proposal 以自顶向下方式汇总2D特征的模型。尽管这两种范式在良性数据集上展示了它们的能力,但作者进一步扩大视野,通过检查它们在损坏数据上的有效性。

4 Benchmark Design

本节详细阐述了作者对BEV算法的基准设计。第4.1和4.2小节讨论了_nuScenes-C_基准数据集的创建和结构。第4.3小节说明了旨在评估模型对不同类型损坏的抗干扰能力的鲁棒性指标。

Dataset Generation

图2:不同损坏类型像素分布的直方图。尽管某些损坏类型在像素分布上表现出最小的偏移(例如,运动模糊),但值得注意的是,这些修改主要对鸟瞰图(BEV)感知系统的整体性能产生不利影响。

作者的主要 Proposal 是_nuScenes-C 基准数据集,这是通过对nuScenes数据集[1]的验证集引入损坏而创建的。作者的数据集包含了八种不同的损坏类型,模拟了外部环境元素、传感器引起的失真以及作者创新的时序损坏所带来的挑战。受到[50]的启发,作者将每种损坏类型分为三个强度层次:简单、中等和困难。这些严重程度确保了虽然存在挑战,但它们不会完全破坏性能,从而保持了作者的发现的相关性和完整性。此外,作者在每个严重程度内引入了变化以确保多样性。总的来说,作者的基准由866,736张图像组成,每张图像的分辨率为1600×900像素。

作者还考虑了在摄像机-激光雷达融合算法中模拟完全传感器失效的场景。在模拟摄像机缺失时,每个像素都设置为0。为了模拟缺失激光雷达读数,只保留了 度前向视场(FOV)内的数据点。这样的设计选择源于作者的观察,即当激光雷达读数完全缺失时,多模态训练的模型性能会显著下降。

Natural Corruptions

图1展示了作者对腐败分类法的视觉指南。总的来说,作者关注三个腐败类别。首先,由外部环境动态引起的一类,比如变化的照明或气象极端情况,通过 Brightness(亮度) 、Dark(黑暗)、Fog(雾)和 Snow(雪)进行模拟。考虑到大部分训练数据是在相对温和的条件下捕获的,在这些极端条件下测试模型至关重要。

其次,由传感器驱动的失真可能会破坏收集到的图像。高速运动可能导致模糊,或者为了节省存储空间而采取的图像量化策略。为了模仿这些现实世界的挑战,作者集成了 Motion Blur(运动模糊)和 Color Quant(颜色量化)。

最后,作者引入了相机故障,其中由于硬件问题,整个图像集或随机帧被省略。这通过作者新颖的 Camera Crash(相机崩溃) 和 Frame Lost(帧丢失) 腐败来捕捉。这些过程的可视化在图1中展示。作者在图2中可视化了合成图像上的像素直方图分析。一个值得注意的观察是,Motion Blur(运动模糊)腐败虽然诱导了最小的像素分布偏移,但仍然导致了性能显著下降。额外的实验发现和结果在第五章中详细讨论。

Robustness Metrics

作者遵循官方的nuScenes指标[1]来计算在 nuScenes-C 数据集上的鲁棒性指标。作者报告了nuScenes检测分数(NDS)和平均精度(mAP),同时还包括平均平移误差(mATE)、平均尺度误差(mASE)、平均方向误差(mAOE)、平均速度误差(mAVE)和平均属性误差(mAAE)。

为了更好地比较不同BEV检测器的鲁棒性,作者受到[50]的启发,基于NDS引入了两项新的指标。第一个指标是平均污染误差(mCE),用于衡量候选模型相对于 Baseline 模型的相对鲁棒性:

其中, 表示污染类型, 表示严重程度 Level ; 表示作者基准中污染类型的数量。需要注意的是,可以选择不同的 Baseline 模型。在本研究中,作者选择DETR3D [4]作为 Baseline ,因为它提供了出色的BEV检测性能。为了比较_nuScenes-C_与标准nuScenes数据集[1]之间的性能差异,作者定义了一个简单的平均恢复率(mRR)指标,该指标在三个严重程度 Level 上计算如下:

在作者的基准测试中,作者为每个BEV模型报告这两个指标,并根据它们来比较鲁棒性。

5 Benchmark Experiments

这一部分描述了在多种受损情况下的鸟瞰图(BEV)算法的鲁棒性评估。第5.1节详细介绍了实验设置和方法论。第5.2节讨论了仅使用相机的BEV模型在_nuScenes-C_数据集上的性能,突显了不同损坏对模型鲁棒性的影响。第5.3节探讨了相机-激光雷达融合模型对特定传感器损坏和完全传感器故障的适应性。最后,第5.4节评估了实验中使用的合成损坏的现实性和有效性。

Experimental Settings

在作者的研究中,只要有可能,作者会使用开源代码库提供的官方模型配置和公共预训练权重;作者还对额外的模型变体进行了最小程度的修改,以在受控设置下进行实验。为了方便访问所有模型







请到「今天看啥」查看全文