专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
河北交通广播  ·  【992 | 热点】要放假了!购票日历出炉→ ·  15 小时前  
河北交通广播  ·  知名车企宣布将裁员约7500人 ·  2 天前  
河北卫视  ·  中华好家风 | 千年戏韵,传承不息 ·  2 天前  
河北交通广播  ·  【992 | 关注】时间定了!油价将大幅调整! ·  3 天前  
51好读  ›  专栏  ›  智驾实验室

重磅!首个3D目标检测开源自动驾驶基准OpenAD来袭,集成方法破现有精度难题,速看!

智驾实验室  · 公众号  ·  · 2025-03-12 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

开源自动驾驶涵盖领域泛化和开放词汇。领域泛化指的是自动驾驶系统在不同场景和传感器参数配置下的能力。开放词汇涉及在训练过程中未遇到的各种语义类别识别能力。

在本文中,作者介绍了OpenAD,这是首个针对3D目标检测的开源自动驾驶领域泛化基准测试。OpenAD建立在结合多模态大型语言模型(MLLM)的角点案例发现和标注 Pipeline 上。

所提出的 Pipeline 为五个自动驾驶感知数据集(每个数据集包含2000个场景)中的角点案例物体提供统一的标注格式。

此外,作者制定了一系列评估方法和评估各种2D和3D开源和专用模型。

此外,作者提出了一种以视觉为中心的3D开源目标检测 Baseline ,并进一步引入了一种集成通用和专用模型的增强方法,以解决现有开源方法在OpenAD基准测试中精度较低的问题。

数据、工具包代码和评估代码已在 https://github.com/VDIGPKU/OpenAD 上发布。

1 Introduction

随着自动驾驶系统的快速发展,开放式世界感知已经引起了研究界的广泛关注和日益增长的关注。开放式世界感知旨在开发一个能够在新颖领域、多种传感器配置和各种特殊情况物体上表现出强大性能的模型。开放式世界感知中最重要的两个因素是领域泛化和开放式词汇。

域泛化是指模型在面临训练域之外的新场景时的性能。要实现第四级自动驾驶,解决域泛化问题至关重要。在自动驾驶3D感知领域,当前评估场景泛化的方法[1, 29]包括在特定数据集上进行训练,然后将训练好的模型转移到不同的数据集进行后续测试。

开源词汇表示感知模型对于在训练领域中未出现或 未标注 的语义类别的识别能力。开源词汇感知是自动驾驶系统后续推理和规划的基础。例如,确定一个物体是否可碰撞、是否可能会突然移动,或者是否表示某些周围区域不可穿越,首先需要对物体进行准确的语义描述。

许多工作已经提出了解决这两个问题的方法。然而,在开发开放世界感知模型时,研究行人面临三个挑战。第一个挑战是自动驾驶的3D开放世界感知中缺乏评估基准。具体来说,目前缺乏一个用于跨域评估的统一基准,由于单个数据集的格式不同,研究行人必须在格式对齐方面投入大量的工程工作。此外,当前的3D感知数据集具有有限的语义类别,缺乏对当前开放词汇3D感知模型的有效评估。

第二个挑战是受限于公开可用的3D感知数据集的规模,训练开放世界感知模型存在困难。尽管近年来,一些开放世界自然语言模型和2D感知模型利用大规模互联网数据进行训练。如何将这些模型的能力或2D数据转移到3D开放世界感知是一个重要且及时的研究问题。

最后一个挑战是现有开放世界感知模型的相对较低的精度。虽然专门针对自动驾驶感知数据集训练的模型缺乏泛化到开放世界的能力,但它们对可见类别具有更强的预测能力,并取得了良好的性能。这表明,作为专门模型,开放世界感知模型的低精度限制了其在实际应用中的使用。因此,当前的开放世界感知模型尚不能在实践中替代专门模型。

针对上述挑战,作者提出OpenAD,一个面向3D目标检测的开放世界自动驾驶基准测试。作者将五个现有自动驾驶感知数据集的格式进行对齐,选择2000个场景,使用MLLM为数千个角点案例物体进行标注,并开发开放世界评估指标以克服第一个挑战,即评估基准测试的稀缺性。然后,作者通过利用现有2D开放世界感知模型,提出一个以视觉为中心的3D开放世界目标检测 Baseline ,以解决第二个挑战。最后,作者进一步设计一种融合方法,通过利用开放世界感知模型的优势(或通用模型)和专用模型来提高3D开放世界感知结果,以解决最后一个挑战。

本工作的主要贡献如下:

  1. 作者提出一个开放式世界基准,用于同时评估目标检测器的域泛化能力和开放式词汇能力。据作者所知,这是第一个针对3D开放式世界目标检测的真正现实场景自动驾驶基准。
  2. 作者设计了一个结合MLLM的标注流水线,用于自动识别特殊情况场景并为异常物体提供语义标注。
  3. 作者提出了一种基于2D开放世界模型的3D开放世界感知 Baseline 方法。此外,作者还分析了开放世界和专用模型的优势和劣势,并进一步引入了一种融合方法,以充分利用两者的优势。

2 Related Work

Benchmark for Open-world Object Detection

2D 基准。多种数据集被用于 2D 开放词汇目标检测评估。最常用的是 LVIS 数据集 [24],包含 1,203 个类别。

在自动驾驶领域,如表1所示,许多数据集也被提出。其中,CODA [34] 是一个用于2D目标检测的自动驾驶道路拐角案例数据集,包含1,500个包含边界框标注的2D场景,共34个类别。然而,一些数据集只提供语义分割标注,没有具体实例或将物体标注为异常,缺乏语义标签。此外,从实际驾驶数据收集的数据集规模较小,而来自模拟平台如CARLA [18]的合成数据缺乏现实感,难以进行有效评估。相比之下,作者的OpenAD提供来自实际数据的大规模2D和3D边界框标注,以进行更全面的开放世界目标检测评估。

3D 基准测试可以分为两类:室内和室外场景。

对于室内场景,SUN-RGBD [54] 和 ScanNet [17] 是两个常用于开放世界评估的现实世界数据集,分别包含约700和21个类别。对于室外或自动驾驶场景,AnoVox [6] 是一个合成数据集,用于开放世界评估,包含35个类别的实例 Mask 。然而,由于模拟资产有限,合成数据的质量和实例多样性不如现实世界数据。除了 AnoVox 之外,现有的自动驾驶真实数据3D目标检测数据集 只包含几个物体类别,难以用于评估开放世界模型。

为了解决这个问题,作者提出了 OpenAD,该数据集由现实世界数据构建而成,包含自动驾驶场景中出现的206个不同角落物体类别。

2D Open-world Object Detection Methods

为了处理跨分布(Out-of-Distribution,简称OOD)或异常检测,早期的方法通常采用决策边界,聚类等,以发现OOD目标。最近,方法采用文本编码器(例如CLIP[52],下文简称文本编码器),将对应类别标签的特征与边界框特征对齐。具体而言,OVR-CNN[68]将图像特征与标题嵌入对齐。GLIP[35]将目标检测和短语定位统一用于预训练。OWL-ViT v2[47]使用预训练检测器在图像-文本对上生成伪标签,以扩充检测数据用于自训练。YOLO-World[15]采用YOLO型架构进行开放词汇检测,并实现了良好的效率。然而,这些方法在推理时都需要预定义的目标类别。

近年来,一些开放式方法[16, 40, 66]提出利用自然语言解码器提供语言描述,从而使它们可以直接从感兴趣区域(RoI)特征生成类别标签。更具体地说,GenerateU [16]引入了一个语言模型,可以直接从感兴趣区域生成类标签。DetClipv3 [66]引入了一个物体描述生成器,在推理过程中生成类标签和图像 Level 的描述,用于训练。VL-SAM [40]引入了一个无需训练的框架,使用注意力图作为 Prompt 。

3D Open-world Object Detection Methods

相比之下,3D开放世界目标检测任务更具挑战性,因为训练数据集有限且3D环境复杂。为了解决这个问题,大多数现有3D开放世界模型利用预训练的2D开放世界模型或利用丰富的2D训练数据集。

例如,一些室内3D开放世界检测方法,如OV-3DET [43]和INHA [30],使用预训练的2D目标检测器来指导3D检测器寻找新目标。同样,Coda [10]利用3D框几何先验和2D语义开放词汇先验来生成新类别的伪3D框标签。FM-OV3D [69]利用稳定扩散来生成包含OOD目标的数据。

对于室外方法,FnP [19]使用区域VLMs和贪婪 Box 寻求器在训练过程中为新类别生成标注。OV-Uni3DETR [57]利用其他2D数据集的图像和由开放词汇检测器生成的2D边界框或实例 Mask 。

然而,这些现有的3D开放词汇检测模型在推理时需要预定义的目标类别。为了解决这个问题,作者引入了一种以视觉为中心的开放式3D目标检测方法,该方法在推理过程中可以直接生成无限类别标签。

3 Properties of OpenAD

Scenes and Annotation

OpenAD中的2000个场景是从五个大规模自动驾驶感知数据集[58] Argoverse 2[21]、KITTI[9]、nuScenes[46]、ONCE[55]和Waymo[55]中精心挑选的。这些场景来自不同的国家和地区,具有不同的传感器配置。每个场景都包含时间相机和激光雷达输入,并且至少有一个原始数据集未标注的角点案例物体。如图2所示。

对于3D边界框标签,作者在这些2000个场景中标注了6,597个角案例物体,并结合原始数据集中的13,164个普通物体的标注,总共产生了19,761个物体。所有物体的位置和大小都使用3D和2D边界框手动标注,而它们的语义类别则使用自然语言标签表示,可以分为206类。

图1中展示了部分角案例物体。OpenAD涵盖了常见物体的异常形式,如挂在汽车后部的自行车,门开启的汽车,带有雨罩的摩托车,以及地面上的敞口井盖,还包括不常见的物体,如敞开的井盖,水泥块,以及散落在地上的纠缠的电线。

同时,作者对每个目标都添加了“可见/不可见”的标签,表示目标的类别是否出现在每个数据集的训练集中。这个标签的目的是通过直接区分模型已遇到(可见)和未遇到(不可见)的目标,以便在指定训练数据集后简化评估过程。此外,作者还提供了一个工具包代码,将五个原始数据集的场景整合为一个统一的格式,转换为OpenAD数据,并简化了加载和可视化过程。

Evaluation Metrics

开源的AD(自注意力机制)提供了对2D和3D开放世界目标检测的评估。

平均精确度(AP)和平均召回率(AR)。计算AP和AR取决于真阳性(TP)。在OpenAD中,TP阈值融合了位置和语义得分。只有同时满足位置和语义阈值的物体预测才能被视为TP。对于2D目标检测,与COCO一致,采用交点与 Union(IoU)作为位置分数。作者使用CLIP模型的特征余弦相似度作为语义分数。在计算AP时,使用0.5到0.95的IoU阈值,步长为0.05,以及0.5、0.7和0.9的语义相似度阈值。

对于3D目标检测,作者采用中心距离作为位置得分,这与nuScenes的做法一致,并使用与2D检测任务相同的意义得分。类似于nuScenes,作者在计算AP时采用多阈值平均方法。具体来说,作者计算在12个阈值上的AP,将0.5m、1m、2m和4m的定位阈值与0.5、0.7和0.9的语义相似度阈值相结合,然后对这些AP值进行平均。

同样的原理也适用于计算2D和3D目标检测任务中的平均召回率(AR)。AP和AR仅针对前300个预测值进行计算。

平均翻译误差(ATE)和平均尺度误差(ASE)。遵循nuScenes,作者还将使用回归指标评估TP物体的预测质量。平均翻译误差(ATE)表示在2D中为像素测量,在3D中为米测量。平均尺度误差(ASE)在调整预测物体的中心和方向以及真实物体的中心和方向后,计算为

内/外域 & 可见/未见 AR。







请到「今天看啥」查看全文