专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

UNCOVER 实现自动驾驶实时检测未知物体，增召回率，用深度图特征降近距误检 !

智驾实验室 · 公众号 · · 2025-03-10 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

自动驾驶（AD）在开放世界场景中运行，不可避免地会遇到未知物体。然而，标准目标检测器在有限的基本类别的训练数据上进行训练，往往会忽略任何未知物体，从而在道路上带来潜在的风险。

为了应对这一问题，重要的是从训练过程中遇到的目标中学习一个通用而非特定类别的目标性。

因此，作者引入了占用率预测以及边界框回归。它通过计算预测区域中实际目标占比来学习得分目标性。为了增强其泛化能力，作者利用Mosaic和Mixup增强技术来增加目标多样性。AD训练类别之外的目标被分类为一个新的新增出分布（OOD）类别。

作者的解决方案UNCOVER，即用于自动驾驶车辆实时检测未知类物体的方法，在具有挑战性的AD基准测试中能够实现实时检测和高未知物体召回率。

为了进一步降低错误检测率，特别是对于近距离物体，作者引入了一步步后过滤步骤，该步骤利用了从深度图中提取的几何特征，这些特征通常可以在AD系统中获得。

1 Introduction

目标检测是自动驾驶（AD）系统感知堆栈中的一个核心任务，在该任务中，模型被训练识别典型的AD类别中的物体，例如易受伤害的道路使用者、车辆、交通标志和交通灯。然而，仅仅在这些训练类上实现高检测性能是不够的；当一个物体妨碍了安全驾驶时，即使它是来自未知类别的物体即分布外（OOD）目标，也需要对其进行积极的检测。

对于AD而言，应对这种未知物体的检测尤其具有挑战性。由于自动驾驶车辆通常需要在有限的设备计算资源下迅速作出决策，因此必须以较小的复杂度和推理延迟增加来获得对未知目标检测的能力[13]。此外，提高未知物体的召回率不应损害已知类别的性能，并且更重要的是不应导致太多的假阳性检测，因为在AD场景中，它们同样可能造成危险，例如紧急制动系统。

当前关于在自动驾驶场景中识别未知物体的研究主要集中在语义分割领域，并依托于像Fishyscapes[1]和SegmentMeIfyouCan[5]这样的标准基准。与语义分割相比，目标检测通常需要较少的推理时间复杂度，并且可以单独定位每个实例。然而，对于为自动驾驶配备具有识别未知物体 Aware 的目标检测器的关注相对较少。除了自动驾驶领域之外，开放世界的目标检测利用训练集中未标注的目标，但在实际场景中，未知物体可能是完全新颖的。另外一些研究发现，有些不属于训练类别的物体仍然可能被目标检测器定位，但可能会错误地将其分类为已知类别。

类别的退化会降低检测性能[8]。作者的工作专注于提高未知目标的召回率，补充了这些努力。

针对实时性和低复杂度的需求，作者假设检测未知物体的关键在于从已有的训练目标中学习一种通用的目标感。在早期关于通用目标检测的研究[21, 18]中，交并比(IoU)分数最初被用于衡量边界框质量，并被用作检测未知物体的目标感衡量标准。在[23]中，这种IoU分数被添加到了单阶段目标检测器FCOs[35]中，用于实现对未知物体的多分类检测。在这项工作中，作者提出了一种新的目标感衡量标准。与IoU分数不同，作者提出的占用分数更少关注边界框的质量，这种质量通常需要高监督才能达到。

相反，它专注于评估预测区域是否包含一个或多个物体，从而放松了定位精度的要求。从图1可以看出，占用分数能够响应已知类和未知类中的物体，而对于像道路和天空这样的stuff类别则保持沉默。由于多样化的物体暴露有助于获得更通用的目标感理解，作者在AD训练中加入了来自MS COCO[26]和LVIS[15]的数据，并使用如Mosaic[2]和Mixup[41]等常见的数据增强技术来丰富AD训练的数据集。Mosaic技术可以将来自不同数据集的多张图像组合成一张图像，提供对OOD物体的暴露，而Mixup技术则是通过与另一张AD图像进行插值来缓解数据域之间的差距。对于AD训练案例之外的目标，作者在基目标检测器的分类头中引入了一个额外的类，即OOD类。

总体而言，作者的架构修改仅包括分类头中的一个额外类别以及回归头中的占用预测，导致复杂度略有增加。作者称该模型为UNCOVER。作者还提出了一个后续的可选过滤步骤。

深度信息通常在AD系统中可用，可以编码物体的几何线索，这补充了基于RGB的外观线索。应用经典计算机视觉算法进行深度变化检测[33,11]有助于去除鬼影目标检测（例如，画作或阴影），因为它们没有几何形状。

这种基于深度的过滤是一种可解释的算法，有助于减少近距离的误检，从而提高AD系统的安全性。这些架构改动和后续过滤设计为模块化，以方便采用，但研究表明，在结合使用时，UNCOVER可以获得最佳效果。

作者将评估范围扩展到包括异常分割基准[1, 5]，通过将相应的 Mask 标注转换为边界框格式进行分析，并在Cityscapes[7]和BDD100k[38]的特定区域中评估假阳性结果。

总之，本文为实时AD做出了如下贡献：

作者提出了一种新的解决方案UNCOVER，能够在实时检测中实现对未知目标的认知能力。该方法在Cityscapes [7]、BDD100k [38]、Fishyscapes [1] 和 SegmentMeIfyouCan [5] 上实现了未知物体的强大召回率，并且与Yolo World相比最多可提高25%的召回率，同时复杂度增加非常有限。
作者还提出了一种基于深度的后处理策略以减少假阳性检测。该策略基于可解释的经典计算机视觉技术，并可以应用于任何目标检测器。平均而言，作者能够将假阳性率降低18.4%，同时提升召回率4.1%。
作者扩展了异常分割基准用于评估。具体来说，作者将分割 Mask 用于目标检测，并定义了一个基于感兴趣区域的假阳性度量，例如基于道路 Mask 的可通行区域。

2 Related Work

AD中的异常分割为了提高AD的安全性，一项研究方向是对异常进行分割，生成场景中所有未知物体的二值 Mask 。与语义分割类似，生成的 Mask 并不单独定位每一个未知实例。由于高质量的语义分割通常依赖于重量级的像素解码器和高分辨率特征图，基于标准语义分割架构（如[34, 28, 30]）进行异常分割通常在计算效率上不如目标检测网络（如YOLO [3]）。而最近关于实时全景分割的研究[37, 39]旨在将一些分割任务，比如车道线检测，融入到目标检测中，并保持实时性能。然而，它们仍然缺乏异常分割的能力。作者的方法基于目标检测。受异常分割的启发，作者引入了一个占有率分数来指示预测的边界框是否包含部分物体。如图1所示，占有率图可以区分前景事物和背景元素，无需进行像素级分割，并且不限于道路外的OOD检测。

目标检测主要针对两类任务，即分类和定位。未知目标仍然可能被定位。若缺乏对未知目标的认识，这些未知目标将会被映射到训练类别中，从而降低已知类别的平均精度[8]。因此，一项研究方向专注于避免这种误分类问题，通过采用图像 Level 的OOD检测技术，在目标检测器的分类头中更好地将新型目标与训练类别区分开来[10, 9]。作者关注的是一个不同的挑战，即提高未知目标的召回率，因为这些目标甚至可能一开始都没有被定位。错误地将一个未知的风险性目标分类为交通参与者类别，也可能导致类似的规划和决策制定。忽视它们可能会更加关键。

为了应对封闭世界的假设，该领域已经转向了开放世界目标检测，重点在于逐步学习给定数据中的新目标。然而，未知目标可能与原始数据差异很大，因此仅在给定的数据内部进行泛化是不够的。此外，先前的工作通常采用了两阶段的目标检测器，例如Faster-RCNN[31]，而一些较新的工作则转向了基于 Transformer 的架构，如DETR[4]。

然而，这两种架构都不适合当前的实时系统。[23]的工作扩展了一种one-stage的Anchor-Free目标检测器（FCOs），用于开放世界目标检测，并使用了[21]最初提出的位置质量分数。与[23]类似，作者旨在寻找实时解决方案。作者提出了一种新颖的目标性度量方法，即通过占用预测来实现，而不是使用位置质量度量，因为后者偏向于已知的目标。

3 Method

作者的方法UNCOVER旨在为实时目标检测系统提供对未知物体的认识能力。图2展示了UNCOVER的三个主要方面。该模型包含一个额外的类别以及一个占用预测头，并通过混合AD数据和其他领域数据进行训练，以提高训练时的目标多样性。在推理阶段（第一阶段），新学习到的占用预测作为物体性的度量指标，从而提升未知物体的召回率。鉴于AD系统通常会为场景提供深度信息，作者还提出了一种简单且可解释的基于深度的过滤方法，用于减少假阳性检测，即第三阶段。

3.1 Preliminary

作者在现代的、一阶段的、Anchor-Free目标检测器的基础上展示了作者的设计，因为它们具有实时处理能力和较强的性能。以YOLOX [14] 和 YOLOv8 [19] 为例：这两者都采用了 Backbone 网络和 Neck 网络，后面跟着两个独立的头，即一个是分类头，另一个是回归头。分类损失基于二元交叉熵，并对所有类别求平均。

除了用于学习边界框坐标的回归损失外，YOLOX还在回归分支中增加了一个额外的预测输出，称为分值。它基于是否有匹配的Ground Truth边界框来进行每个检测的分类；其训练损失也基于二元交叉熵。作者在此基本架构上进行了修改，进行了描述。

3.2 Unknown Object Detection (Phase I and II)

为了实现 OOD 目标的高召回率，UNCOVER 1 ) 利用了其他领域带有 OOD 类别的数据，2) 训练了一个占用概率预测模型，并且 3) 根据占用分数进行过滤。

3.2.1 Extra OOD Class and Mosaic+

UNCOVER 引入了一个额外的类别，称为 OOD 类别，使得检测可以被分类为“未知”类别。由于训练集不包含任何 OOD 标注，作者包括了其他数据集 [26, 15]，这些数据集对 AD 数据集的训练类之外的目标进行了标注。需要注意的是，这些数据集中也存在与 AD 数据集具有相同语义类别的目标。这些目标仍然会在分类头中与相应的已知类别一起进行训练。

为了无缝地将新数据纳入训练过程，作者扩展了最初由 YOLOv4 [2] 引入的强大数据增强方案 Mosaic。Mosaic 将多个图像拼接成一个图像，极大地提高了训练数据的多样性。作者的改进是从两个不同的来源获取图像，即 Mosaic+ 如图2 所示。

使用来自不同领域的数据引入了领域差距 [40]，这可能会影响使用外部数据集（如 MS COCO [26]）在 AD 上训练异常分割的有效性。为了弥合这一差距，作者在 Mosaic+ 后面采用了 Mixup，通过融合合成图像和一个 AD 场景图像，借鉴了 YOLOX [14] 中的技术。

3.2.2 Occupancy Prediction

尽管MS COCO [26]和LVIS [15]的数据集包含更多的目标类别，相较于AD数据集，但在两个数据集中，OOD类仍然不可避免地会对特定类别的样本过度拟合。

因此，作者在回归分支中引入了占用率预测，并通过这种监督方式以类无关的方式评估目标性。这样，即使分类置信度较低，作者也可以决定是否保留得分较高的检测结果。为了衡量目标性，IoU预测通常被使用 [21, 18]。在YOLOX的上下文中，这可能是Obj.分数 [14]。这两种评分方法都是为测量定位质量而开发的，可能对模型预期表现较差的未知物体不够敏感。

与使用检测质量度量作为目标性的 Agent 不同，作者引入了一个占用预测分数。该分数衡量预测区域与地面truth边界框重叠的比例。具体地，基于二元交叉熵的训练损失表示为：

其中，是目标值，是占用预测。这里，表示像素面积，是预测的边界框，