专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

单目3D目标检测测试时适应方法,显著提升 OOD 性能 !

智驾实验室  · 公众号  ·  · 2024-08-16 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

单目3D目标检测(Mono 3Det)旨在从单个RGB图像中识别3D物体。然而,现有方法常常假设训练数据和测试数据遵循相同的分布,这在现实世界的测试场景中可能并不成立。为了解决分布外(OOD)问题,作者探索了一种新的Mono 3Det适应范式,称为 完全测试时适应 。它旨在通过在测试时处理潜在的数据分布偏移,将训练有素的模型适应于 未标注 的测试数据,而无需访问训练数据和测试标签。

然而,在Mono 3Det中应用这一范式面临重大挑战,因为OOD测试数据导致目标检测得分显著下降。这种下降与现有检测方法预定义的得分阈值相冲突,导致严重的物体遗漏(即,罕见的阳性检测和许多假阴性)。因此,有限的阳性检测和大量的噪声预测导致测试时适应在Mono 3Det中失败。

为了处理这个问题,作者提出了一种新颖的 单目测试时适应( MonoTTA**)方法,基于两种新策略。

  1. 可靠性驱动的适应:作者经验性地发现_高得分物体仍然是可靠的_,并且优化高得分物体可以_增强所有检测的信心_。因此,作者设计了一种自我适应策略来识别可靠的物体以进行模型适应,该策略发现潜在的物体并减轻遗漏。

  2. 噪声防护适应:由于高得分物体可能稀缺,作者开发了一个负正则化项,通过负学习利用众多低得分物体,防止过度拟合到噪声和琐碎的解决方案。

实验结果表明,MonoTTA在OOD测试场景中为Mono 3Det模型带来了显著的性能提升,在KITTI上平均提高了约190%,在nuScenes上提高了198%。

1 Introduction

三维目标检测是计算机视觉领域的一项重要任务,目标是通过不同的传感器输入识别物体并确定它们的空间和尺寸属性。为了降低传感器成本,目前有一种趋势是通过单目三维目标检测(Mono 3Det)[2, 45]来实现自动驾驶系统,此时只提供一个单一的RGB图像和相机校准信息。尽管这一实际任务具有挑战性,但Mono 3Det方法在各种任务和数据集上已经取得了有希望的结果。在成功背后,一个共同的预设是假设测试图像与训练图像具有相同的分布。然而,在许多现实世界场景中,由于普遍的自然损坏,如天气变化、清晰度降低等因素引入噪声并导致未校准的相机,这个假设可能被无效化。在这种情况下,经过良好训练的模型常常由于训练图像和 未标注 测试图像之间的_data distributional shifts_而遭受巨大的性能下降。如图1所示,模型性能从分布内数据的46.2 mAP下降到雪天数据的0.3 mAP和雾天数据的7.2 mAP。考虑到Mono 3Det在自动驾驶中的广泛应用,由于分布外(OOD)测试数据导致的严重性能下降可能导致意外的交通事故并带来严重的安全风险。因此,处理Mono 3Det的OOD泛化问题至关重要。

在专门针对测试场景中的OOD挑战时,一种极具前景并逐渐获得关注的方法范式是_Test-Time Adaptation_(TTA),它试图通过实时将训练有素的模型适应于 未标注 的测试图像来解决数据分布偏移[27]。测试时训练(TTT)[36]是TTA在分类任务中的初步方法,通过调整训练有素的模型预测旋转,通过额外的模型训练,但其适应阶段的计算需求在Mono 3Det应用中是禁止的,特别是在自动驾驶中。为了提高效率,Tent[38]和EATA[28]被开发用于_Fully Test-Time Adaptation_(Fully TTA),其中只提供 未标注 的测试图像和训练有素的模型。此外,Ev-TTA[13]和SOD[37]分别设计了TTA方法来处理基于事件的物体识别和弱监督的显著目标检测。考虑到Mono 3Det对时间的限制,作者探索了完全TTA范式,它旨在实时处理OOD测试数据。

为了探究这一范式对于单目3Det的影响,作者深入研究了在测试场景中由于天气或摄像头导致的变异或污染物体的检测结果。具体来说,作者将训练有素的模型直接应用于KITTI验证集,该验证集已经人工注入了四种不同类型的与天气相关的污染,分别是亮度、霜冻、雾和雪。随后,作者绘制了它们的检测得分分布(见图1)。观察到当训练有素的模型直接应用于污染场景时,测试物体的检测得分往往会显著下降,而且在极端场景(雪)中高得分物体也很罕见。

这一现象表明:

  1. 预训练的单目3Det模型在处理OOD测试数据时,难以区分物体与背景,表现为大量的漏检和不确信的检测结果。

  2. 将现有的全量TTA方法直接应用于单目3Det只能获得次优性能,因为它们在缺乏足够高得分(阳性)检测结果的情况下优化模型存在困难,特别是在某些极端场景中。

为了在单目3Det中处理这个问题,作者提出了一个 单目测试时间适应(MonoTTA) 方法,包括可靠性驱动的适应和噪声防护适应策略:

  1. 可靠性驱动的适应。具体来说,数据分布偏移导致漏检和噪声检测结果,而作者的实证分析表明高检测得分物体仍然是可靠的(见图3(a))。此外,即使作者仅通过高得分物体优化模型(例如,大于或等于0.5),低得分和高得分物体的数量都会增加(见图3(b))。这些调查启发作者,相对于使用所有物体,利用高得分物体进行模型适应将是一种更可靠的方法来减轻数据分布偏移并发现潜在物体。因此,作者开发了一种在测试图像中识别可靠高得分物体的自适应策略,并设计自适应优化损失 以利用可靠子集进行模型适应,减轻了OOD测试数据的检测得分下降问题,并挖掘出更多潜在物体。

  2. 噪声防护适应。另外,数据分布偏移也可能导致高得分物体的稀缺,即大多数物体表现为低得分,如图3(a)中的“雪”场景。为此,作者开发了一个负正则化项,以负学习方式合理利用众多的低得分物体[14]。一方面,负正则化项 允许模型通过众多的噪声低得分物体进行适应。因此,模型可以在减轻分布偏移后获得更多高得分物体。另一方面,这个项还防止模型过度拟合到噪声和琐碎的解,即给一个物体的所有类别都分配高得分。

作者将主要贡献总结如下:

  1. 据作者所知,作者是首次探索完全测试时适应(Fully Test-Time Adaptation)来解决单目3D检测(Mono 3Det)的OOD泛化问题。作者展示了这个探索性的新范式可以在OOD测试场景中为Mono 3Det模型带来显著的改进,例如,在KITTI的13种OOD变化中,平均性能提升了**137% 244%**。
  2. 作者的实证研究揭示了一个重要的洞察:在高分目标在各种损坏中保持其可靠性的同时,优化这些高分目标可以显著提高所有检测中的模型置信度。这促使作者提出了第一个在Mono 3Det中有效的测试时适应方法(即作者的MonoTTA)。
  3. 在KITTI的13种损坏类型和nuScenes的2个真实场景(白天 夜间)上的大量实验,证明了作者的MonoTTA在提升现有Mono 3Det方法[31, 51]以处理测试时OOD问题方面的有效性。即使是对于实例 Level 的方法[43],MonoTTA也能保持足够的改进,这进一步证实了其实用性。

2 Related Work

作者首先回顾了单目3D目标检测的文献,然后讨论了无源域适应和测试时适应方法。更多关于无监督域适应的讨论放在附录0.A中。

单目3D目标检测 旨在从单个2D图像中感知3D物体。根据对额外信息的使用,现有的单目3Det方法可以分为两组。一方面,一些现有方法利用额外的预训练深度估计模块[6, 42, 52]来解决单目3Det中最困难的问题之一,即从单张图像中估计深度。其他方法利用激光雷达信息,例如生成伪激光雷达[25, 33, 40]。值得注意的是,Monoground[31]提出引入地面平面作为先验信息,而MonoNeRD[43]提出利用场景几何线索以隐式重建方式增强检测器的性能。另一方面,一些单目3Det方法尝试在不使用额外数据的情况下检测3D物体。例如,SMOKE[22]提出将3D物体的检测作为关键点估计任务。然后,Monoflex[51]通过提供对物体中心的灵活定义改进了这一想法,统一了规则物体和截断物体的中心。GrooMeD-NMS[16]提出了一种针对单目3Det的分组合成的可微非最大抑制。

无源域适应(SFDA) 旨在由于隐私问题,在不使用源数据的情况下,将预训练的源模型模型适应到 未标注 的目标域[19, 32]。SF-UDA [34]首次探索了SFDA框架以将PointRCNN 3D检测器适应到目标域,该框架包括伪标签、可逆的比例变换和运动连贯性。最近,作者[11]寻求更可靠地利用源模型,并提出了一种不确定性感知的教师-学生框架,以在模型适应过程中过滤掉错误的伪标签,减轻标签噪声的负面影响。

然而,SFDA假设所有目标数据都是提前已知的,并在多次优化周期后进行预测,这在计算或时间受限的实际应用中可能不可行。

测试时适应(TTA) 旨在即使存在数据偏移,也通过测试样本的模型适应来提高测试数据上的模型性能。早期的TTA方法[21, 36]努力通过自监督目标在训练数据上执行额外的模型优化,然后通过自监督目标将训练良好的模型适应到测试数据。然而,在像自动驾驶这样的单目3Det应用中,这类方法的计算需求是难以承受的。为了解决这个问题,开发了 完全测试时适应 方法来适应训练良好的模型,此时只提供 未标注 的测试图像。具体来说,某些方法[26, 29, 35]通过适应批量归一化层的统计量来处理数据分布偏移,而其他方法则通过测试数据的熵最小化[8, 38]或最大化不同增强的预测一致性[48, 49]来缓解这个问题。至于目标检测任务,Ev-TTA[13]和SOD[37]分别尝试处理基于事件的物体识别和弱监督显著目标检测的离线问题。

然而,现有的完全TTA方法在单目3Det中优化模型并解决分布偏移方面存在困难,因为有大量的负样本检测。据作者所知,作者的MonoTTA是第一个实时处理单目3Det模型分布偏移的完全TTA方法。

3 Monocular Test-Time Adaptation

Problem Statement

在不失一般性的情况下,作者将预训练(或良好训练)的模型表示为 ,这是通过对带标签的训练图像 进行训练得到的。训练图像遵循训练分布 (即, )。这里, 代表预训练模型的参数, 是训练数据的数量。在训练阶段,模型被优化以适应(或过拟合)训练数据。然后,在测试阶段,如果 未标注 的测试图像 = 遵循相同的数据分布,模型将能够表现良好,即, ,其中 是测试图像的总数。然而,在实际情况中,预训练模型可能会遇到由于普遍的自然损坏导致的分布偏移,即 Out-Of-Distribution (OOD) 测试样本,即,

为了解决这个问题,完全测试时自适应 [38] 努力通过将预训练模型 实时适应 未标注 的测试图像 来处理分布偏移。为了实现这一目标,现有方法通常努力通过最小化基于测试样本定义的无监督目标 来更新模型,其中 。这里, 表示应更新的模型参数的子集(即,遵循现有方法 [38, 28] 的 _批量归一化层_)。大多数现有的完全测试时自适应方法专注于分类任务,严重依赖于足够的正预测来进行模型自适应。然而,传统的分类任务与 Mono 3Det 存在显著差异。如前所述,当存在损坏时,来自 的测试图像 的检测分数容易显著降低,如图1 所示,导致在 Mono 3Det 中出现严重的遗漏(许多假阴性)。在这种情况下,正检测的稀缺性对模型自适应到测试分布提出了重大挑战,而使用不可靠的低分检测进行模型自适应可能会显著引入噪声。因此,现有的完全测试时自适应方法往往在 Mono 3Det 的 OOD 泛化问题中失败。

Overall Scheme

在彻底研究了Mono 3Det的特点和挑战之后,作者引入了一种单目测试时适应(MonoTTA)方法来解决Mono 3Det模型在 未标注 的OOD测试数据中的OOD问题,该方法旨在解决 未标注 OOD测试数据中的目标得分下降问题。如图2所示,MonoTTA包括两种策略:1)可靠性驱动的适应和2)噪声防护适应。作者首先简要介绍以下两种策略。

首先,作者开发了一种可靠性驱动的适应策略(参见3.3节)以基于可靠的测试目标对OOD测试数据进行可靠的模型适应。作者的实证研究启发作者利用相对可靠的测试目标来减轻分布偏移,从而发现更多潜在的目标。为此,MonoTTA通过自适应阈值 排除任何 未标注 测试数据中的不可靠测试目标。随后,模型通过选定的可靠目标优化自适应优化损失

其次,作者倾向于利用大量的低分目标以间接方式适应模型,而不是直接优化模型,因为低分目标是嘈杂的。因此,作者设计了一种噪声防护适应策略(参见3.4节)以防止模型对噪声预测过度拟合并陷入琐碎解。具体来说,作者在简单过滤掉极低分检测后,随机选择低分目标的一个负类别并最小化分数(例如, 中的0.03,参见图2)。尽管正类别是嘈杂的(即,分数0.12),但这一项能够间接优化模型,即学习拒绝目标的负类别。

总的来说,MonoTTA的训练方案如下:

其中 是平衡超参数。MonoTTA的伪代码总结在算法1中。

算法1 所提出的MonoTTA的流程

0:  未标注 的测试数据 ={ ;预训练模型 ;批大小 ;参数 。 1: 对于 中的批图像 { 进行以下操作 2: 根据等式(2)更新自适应阈值 ; 3: 根据等式(4)计算自适应优化损失 ; 4: 根据等式(6)计算负正则化项 ; 5: 通过优化等式(1)更新 6: 结束循环 7: 返回所有 的检测结果。

Noise-Guard Adaptation

通过优化自适应优化损失 ,模型被细化以产生更自信的检测结果。然而,由于分布偏移,高得分物体可能很罕见,这使得适应过程变得困难。同时,仅依赖 进行适应可能会导致平凡解,即模型对所有类别无差别地分配高得分。先前的研究[14, 15]表明,在分类任务中,深度神经网络可以通过负学习从噪声伪标签中学习。因此,MonoTTA 提出以负学习方式从噪声低分物体中学习,用于Mono 3Det。具体来说,作者用 表示测试图像 的多类别得分图,即多类别得分图 不仅包含物体的最高得分,也包含其他类别的得分。这里







请到「今天看啥」查看全文