准确3D目标检测在实际环境中需要大量高质量的标注数据。获取这样的数据既耗时又昂贵,当采用新的传感器或检测器部署到新环境时,通常需要重复努力。作者研究了一种构建3D目标检测器的新场景:从附近配备了精确检测器的单位的学习预测中进行学习。例如,当一辆自动驾驶汽车进入新区域时,它可以学习其他在该区域优化了检测器的交通参与者。
这种设置具有标签效率高、传感器无关和通信效率高:附近单位只需要与本位 Agent (例如汽车)共享预测。然而,简单地将接收到的预测作为 GT 值来训练本位汽车的检测器会导致性能不佳。
作者系统地研究了这个问题,并确定视角不匹配和定位错误(由于同步和GPS错误)为主要原因,这些错误不可避免地导致假阳性、假阴性和不准确的伪标签。作者提出了一种基于距离的课程学习方法,首先从具有相似视点的较近的单位中学习,然后通过自训练提高其他单位预测的质量。
作者还进一步演示了,可以通过使用少量标注数据训练一个有效的伪标签优化模块,从而大大减少训练目标检测器所需的数据量。
作者在最近发布的实际场景协作驾驶数据集上验证了作者的方法,使用参考汽车的预测作为本位汽车的伪标签。
包括多种场景(例如不同传感器、检测器和领域)的大量实验证明了作者的方法在从其他单位的学习预测中进行标签效率高的3D感知方面的有效性。
1 Introduction
准确检测移动物体在3D空间对于智能 Agent 的安全性和可靠性至关重要。构建这样的3D目标检测器从来都不容易,它需要大量的高质量标注数据。获取这些数据既耗时又昂贵,很少是一劳永逸的。每当智能 Agent 进入一个新环境并遇到新物体时,其检测器需要适应以保持准确性。每当采用新的传感器(例如,为了能源或空间效率),传感器数据的不同模式(例如,LiDAR点云风格和密度) necessitate检测器需要重新训练。所有这些对检测器的更新意味着需要再次进行繁琐的标注数据获取。
作者能否绕过或至少减少重复 Token 的工作量?在这篇论文中,作者研究了其他附近具有精确3D目标检测器(但不一定具有相同的传感器配置)的 Agent 的情况。这种场景是现实和有前途的。例如,自动驾驶出租车(例如,Waymo,百度)或地方设施(例如,监控系统,路边单位)可能会配备针对其特定地理围栏区域的优化检测器。虽然这些地方“专家”可能无法直接共享他们的原始传感器数据或检测器(例如,由于数据大小和格式;商业和知识产权;实现不兼容),但预测(例如,检测到的3D边界框)则更加轻量化和标准化。最近的几项工作也表明,共享预测将有利于每个参与 Agent 的感知准确性,进一步激励这种合作场景。最后但并非最不重要的一点,共享预测意味着并非所有 Agent 都需要使用相同的传感器。采用新传感器或进入陌生环境的 Agent 可以借用其他配备更高端传感器的 Agent 的预测,作为训练其检测器的标签。请参阅第3.1节对作者的设置进行可行性及实用性讨论。)
因此,作者研究了一种新的场景来构建3D目标检测器:从附近具有精确检测器的 Agent 的预测中学习。作者使用现实世界的协作驾驶数据集(Xu等人,2023)作为测试床。对于每个3D道路场景,该数据集记录了距离在0~100米之间的两辆车的LiDAR点云,并为每个点云提供单独的目标标签。作者使用配备精确3D检测器的参考 Agent ,为其他(自) Agent 提供预测标签,以便自适应学习。
首先,从表面上看,这个问题可能看起来像是一个标准的有监督学习问题——利用其他 Agent 的预测作为标签来训练自我汽车检测器。然而,作者的初步尝试表明,这种直接的方法导致性能不佳。作者确定了两个主要挑战(图1)。
首先,在实际应用中,诸如GPS误差和 Agent 之间同步延迟等不准确的情况很常见。例如,仅相差0.1秒的微小延迟,对于时速60英里的车辆来说,定位可能会有几米的偏差。其次,两个 Agent 的观点可能显著不同。一个 Agent 可见到的物体,由于遮挡或距离原因,可能对于另一个 Agent 来说被遮挡或超出范围,导致预测中出现真阳性和假阴性。用这样的_错定位_和_视角不匹配_标签进行训练,必然会导致自我汽车新3D检测器的性能不佳。
为了应对这些挑战,作者提出了一种学习 Pipeline ,称为“从他人的预测中精炼和发现3D感知 Box ”(R&B-POP)。对于错位定位,作者训练一个 Box 精炼模块来对噪声候选进行排名并校正其位置。值得注意的是,这个模块需要非常少的人为标签(1%或更少),甚至如果模拟数据可用的话,甚至不需要人为标签。作者还开发了一种从粗糙到精细的方法,以在预测目标位置周围高效地搜索高质量候选者,解决大范围定位错误问题。
对于由于视角不匹配导致自车视角中出现假阴性结果的情况,作者提出了一种有效的自训练策略,该策略依赖于一种基于距离的课程,使检测器首先从高质量标签的子集学习,然后为模型填充缺失的标签,使其不断学习。通过这些方法,作者显著提高了伪标签的质量,并因此为自车创建了一个更准确的3D检测器,仅用40个 Token 帧(人工标注)就将平均精度(AP)在IoU 0.5处提高了34.5%(从22%提高到56.5%!)。总之,作者引入了一种新的研究问题,即通过参考 Agent 的预测学习3D感知。作者确定了关于标签质量的主要挑战,并提出了相应的解决方案。通过大量实验,作者证明了新的学习场景的适用性以及作者设计取得的改进。
相关研究
3D目标检测
在实际应用中起着重要作用,如自动驾驶。检测器以3D信号(如LiDAR点)为输入,预测感兴趣物体的存在和位置。由于最近整理出的大数据集,已有显著发展。现有方法可分为 Voxel 基础的(或 Pillar 基础的)方法,它们将不规则3D点空间分割为规则空间,点基础的方法,它们直接从给定的点云中提取判别性点特征。无论采用哪种方法,这些方法都需要人工标注的高质量数据才能实现令人满意的性能。
在本研究中,作者旨在跳过这种 Token 成本,并展示作者具有代表性的3D检测器的新标签高效的机器学习方法。
标签高效的學習。
自监督学习是一种有前途的方法,可以跳过大量的标签注释。使用大量易收集的无标签数据进行预训练,检测器Backbone可以大幅减少标签数据以进行微调。点云中的无标签3D对象检测因其有效的数据利用和训练期间的普遍性(Najibi等人,2023)。从参考单位附近的自车的预测中,作者利用(假)标签作为(伪)标签。
迁移学习
。作者的设置与迁移学习(DA)相关,因为作者旨在在新环境中提高一个目标检测器(例如,一个新的位置或数据模式)。现有研究主要关注通用、单 Agent 无监督迁移学习设置,而少数研究利用应用特定的线索,例如重复(You等人,2022c),以促进适应。作者的设置属于第二分支,其中作者探索多 Agent 场景。作者的目标不是与通用设置竞争。相反,通用迁移学习技术,例如先进的自训练,可以与作者设置兼容,以进一步提高性能。
课程学习
。许多研究已经证明,在训练过程中,按顺序逐步增加更难的样本可以使性能得到提高。所谓的“课程学习” 在目标检测中也有所探索。对于基于激光雷达的3D检测,研究行人在训练中应用了该概念以获得更好的数据增强。作者从数据中研究任务特定的特性,并发现标签质量和自车-参考车距离之间存在有意义的相关性。然后,作者将这一观察应用于设计有效的训练课程。
协作感知。
为了减轻检测范围有限和遮挡问题,自动驾驶研究行人最近关注于将附近检测器的信息整合。在推理过程中,多个检测器相互通信并共享他们的信息(例如,输入信号,特征或预测框)以更好地检测物体。同时,作者还利用其他车辆的信息,但作者的研究重点不同——作者研究一种新的标签有效学习场景,使用其他(专家)车辆的预测作为监督在离线环境中构建自己车辆的检测器。
3 Learning 3D Perception from Others' Predictions
作者研究了自动驾驶领域的一个新颖研究问题:
利用附近 Agent 提供的边界框训练一个3D检测器。
尽管这个场景尚未被探索,但可以减少或甚至消除标注工作。作者识别出了关键挑战,并提出了一个解决方案。
Problem definition and feasibility
无损一般性假设
,作者假设在自车(即 ego car,下文简称 E)周围存在一个参考车(即 reference car,下文简称 R),它配备了准确的 3D 目标检测器 f_R。E 和 R 都配备了 3D 传感器(例如 LiDAR),并在同一道路场景中收集它们的点云(例如 X_E 和 X_R)。请注意,由于硬件差异,X_E 和 X_R 可能具有不同的模式。R,即 E 学习的车辆,与它的检测器共享全局坐标系中的前景物体 3D 边界框,即 Y_R = f_R(X_R)。作者的目标是使用 Y_R 训练一个与 X_E 合作的 3D 检测器 f_E。
在继续之前,作者先考虑两个关键问题:“为什么附近的智能体可以获得准确的检测器?”和“为什么他们不能直接共享他们的检测器?”除了在1节中提到的例子(例如,自动驾驶出租车)(_e.g._,You et al., 2022b; 19; 20),作者强调,这些附近的智能体不一定需要“无所不知”。他们只需要在主体智能体经过的地域领域内是专家,甚至可以是静态的,这样训练他们的检测器就会更容易,而且标签效率更高,例如,利用重复或背景线索(You et al., 2022b; 19; 20)。
关于“为什么这些 Agent 不能直接共享他们的检测器”,作者注意到在研究社区中开源是很常见的,但在实际场景中有许多考虑和限制。首先,自 Agent 和参考 Agent 不需要使用相同的传感器。事实上,它们可能从不同的视角感知环境,例如,参考 Agent 可以是一个位于六米高、面向下的路边单元(杨等,2023年;20)。这种差异使得将参考 Agent 的模型直接部署到自 Agent Agent 上变得次优。
其次,两个 Agent 可能配备了不同的计算平台,例如,参考 Agent 配备了GPU,而自 Agent 配备了FPGA板和硬件加速代码(韩等,2019年;韩和陈,2021年),这使得直接部署变得更加困难。最后但同样重要的是,参考 Agent 的检测器可能专门设计和训练,例如,使用私有数据。因此,共享它们会引发智能财产或隐私问题。综上所述,作者的设置具有现实性,并且具有重要的实际意义。
Challenge
首次尝试。
作者使用最近发布的现实世界协同驾驶数据集(Xu等人,2023年)作为测试床。对于每个三维道路场景(带有时间戳),该数据集为每个 Agent 提供LiDAR点云和从其视角的真实三维边界框。(作者将数据和实验细节保留在第四节中。)
首先,显然这种差距来源于参考车$R$的预测误差。令作者惊讶的是,使用R的GT几乎无法提高检测器的性能,这暗示在实际环境中存在其他、更基本的影响因素。
主要挑战
。为了找出性能不佳的检测器的原因,作者在图2中可视化了两辆车的点云和真实边界框。作者确定了两个主要错误来源:视点不匹配和定位错误。视点不匹配发生在物体由于遮挡或视场限制而从一个传感器的视点中消失时,而定位错误是由于GPS误差和同步延迟引起的。例如,一辆以60英里/小时行驶的车的通信延迟0.1秒可能导致定位偏差2.7米。这些错误会显著降低对自车E学习的检测器fE的质量——训练标签仅仅是“噪声”。为了进一步深入了解这些挑战,作者测量了YR相对于自车E的真实标签的精确率和召回率,以评估标签质量,如表1所示。即使应用了自动驾驶中常用的基本过滤器(例如,移除远离车辆的框或超出E的视场范围的框),标签质量仍然令人不满意(表1和)。在以下各节中,作者将介绍作者用于解决这些挑战的 Pipeline R&B-POP。
Label-efficient box refinement
初步分析
作者详细分析了在每个坐标(x向前,y向左,z向上)上,$R$和$E$的交叠真实框之间的定位差异,如图3所示。请注意,x和y坐标的0.5米差异可以显著降低IoU从100%降低到30%。使用这样的不准确伪标签进行训练无疑会导致$E$的3D检测器的性能不佳!因此,对标签进行细化是必要的!
基于启发式方法的 Baseline 方法
首先,作者采用Luo等人(2023)提出的算法,该算法使用启发式方法细化框。具体而言,在初始噪声框周围采样多个框,并根据框与点云之间的边缘和尺寸的最佳对齐选择最优框。然而,这种方法需要满足某些条件才能获得令人满意的性能,例如在同一位置有多个轨迹,这可能限制其适用性。如表2所示,将其应用到作者的问题上带来了一定的改进,尤其是在IoU为0.7时(AP +- 4.2 vs. +- 10.3)。
标签高效的box排序器。
为了解决这个问题,作者提出了一种 _box ranker_,它评估给定边界框的定位质量。与其从零开始预测一个3D框(即典型的检测问题),学习在噪声候选项中选择和调整则是一个更容易的任务。因此,作者预计学习这样一个排名器需要更少的标注数据!为了调查这个想法,作者对E个点云进行样本,这些点云带有真实值。作者随机选择每个标注目标框周围的多个人工边界框,并裁剪由这些选择的边界框包围的点云(有扩展)。