基于激光雷达的3D目标检测是自动驾驶和机器人技术发展的关键技术。然而,数据标注的高昂成本限制了其进步。作者提出了一种新颖有效的主动学习(AL)方法称为分布差异和特征异质性(DDFH),该方法同时考虑几何特征和模型嵌入,从实例级和帧级角度评估信息。
分布差异评估 未标注 和标记分布之间的差异和新颖性,允许模型在有限数据下高效学习。
特征异质性保证同一帧内实例特征的异质性,在维持特征多样性的同时避免冗余或相似实例,从而最小化标注成本。最后,使用分位数变换有效地聚合多个指标,提供统一的信息效用度量。
大量实验表明,DDFH在KITTI和Waymo数据集上优于当前最先进的(SOTA)方法,有效地将边界框标注成本降低56.3%,并在使用单阶段和两阶段模型时表现出稳健性。
源代码:https://github.com/Coolshanlan/DDFH-active-3Ddet
1 Introduction
主动学习(AL)是一种从大量 未标注 数据中选择最具有信息含量的样本,用于人工标注,旨在减少模型的数据依赖性。尽管AL已被证明在各种研究领域中[7, 8]可以通过减少标注成本来降低模型的数据需求,但其在激光雷达(LiDAR)基3D目标检测中的应用仍不充分,主要存在以下三个尚未解决的挑战:
(1)与2D目标检测相比,LiDAR基目标检测具有额外的几何特征(如旋转和点密度)需要考虑。
(2)检测器的预测是实例 Level 的,AL的选择是帧 Level 的,这使得从实例到帧的传递以及估计信息含量变得具有挑战性。
(3)在不同的单位尺度下对多个指标进行聚合也是一个挑战。
以前的工作使用诸如熵和集成方法来估计不确定性。然而,它们忽视了LiDAR基目标检测中独特的几何特征(第一挑战),并仅通过实例 Level 的信息实用性评估不足以解决第二挑战。最近的一项工作,CRB,提出了通过分期过滤方法估算标签平衡,代表性,和点密度平衡的三个启发式方法。然而,过滤顺序极大地影响采样结果,影响指标的公平性,并未解决第三个挑战。另一项工作,KECOR,提出了一种核编码率最大化策略。然而,该方法也没有考虑几何特征,使用不同的加权设置在不同的数据集中聚合多个指标,影响了一般化。
为了解决以上挑战,作者提出了一种名为分布偏差和特征异质性(DDFH)的方法,如图1所示,其中(a),(b)和(c)分别针对第一个,第二个和第三个挑战设计。DDFH利用模型嵌入和几何信息作为特征来解决第一挑战。此外,作者通过考虑类别内部的
分布偏差
(DD)和
帧内特征异质性
(FH)从实例 Level 和帧 Level 两个角度探讨信息实用性,以解决第二个挑战。然后,DDFH使用
分位数变换
(QT)将每个指标规范化到相同尺度,有效聚合各个指标以解决第三个挑战。最后,作者提出
置信度平衡
(CB)来评估标注资源的分配。不同于以前仅计算每个类别选定实例的数量的方法,CB考虑了同一类别内每个实例的置信度总和。
作者通过在实际数据集KITTI和Waymo Open Dataset上的实验验证了DDFH的有效性。结果表明,作者提出的DDFH方法超越了现有的SOTA,有效地将数据标注成本降低了56.3%,并在相同的数据量下实现了三维mAP平均提高了1.8%。从作者广泛的 ablation 研究中可以得知,DDFH 同样适用于使用一阶段和二阶段检测模型。
2 Related Work
基于激光雷达的3D目标检测
激光雷达(LiDAR)的目标检测技术主要分为两大类:点云直接处理和 Voxel 化。像点Net系列[11,12]这样的方法直接处理点云,保留了原始数据的空间准确性,但在处理大规模数据时效率较低。最近的研究,如点云增强[13],引入了跨模态增益,利用预训练2D目标检测模型的深层特征增强激光雷达点云,从而提高3D目标检测性能。
Voxel 化方法,如VoxNet[14]和SECOND[15],将点云转换为 Voxel 网格,以实现高效的3D卷积,显著提高计算速度。Voxel Transformer(VoTr)[16]架构有效地扩大了模型的感受野,增强了捕捉大规模环境信息的能力。PV-RCNN系列[17;18]通过融合点云和 Voxel 特征,提高了检测准确率和处理效率。
3 Methodology
Active Learning Setup
在主动目标检测中,标注集
包含一小部分点云
及其标注
,而未标注的原始点云集
具有大量的无标签数据。初始时,随机选择样本形成
,检测模型在多个迭代步骤
中进行学习。主动学习的目标评估每个迭代阶段
的信息传递能力,并选择最有效的样本形成用于人类标注的新子集
。然后,将
合并到
以开始新的一轮训练模型。此过程在标记集大小达到标注预算之前重复执行。
Framework Overview
作者提出了一个新颖的主动学习框架 - 分布差异和特征异质性(DFH)用于激光雷达(LiDAR)为基础的三维目标检测。如图2所示,作者将点云
输入到模型中并得到包含嵌入和边界框的模型输出。然而,高维空间中估算分布是具有挑战性的,因此作者使用t-SNE[40]将嵌入投影到保留重要信息的低维空间,表示为
。
激光雷达基础的目标检测(长度、宽度、高度、体积、旋转和点云密度)
也是重要的,因为它直接提供关于物体如遮挡、行为和形态的信息。因此,作者将
作为DFH的输入特征,计算多个指标以估计信息效用。然而,指标的单位不同,因此在聚合之前需要进行归一化。
评分归一化。
DDFH基于多个指标评估信息效用,但它们的尺度不同,使得直接聚合变得不可能。因此,作者使用分位数转换
进行归一化。
是一种非线性转换,将第一个输入遵循正态分布并返回第二个输入的转换结果。
扩展最常出现的值并减小异常值的影响。
由于主动学习的目的是选择前k个样本,各指标的相对距离并不是特别重要。相反,保持各指标的排名并减小异常值有助于聚合指标,使
成为计算
的关键桥梁。接下来,作者将依次介绍DFH的操作原理。
Instance-Level Distribution Discrepancy
由于有标签的数据集比无标签的数据集要小得多,因此估计数据分布尤其重要。缩小有标签数据集与无标签数据集之间的分布差距将有助于模型进行推理。受到[37]的启发,作者使用高斯混合模型(GMM)来估计概率密度。与以往的工作不同,作者考虑了几何特征和嵌入,并通过降维避免过度的稀疏空间。直观上,如果一个实例在无标签数据集中频繁出现但在有标签数据集中罕见,这样的实例可以帮助模型有效地理解无标签样本。
遵循这两个指标,
可以被计算为:
其中
是
中的实例数量。