专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

北邮 & 清华 & 加州大学提出 HASS 方法 ,在三维目标检测数据集上表现优异 !

智驾实验室  · 公众号  ·  · 2024-08-12 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

加入【 智驾实验室 】交流群, 获取更多内容和资料

三维目标检测旨在恢复关注目标的三维信息,它是自动驾驶感知的基础任务。其性能极大依赖于标注训练数据的规模,然而为点云数据获取高质量的标注是成本高昂的。

尽管传统方法专注于为未标注样本生成伪标签作为训练的补充,但三维点云数据的结构性特点有利于合成目标和背景的组合以产生真实场景。

受此启发,作者提出了一种硬度感知的场景合成(HASS)方法,以生成适应性合成场景来提高检测模型的泛化能力。

作者对未标注目标获取伪标签,并生成具有不同目标和背景组合的多样化场景。

由于场景合成对伪标签的质量敏感,作者进一步提出了一种硬度感知策略来减少低质量伪标签的影响,并维护一个动态伪数据库以确保合成场景的多样性和质量。

在广泛使用的KITTI和Waymo数据集上的大量实验结果证明了作者提出的HASS方法的优势,它在三维目标检测方面优于现有的半监督学习方法。

代码:https://github.com/wzzheng/HASS。

1 Introduction

三维目标检测对于自动驾驶是一项重要的任务,但手动标注数据的昂贵成本阻碍了其应用。为了在训练样本不足时提高性能,半监督学习方法旨在利用额外的未标注样本来提高模型的泛化性能。

半监督学习方法通常生成伪标签,以将信息从标注数据传播到未标注数据,使得过滤噪声伪标签成为一个关键步骤。这激励了许多半监督目标检测方法开发更有效的过滤策略,以获得具有监督信息的高质量伪标签。这些方法通常设计评估指标,如不确定性,置信度[或估计的IoU,然后根据指标分数过滤预测。然而,手动设计的评估指标很难准确衡量伪标签的质量,导致许多错误的伪标签用来指导模型,而许多准确的伪标签被丢弃。一些现有的半监督三维目标检测方法遵循基于伪标签的2D方法并取得良好的结果。然而,它们中的大多数忽略了点云的空间特性,不能修改数据特征的分布,限制了训练模型的泛化能力。与2D图像相比,点云场景不是网格结构,可以通过混合两个样本更容易地合成。如图1所示,用2D图像构建真实场景更加困难,而用点云则容易得多。

受到这一点的启发,作者提出了一种难度感知的场景合成(HASS)方法,通过场景合成生成更多样化的样本,以改善模型泛化。作者维护一个在线伪数据库,包含 GT 和伪标签,并逐步添加在训练中满足阈值条件的伪标签。然后作者从伪数据库中随机采样前景点云,并与标注点云连接以合成多样化的样本。为了减轻低质量伪标签的影响,作者在模型学习得更好时[58]使用更难的(即更困难的)合成样本来训练模型,并逐步和自适应地维护伪数据库。作者使用动态伪数据库逐步挑战模型,通过向伪数据库中添加伪目标。在广泛使用的KITTI[10]和Waymo[36]数据集上的大量实验表明,作者的HASS方法大幅提高了现有方法的性能。作者还提供了在不同设置下HASS性能的深入分析,以证明每个模块的有效性。

2 Related work

半监督3D目标检测。 传统方法主要集中在基于图像的半监督2D目标检测上,而最近的方法则利用点云的特性,开发了各种3D目标检测技术以利用额外的 未标注 数据。SESS[57]引入了一种全面的扰动策略,并使用非对称数据增强来提高模型泛化能力。3DIoUMatch [40]设计了一个网络来估计伪标签定位的位置。Proficient Teachers [50]通过预训练的RoI网络[8]获取边界框特征,并通过手动设计空间-时间集成来提高伪标签的召回率。

近期的工作探讨了应用数据增强来改进半监督目标检测。例如,PseudoAugment [15]基于伪标签设计数据增强策略,融合了标记和伪标记数据来挖掘 未标注 数据。SS3D [20]提出了一种稀疏监督方法,并设计了一个带过滤器的实例挖掘模块来挖掘阳性实例。然而,由于伪标签质量低下,直接场景合成无法达到满意的结果,可能会破坏伪数据库并误导模型。考虑到这一点,作者提出了一个HASS框架,以逐步生成更难但更准确的合成样本进行训练。作者进一步设计了一个动态伪数据库,以提高场景合成的质量和多样性。

半监督学习。 半监督学习(SSL)旨在使用少量标记数据和丰富的 未标注 数据训练模型。主流的SSL方法可以分为两类:一致性正则化和伪标签。一致性正则化方法对输入样本应用不同的增强,并强制增强样本之间模型预测的一致性。[1]向模型添加扰动以强制一致性。Mean Teacher [37]使用与学生模型相同架构的指数移动平均(EMA)教师模型来提高鲁棒性。伪标签方法[2, 14, 34, 41]在 未标注 数据上明确生成伪标签进行监督,这可以看作是一致性正则化的一种类型,因为它使用一个模型的预测来监督另一个模型的输出。与此不同,所提出的HASS方法生成多样化的合成数据以提高泛化能力。

3D目标检测。 基于 Voxel 表示是深度学习中常见的点云处理方法,并广泛应用于3D目标检测。VoxelNet [61]将点云数据分组到 Voxel 中,并使用 Voxel 特征编码层来获得 Voxel 特征。

PV-RCNN [32]结合了3D Voxel 卷积神经网络(CNN)和基于PointNet[27]的集合抽象来学习特征。MV3D [4]是第一个将点云数据转换为鸟瞰图(BEV)表示进行3D检测的方法,由于其高效率,在3D目标检测方法中变得流行。

然而,3D目标检测通常受到标记训练数据的限制,这些数据标注起来很费时费力。作者的方法旨在有效利用 未标注 样本以提高性能。

3 Proposed Approach

Overview

给定一个标记点云样本 ,包含一组目标 ,每个 包含一个类代码 和边界框参数 分别表示边界框 的中心坐标、尺寸和旋转角度。此外,假设作者还可以访问一个 未标注 的点云样本

全监督学习只使用 作为监督,其中 是标记样本的数量。半监督学习的目标是挖掘 未标注 数据 中的有效特征,而不依赖可靠的监督,其中 是 未标注 样本的数量。基于伪标签的半监督检测从 点云预测 ,它包含一组目标 。每个 包括类代码 虽然不完全准确,但可以反映 点云的语义特征。基于伪标签的半监督检测方法通常采用教师-学生框架来以伪标签 的形式传播信息。

教师模型可以聚合信息并产生比直接使用权重更准确的模型。教师模型的预测 更可靠。作者使用教师模型来预测

其中 是时间 t 处教师模型的参数。最终的损失可以表述为:

其中 是无监督损失权重。

大多数现有的基于伪标签的3D半监督检测方法遵循2D半监督检测方法。它们通常定义一个伪标签质量评估指标,并根据该指标过滤伪标签 。尽管性能良好,但它们忽略了点云的无结构特性,这与类似平面的图像不同,无法反映物体的实际几何形状。像素的空间结构难以改变,而点云忠实地反映了物理世界的分布。因此,作者可以轻松构建包含任何前景或背景物体的点云场景,无需渲染[28],这有助于高效挖掘 未标注 数据 。在本文中,作者提出了一个难度感知的场景综合(HASS)框架,以生成自适应合成场景来提高泛化能力,如图2所示。

Objects & Background Composition

作者将带标签的点云 和前景点云 从 未标注 样本 合成到场景中,如图3所示。然后作者获得一组在 中的目标:

其中 是手动标记的。给定一个 未标注 的数据集 ,作者使用教师模型预测集合中的每个样本以生成前景伪标签 。此外,作者维护一个伪标签 的伪数据库 ,合格的伪标签将被添加到数据库中。作者获得一个不断更新的伪数据库







请到「今天看啥」查看全文