专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
51好读  ›  专栏  ›  智驾实验室

3D 检测模型 Trick | 用扩散模型进一步细化边界框,让 3D 检测精度再上一层楼!

智驾实验室  · 公众号  ·  · 2024-06-11 08:00

正文

ADAS Laboratory




点击上方 蓝字 关注 智驾实验室

扫描上方二维码,加入【 智驾实验室 】交流群,

获取更多内容和资料

确保稳健的3D目标检测与定位对于许多机器人技术和自动驾驶应用至关重要。

然而,最近的模型在应用于具有不同传感器设置或地理位置的领域时,往往难以保持高性能,通常由于领域偏移导致定位精度不佳。

为了克服这一挑战,作者引入了一种基于扩散的边界框细化方法。

该方法采用了一个领域无关的扩散模型,条件是围绕粗糙边界框的激光雷达点,以同时细化框的位置、大小和方向。

作者在各种领域适应设置下评估了这种方法,结果显示在不同数据集、目标类别和检测器上都有显著改进。

1 Introduction

三维目标检测对于身体化的智能体在复杂环境中安全导航是一项基本任务。对于自动驾驶车辆来说,在复杂的交通条件下导航意味着需要识别和定位其他道路上的智能体。在这种设置下的检测模型需要理解激光雷达点云,以准确识别预定目标的边界框。然而,在实际中遇到的多样化驾驶环境常常导致训练和测试时的分布存在显著差异。域分布差异主要源于目标大小、点云密度和激光雷达光束角度的不同。因此,在某个区域或特定数据集(例如德国)训练的模型可能无法在另一个区域或数据集(例如美国)中表现良好[47]。因此,域适应问题引发了人们对在自动驾驶中经常在特定环境下训练然后部署到不同区域和地点的3D目标检测的可靠性和安全性的担忧。

王等人[47]通过在事后使用简单的缩放启发式调整边界框大小,缩小了域适应的差距。因此,作者相信与域适应相关的性能差距主要是由边界框的大小、形状和方向的不正确造成的,而不是检测中的假阳性和假阴性——例如,在德国训练的模型能够检测到美国的汽车,但难以捕捉它们更大的尺寸。

在本文中,作者观察到尽管边界框与周围环境的关系在不同域中各不相同,但激光雷达点相对于其边界框的相对位置出奇地一致[23]。按照定义,这些检测的边界框应该紧紧地贴合相应的目标。此外,同一目标类(例如,汽车)中的目标在不同域中具有相似的形状,只有很小的变化。因此,变化最大的是目标的尺寸,而不是这种“表面”形状在归一化为相同大小时。具体来说,当按目标大小进行归一化时,激光雷达检测器接收到的点的分布因此是一致的,与域无关;无论目标位于何处,点总是会落在边界框的边缘附近。因此,如果作者能够以某种方式捕获相对于边界框坐标系的点的分布,作者就能使用相同的过程来修正位置不正确的边界框以适应正确的点分布,即使跨域也是如此。

认识到这一观察,作者提出了DiffuBox,一个新颖的点扩散模型,它学习相对于目标边界框的点分布,以细化检测模型为现成的域适应提供的噪声边界框 Proposal 。给定一组噪声边界框 Proposal ,DiffuBox对它们进行去噪处理,得到准确的检测框,条件是靠近 Proposal 的边界框的点。作者的方法自然避免了尺度差异引起的域差距[47],因为DiffuBox旨在处理目标尺度不变的数据,在这里作者将围绕边界框 Proposal 的激光雷达点转换为一个相对于边界框而不是绝对测量的归一化框视图。这消除了源域中呈现的形状先验,并迫使扩散模型仅基于点相对于边界框 Proposal 的相对位置来恢复准确的边界框,从而提高了自动驾驶系统的鲁棒性。

总结一下,作者的贡献包括:作者通过将训练于德国数据集(KITTI[7])的模型适配到美国(Lyft L5[15]和Ithaca365[5])的两个大型真实世界数据集,对作者的方法DiffuBox进行了实证验证。

在两种设置下,作者观察到DiffuBox能够从噪声的初步预测大幅改进输出的边界框(图1)。从量化角度看,作者观察到mAP性能的显著提升(高达24 mAP),特别是在近程边界框中,DiffuBox有更多的点来细化框的预测。当与一组代表性的域适应方法结合使用时,包括输出转换、统计归一化[47]和Rote-Domain Adaptation[57],DiffuBox能够进一步改进结果,并缩小所有方法最终性能之间的差距。

2 Related Work

三维目标检测。一般来说,大多数三维目标检测方法需要依赖人工标注的数据进行监督。这些方法采用三维感知数据(例如激光雷达点云)并推理围绕三维物体的边界框。基于输入表示,三维检测方法可以分为两类:基于点的方法,直接在点云上操作,以及基于网格的方法,首先将点云 Voxel 化为三维网格,然后利用卷积架构。与其他监督模型一样,当推理中的数据分布与训练中的数据分布不同时,三维检测模型也面临着性能下降的问题。作者的方法DiffuBox旨在减少通用三维目标检测的域差距,与底层模型设计无关。

三维领域的自适应。领域自适应旨在减轻在域偏移下三维感知模型的性能下降。[47]由Wang等人撰写的工作是首批研究三维目标检测中域差距的工作之一,并提出了统计标准化(SN),减少了跨域的形状偏差。ST3D[52]、Rote-DA[57]和ST3D++[53]提出了一种自我训练的流程,通过伪标签训练和辅助先验迭代改进目标域的三维检测性能。其他方法可以分为基于特征的方法[49; 21; 28; 19; 37; 17]和基于架构的方法[12; 35; 46; 22; 36]。其中一些还应用数据增强来构建和训练域不变表示,以减少域差距[19; 37; 12]。作者提出的方法与这些方法正交,并且可以与这些模型一起应用。

扩散模型。最近,扩散模型[41; 9; 42; 43]已显示出高质量的生成能力,适用于图像[4; 34],视频[10; 8]和三维形状[25; 59; 27]模态。周等人[60]使用具有点- Voxel 表示的扩散模型进行形状生成和点云补全。LION[59]使用分层变分自编码器映射到潜在空间,并在潜在编码上训练扩散模型以生成点云。在感知任务中,陈等人[3]和周等人[62]提出了基于扩散的目标检测框架。金等人[18]提出了一种基于扩散的模块,用于增强两阶段目标检测器的 Proposal 细化阶段。不同的是,作者的方法专注于以检测器无关的方式利用扩散进行后处理,这比以前的方法表现出更优越的性能。

3 Method

Problem Setup

尽管在领域内表现优异,但3D目标检测模型在推广到新领域(数据集)时往往难以保持其准确性。已经得出结论,这种较差的性能主要是由定位错误而非检测错误引起的[47]。也就是说,尽管目标可以被目标检测器正确识别,但检测到的边界框与 GT 框的交集不足,并不算作真正的阳性(即与 GT 值IoU 的检测)。

在这项工作中,作者引入了DiffuBox,它专注于校正边界框 Proposal 的定位,如图3所示,以提高3D目标检测的领域适应性。与需要在目标[57;52]或源[47]领域数据上仔细重新训练的现有领域适应算法不同,DiffuBox可以作为即插即用的后处理程序在任何新领域中部署。

表示来自目标领域的包含 个点的3D点云。令 是由一个适应不良的目标检测器针对 提出的 个不完美的边界框集合,其中每个边界框 是一个具有7个自由度(DoF)的直立框,以中心 、大小 和偏航角 进行参数化。作者的目标是在不进行任何重新训练的情况下,通过改进 中的框来获得更好的定位目标 Proposal

Learning Shapes in the Normalized Box View

尽管3D目标检测数据集在许多方面存在领域差异,但来自[47]的分析显示,适应过程中的最大障碍来自于目标大小的差异。例如,Lyft数据集[15]中的美国汽车平均比KITTI数据集[7]中的德国汽车大 ,而一个在KITTI上训练的目标检测器在Lyft上进行测试时,往往仍然会预测出较小的框。不幸的是,只要3D目标检测器被训练成明确预测目标大小,这种大小先验将在训练过程中不可避免地被记住,并作为学习到的偏见带到其他领域。

作者旨在实现 尺度不变的目标检测 ,这自然会对大小先验免疫。受到Luo et al .'s [23] 发现的启发,即点到 GT 边界框的相对分布在各个领域是一致的,_即_点倾向于集中在框的表面附近,作者提出通过将点云转换成规范化的框视图(NBV),将目标大小与形状分离,在这种视图中,点坐标相对于边界框而不是绝对的。

使用齐次变换,作者定义了 ,点云 相对于边界框 的规范化框视图,为:

如图2所示,方程2将边界框 转换成一个 的立方体,消除了大小先验。同样的变换也将 转换成相对于框的、尺度不变的

在实际应用中,出于效率考虑,作者只考虑在边界框一定深度范围内的点。作者将这个范围称为_上下文限制_。在下面的章节中,作者将 重载为上下文限制内的点云,以便于参考。

Bounding Box Refinement via Diffusion

受到基于扩散的形状生成工作[51; 61; 25; 59]以及从预训练扩散模型中进行知识提炼[30]的启发,作者展示了点云扩散模型学习的与大小无关的形状知识可以帮助改善跨领域中的物体定位。其基本假设是,尽管大小不同,同一类别的物体(如耳朵、骑车人、行人)共享相似的形状。

图2说明了作者的假设,即边界框 的良好定位与其对应的 形成的“标准”点分布(即形状)密切相关。反之,改善 的形状也将导致 的更好定位。由于作者的最终目标是优化边界框 ,作者 Proposal 使用点扩散模型学习“去噪”

具体来说,作者在3.3.1节中讨论了扩散模型的训练,以学习每个点到良好边界框的概率流。然后,在3.3.2节中,作者探讨作者的方法如何通过计算相对于学习到的概率流的改进步骤来细化边界框。最后,在3.3.3节中,作者介绍如何利用形状引导将启发式方法嵌入到作者的训练过程中。

3.3.1 Diffusion Training

扩散模型的 学习目标可以看作是得分函数 [43] 的一种变体,其中 表示噪声水平, 是真实数据分布,通常难以直接从中采样。由于得分函数指向更高的可能性,可以改为从 —— 通常被建模为独立的同分布高斯分布 —— 中抽取样本,并通过求解概率流ODE [11]/SDE [45]将其去噪至

表示带有参数 的扩散模型。考虑到完整的设计空间 [13],其训练损失通常可以写为:

其中







请到「今天看啥」查看全文