基于图像的3D目标检测在自动驾驶和机器人领域得到了广泛应用,然而,由于设置复杂的问题和有限的训练数据,当前系统在泛化方面仍然存在困难。
作者提出了一种新颖的流水线,将3D检测与2D检测和深度预测分离开来,利用基于扩散的方法来提高准确性,并支持分类无关的检测。
此外,作者还引入了标准化匈牙利距离(NHD)度量方法,对3D检测结果进行准确评估,解决传统IoU和GIoU度量方法的局限性。
实验结果显示,作者的方法实现了最先进的准确性和在各种物体类别和数据集上的强大泛化能力。
1 Introduction
基于图像的3D目标检测系统旨在从输入图像中识别和定位物体。这些系统在自主车辆和机器人等领域中发挥着关键作用。
近年来,深度学习的发展显著提升了3D目标检测。虽然这些方法已经得到了工程上的良好实现,但它们仍然主要是领域特定的,并且可检测的目标类别数量受到限制,特别是与最新的2D检测系统 [8, 46] 相比,后者可以在各个领域检测到数百个类别。
2D和3D检测之间的性能差距,尤其是在更广泛的检测类别方面的差异,主要是由于i) 复杂的问题设置和ii) 数据不足。3D检测任务与各种其他任务密切相关,例如2D检测、深度估计和物体位置估计,每个都是具有挑战性的研究领域。此外,标记3D数据比2D数据更费力,因为需要指定9个自由度,而不是2个。这种复杂性和有限的数据限制了当前3D检测方法的数量,通常会导致准确性降低。
为了克服这些限制,作者提出了一个将3D检测任务与2D检测和深度预测解耦的流程。解耦性提高了训练效率,最重要的是,允许采用了一种与类别无关的方法,其准确率得到了改进。
作者的关键思想在于,使用类似于扩散模型的[20, 54]生成式去噪网络从随机噪声中恢复一个3D边界框,该噪声受到多个视觉提示的约束。具体而言,噪声是从正态分布中采样得到的,视觉提示包括目标目标的图像、2D检测边界框和目标的深度。在训练期间,作者利用2D边界框和物体深度的真实标签。在推理期间,模型可以与2D检测器和深度估计模型相结合,或者从各种来源(例如人机标注)获取提示。
除了简化现有的流程和实现类别无关的检测外,作者的扩散方法还允许作者对一个目标生成任意数量的预测,由于其具有随机性。作者通过为每个目标估计多个3D边界框,并将每个边界框分配一个置信度分数,然后选择最确信的分数,从而进一步提高检测精度。
在开发作者的新颖3D检测方法时,作者发现传统的度量标准,如Intersection over Union (IoU)和Generalized IoU (GIoU),往往难以准确评估3D目标检测的结果,尤其是对于非重叠或包含的情况,这在细长和较小的物体中很常见。为了解决这些限制,作者提出了一个称为_归一化汉茨矩阵距离_(NHD)的新度量标准,它将事实真值和预测的3D边界框的角点进行一对一的匹配,然后计算对应角点的欧几里得距离,从而提供对3D目标检测结果的更详细、更精确的评估。
总之,作者做出了三个关键贡献:
首先,作者提出了一个新颖的基于扩散的3D目标检测流程,该流程将3D检测任务与2D检测和深度预测解耦,从而实现了一种与类别无关的3D检测。
其次,作者通过利用扩散流程中的生成能力预测多个边界框及其置信度分数,从而提高了3D检测的准确性。
最后,作者提出了NHD,这是一种新的评估度量标准,它提供了一种更准确、更精确的方式评估3D检测结果。
因此,作者的方法在类别无关的情况下实现了最先进的3D目标检测准确性,并展示了在未见过的数据集上的强泛化能力。
2 Related Work
2D Object Detection
2D 目标检测器包括两个阶段的检测器[15, 47],采用从粗糙到精细的方法,以及单阶段检测器[8, 34, 46, 47],可以直接从提取的视觉特征中估计物体的位置。DiffusionDet[9] 是第一个将扩散应用于检测任务的模型,逐渐优化噪声 2D 框以达到目标物体。与这些方法概念上相似的类别无关的 2D 检测模型是在输入图像视觉线索下区分通用物体和图像背景的概念。然而,与这些方法不同,作者专注于利用输入图像的视觉线索将 2D 框映射到 3D 框。
单镜头 3D 目标检测
单镜头 3D 目标检测器预测 3D 立方体单输入图像。根据数据集领域,一些模型针对自动驾驶室外场景 ,而其他模型特别针对室内环境。此外,一些研究 [6, 32, 51] 探索在训练期间使用室内和室外数据集的整合。这些方法通常使用类别标签进行监督 [6, 23, 32, 35],需要类别信息作为先前知识或输入 [6, 40, 44],或针对具有强烈假设预测尺寸或方向的场景和物体类别 [11, 39, 52, 64]。依赖于类别和场景特定知识限制了它们在野外场景和新颖类别的泛化。相比之下,作者的方法在训练和推理过程中不使用类别信息,仅专注于预测 3D 边界框。这使得该模型可用于未在训练中出现的新物体。
视觉感知中的扩散模型
扩散模型 在计算机视觉,自然语言处理 ,以及多模态数据生成中取得了显著成果。在视觉感知任务中,DiffusionDet [9] 是第一个从单个 RGB 图像中应用盒扩散进行 2D 目标检测的模型。此外,扩散还用于像图像分割 [2, 10] 和人类姿势估计 [16, 22] 等任务。对于 3D 目标检测,Zhou 等人[70] 介绍了扩散 5 DoF Bird's Eye View 盒作为点云检测的表示子。Diffusion-SS3D [19] 利用扩散进行点云半监督目标检测,去噪目标大小和类别标签。DiffRef3D [27] 和 DiffBufBox [12] 将扩散应用于点云中检测到的表示/粗框的细化。MonoDiff [44] 使用高斯混合模型初始化 3D 边界框的尺寸和姿态,将扩散条件于图像作为目标框。与这些方法假设扩散盒参数的初始分布或 Proposal [12, 44],有限的方向和尺寸的扩散模型 [12, 27],或只扩散部分参数 [19, 44] 不同,作者的模型在扩散过程中初始化所有箱参数为随机噪声。通过条件于图像和二维框的模型,作者使用扩散恢复内平面翻译、三个尺寸和三个方向自由度来旋转三维盒。
3 Method
给定一张图像
,目标
的二维边界框,物体深度
和相机内参
,作者的目标是估计一个紧包络物体的三维 Box 的心脏、三维大小和朝向。作者将这个任务形式化为一个条件扩散过程 [20],逐步从一个从正态分布中采样的噪声样本中恢复目标 Box ,条件化多个提示。
首先,考虑一般的扩散设置。在前向扩散过程中,在
个时间步骤内,逐步向变量
添加高斯噪声,直到它遵循一个正常分布。在反向去噪过程中,可以从其噪声版本
使用神经网络
恢复出一个估计
:
,其中
表示一个扩散步骤。在作者基于视觉的 3D 目标检测任务中,作者考虑
为一个 3D Box 的参数。
作者将一般的扩散过程调整为这个基于视觉的 3D 检测设置,考虑一个条件去噪网络
:
,其中
表示输入图像
、二维边界框
、相机内参
和物体深度
的条件信号。这个条件扩散过程类似于基于扩散的文本到图像生成任务 [50, 68],其中条件信号通常由文本描述组成。
在第 3.1 节中,作者首先引入 3D Box 的参数表示和提示编码方式。然后,在第 3.2 和 3.3 节中,作者详细说明如何利用扩散网络的生成性质预测多个 Proposal 及其相关的置信度。最后,在第 3.4 节中,作者概述了作者的训练过程和损失函数。
Preparation
Box参数化
作者考虑3D矩形框的位置、方向和大小。具体而言,每个3D矩形框
用11个参数表示:
3D矩形框的位置由2D像平面上的像心
和
定义。这个位置参数化将图像平面位置分量与深度分量解耦,使作者能够利用各种来源的物体深度。物体相对于输入图像的摄像头的方向由连续6D空间归心旋转
表示[71]。3D矩形框的大小由
、
和
捕捉。总体而言,这种参数化遵循 [6],但排除了深度分量。
提示编码
作者的条件信号
来源于图像
、2D边界框
、摄像机内参
和物体深度
:
其中函数
表示提示编码函数。该函数包括图像编码backbone、位置编码函数和深浅混合全连接层,用于准备 Box 预测网络中的所有提示信息。关于提示编码的更多信息,请见补充材料。
Diffusion: Adding Noise to a Box
在前向扩散过程中,作者从无噪声的三维边界框
开始,通过逐步添加高斯噪声在
步内生成一个完全噪声的三维边界框
,该边界框遵循正态分布。这个过程遵循标准DDPM调度[20]。
预处理
在向原始三维边界框
添加噪声之前,作者进行额外的归一化和缩放,以确保
位于范围
内,其中
对应于扩散过程的信号噪声比。在归一化步骤中,像空间中的投影坐标
和
相对于图像尺寸进行归一化。边界框的尺寸(宽度
,高度
和长度
)相对于一个预定义的最大框尺寸进行归一化。边界框的方向
,用[71]表示的归心表示法中表达,天生归一化,不需要进一步调整。在缩放步骤中,所有边界参数通过一个标量
进一步缩放。如5.5节所示,这种缩放步骤,从[9,10]中采用,可以提高边界预测的准确性。
Sampling: Predicting a Box
图1:
方法概述。在正向扩散中,作者向真实框
添加
个独立的高斯噪声,以得到多个噪声框。然后,作者训练一个去噪网络
,在视觉相关信号
的条件下,从噪声框中恢复目标框参数
。此外,作者训练另一个网络
,估计每个预测框的信心得分
。最终输出是最具信心分数的框。
作者的方法使用去噪网络
,在视觉相关提示
的条件下,预测目标物体的3D边界框。为了提高检测性能,作者引入每个预测框的信心得分,生成多个候选框并选择最具信心的一个。
单框预测
为了预测一个单一的3D框
,作者从随机采样的噪声
开始,并迭代地使用去噪网络
,条件是编码提示
,来完善3D框
。这个过程在最终去噪步骤
时结束,遵循DDIM [54]中引入的标准采样过程。
多框预测与选择
利用扩散网络的生成能力,作者的方法允许对单个目标物体预测多个3D框。具体而言,对于每个目标物体,作者从正态分布中采样
个3D框参数