近年来,利用多视角摄像机进行3D目标检测的先进技术已经证明了其在各种挑战性视觉任务中的实用性和经济价值。
然而,典型的监督学习方法在实现对未见过的 未标注 目标数据集(即直接迁移)的令人满意的适应性方面面临挑战,这是因为源域和目标域之间不可避免的几何偏移。
在实际应用中,作者还面临训练模型和收集标注的资源限制,这对于3D目标检测器的成功部署造成约束。
在本论文中,作者提出了一种实用的解决方案:统一域泛化与适应(UDGA)。作者首先提出了多视角重叠深度约束,利用多视角之间的强关联性,显著缓解由于视角变化导致的几何间隙。
然后,作者提出了一种标签高效的域自适应方法,处理未知的目标,只需要极少的标签(例如,1%和5%),同时保留良好的源域知识,以提高训练效率。
总的来说,UDGA框架使得源域和目标域的检测性能保持稳定,有效地弥合了不可避免的域间隙,同时需要的标注较少。
作者用大规模的基准测试证明了UDGA的鲁棒性:nuScenes、Lyft和Waymo,在这些平台上,作者的框架超过了目前最先进的方法。
1 Introduction
3D目标检测(3DOD)是计算机视觉领域中的一个关键任务,广泛应用于自动驾驶和机器人等领域。近年来,3DOD领域取得了显著的进展,主要得益于大规模的基准数据集[1,2,3,4]和引入了多种计算机视觉传感器(例如,激光雷达,多视图相机和雷达)。在这些中,基于相机的多视图3DOD因其成本效益和丰富的语义信息而受到了广泛关注。然而,一个尚未充分探索的重大挑战仍然存在:在源域和目标域之间存在分布性转移时,如何准确检测物体位置和类别(即,训练数据集和测试数据集之间的分布性差距)。
为了成功开发和部署多视图3DOD模型,作者需要解决两个实际问题:
(1)不同传感器配置之间的几何分布 shift;
(2)资源有限,如计算资源不足,数据标注昂贵等。
第一个问题在 noveldomain 中学习可转移知识以实现鲁棒泛化方面具有挑战性。
第二个问题必然需要有效地利用计算资源进行训练和推理,以及在实践中实现3DOD模型的标签高效开发。
为了解决这些实际问题,作者引入了一种
U
nified
D
omain
G
eneralization and
A
daptation (UDGA)策略,它解决了一系列域迁移问题(即,学习可迁移的特征显著提高了参数和标签高效少样本域迁移的质量)。
先前的研究旨在学习领域无关的知识,以减轻跨领域环境中的剧烈视图变化。DG-BEV [14] 将相机内参参数解耦,并使用域判别器训练网络进行视图不变特征学习。同样,PD-BEV [15] 实现隐式前景体积,并利用语义监督抑制视角偏差。然而,这些方法很难捕捉最佳表示,突显出在新型目标域(即与Oracle相比的闭合间隙高达-50.8%)方面仍有改进空间。为了应对这些缺点,作者首先提倡使用多视图重叠深度约束,该约束利用相邻视图之间的隐藏区域,这些区域作为保证几何一致性的重要三角线索。这种方法通过直接惩罚相邻视图之间的对应深度,有效地解决了跨领域环境中的视图差异,并展示了相当大的泛化能力(与DT相比的闭合间隙高达+75.8%)。
然而,运行在边缘设备(即自动驾驶汽车)上的算法的发展面临资源有限的挑战,这需要有效地利用计算系统。为了解决这些挑战,作者精心设计了一种“即用即取”的策略,即标签有效的域自适应(Label-Efficient Domain Adaptation),它通过具有成本效益的迁移学习将两个不同的域连接起来。具体来说,受到参数有效的微调(Parameter-Efficient Fine-Tuning,PEFT)[16, 17, 18]的启发,作者通过充分利用明确的源知识,实现对目标域的平滑适应。具体来说,通过利用即插即用的额外参数,作者在保留源域信息的同时,对目标域进行了显著的适应(与DT+Full FT相比,平均增益提高了+14%,如图1所示)。因此,作者注意到UDGA实际上扩展了基础模型,在有限的资源下有效地提升了总体容量。
在3DOD中的关键数据集3DOD [6], nuScenes [7] 和 Waymo [5] 中,作者验证了作者的 UDGA 框架在基于相机的多视图3DOD 任务上的有效性。值得注意的是,作者在跨域环境中实现了最先进的性能,并通过 ablation 研究证明了组件的有效性。
总之,作者的主要贡献如下:
-
作者提出了统一域泛化和适应(UDGA)框架,该框架旨在学习泛化的几何特征,并提高资源效率,以在解决分布对齐时提高实用性。
-
作者主张在多视图图像上实现深度尺度的统一,以有效解决3D几何失配问题。为此,作者利用相邻视图之间的对应三角线索,实现域间无缝连接。
-
作者提出了一种标签和参数高效的域自适应方法,该方法在保留源域知识的同时,需要的标注和微调参数更少。
-
作者在多个具有挑战性的跨领域基准测试上展示了UDGA的有效性(
i.e.
, Lyft
nuScenes, nuScenes
Lyft, 和 Waymo
nuScenes)。结果表明,UDGA在Multi-view 3DOD中实现了新的最先进性能。
2 相关工作
Multi-view 3D Object Detection
3D目标检测是计算机视觉任务在实际场景中的一个基本方面。尤其是,利用Bird's Eye View(BEV)表示的多视图3D目标检测方法[11; 12; 8]迅速扩展。
作者观察到这种范式分为两类:
(i)基于LSS的[27; 11; 12],和(ii)基于 Query 的[8; 28; 10]。
前者采用显式方法,利用深度估计网络,而后者专注于利用Transformer的注意力机制的隐式方法。最近,这些方法[9; 30; 31]由于利用了时间输入的改进的几何理解,得到了显著提升。
此外,直接使用LiDAR教师模型指导模型的方法[32; 33; 34; 35]也极大地鼓励了BEV空间细节。特别地,这种方法正在逐步取代LiDAR在实际场景中使用;
然而,由于域移的巨大差异(例如,天气、国家和传感器),它仍然存在 poor generalizability 的问题。为了减轻这些问题,作者提出了一种新的范式,即无监督域泛化和适应(UDGA),它利用多视图三角线索有效地解决几何问题,并在不遗忘之前学习到的知识的情况下,平滑地桥接不同的域。
Bridging the Domain Gap for 3D Object Detection
由于自动驾驶场景中复杂传感器配置和高精度3D标注的高昂成本,现有研究努力将3D感知模型泛化到各种数据分布中。具体而言,它们往往无法解决训练和测试划分之间的协变量漂移问题。为了弥合领域差距,现有方法提出了以下有价值的解决方案。
LiDAR基
的Wang等人[36]引入了统计归一化(SN)来减小不同数据集上物体大小分布的差异。ST3D[37]通过随机目标尺度增强利用域知识,并优化其自训练 Pipeline 以提高伪标签的质量。SPG[38]旨在捕获空间形状,生成缺失的点。3D-CoCo[39]对比调整源和目标域的边界,以提取鲁棒特征。LiDAR蒸馏[40]在球坐标系中生成伪稀疏点集,并调整源和伪目标之间的知识。STAL3D[41]通过结合对抗学习有效地扩展了ST3D。DTS[42]随机重采样波束,并试图捕捉学生和教师模型之间的交叉密度。CMDA[2]旨在从摄像机BEV特征中学习丰富的语义知识,并对抗性地指导可见的源和未见的目标,实现了最先进的UDA能力。
基于相机的。尽管基于激光雷达的各种突破性方法已经被研究,但基于相机的途径仍然有限。由于复杂的2D-3D对齐,不仅激光雷达方法不能直接应用,传统的2D视觉方法[43; 44; 45; 46]也无法采用。为了缓解这些问题,STMono3D [47]采用教师-学生方式自监督单目3D检测网络。DG-BEV [14]从视角增强的多视图图像中对抗地指导网络。PD-BEV [15]通过RenderNet的伪标签明确监督模型。然而,相机域泛化方法无法满足安全性的要求,在视角变化的实际域移中难以解决。为了缩小差距,作者引入了一个统一域泛化和适应(UDGA)框架,通过利用相邻视图之间的遮挡线索来有效提升深度尺度一致性,然后将模型的潜力以及一些新标签无缝地转移。
Parameter Efficient Fine-Tuning
近年来,许多自然语言处理(NLP)工作充分利用了通用大型语言模型(LLM)。此外,他们提出了参数高效的微调(PEFT)[17; 16; 48; 49; 50]以有效地将LLM的力量转移到各种下游任务。具体来说,PEFT保留了并利用了之前学习的通用信息,只用几个下游标签微调附加参数。这种范式可以显著减少大量的计算资源,大量特定任务的数据,并有效解决各种下游任务中的域转移问题,正如[51]所报告的那样。受此动机的启发,为解决源域和目标域之间巨大的视角转变,作者设计了一种标签高效的域自适应方法,通过只用少量目标数据微调作者的附加模块,可以完全将通用的源域潜力转移到目标域。
3 方法论
Preliminary
多视图3D目标检测是一项基础计算机视觉任务,它利用多个摄像机视图提供的2D视觉信息安全地定位和分类3D空间中的物体。尤其是,最近的一些里程碑式的多视图3D目标检测模型 [8, 10, 9, 11, 33] 如下所示;
, 其中
表示每个3D物体的尺寸
, 中心点
, 和旋转
。
此外,
,
, 和
表示多视图像,内参和外参。
具体来说,这些模型利用视图变换模块
充分从视角中受益,将2D视觉特征和3D空间环境编码到鸟瞰视角(BEV)表示中。首先,这些工作采用显式方法(如方程1所示的BEV视图变换
),利用深度估计网络。随后,检测器 Head 模块
以三维方式监督BEV特征和3D标签
。
Domain Shifts in Multi-view 3D Object Detection
在本节中,作者分析和报告了自动驾驶系统中的实际域迁移问题。如图3.1所示, recent works 将相机参数
和
作为除多视图图像
之外的额外输入。据 [14] 报道,如果对于给定的输入,输出条件分布相同,则域分布的转变是由输入的不一致边缘分布引起的。为了减轻这些问题, recent generalization approaches [14, 53, 47, 13, 54] 通常专注于几何特征表示的协变量转移,主要原因是光学变化(即,焦距、视场和像素大小)。
这是故事的一个部分。作者从非内在因素(即仅外在于车辆的传感器引起的移动)中经历了显著的性能下降(如图2(b)所示,NDS和mAP分别下降了-54%和-67%)。特别是,作者捕获了一个现象,即从车辆的视觉传感器到物体的实际深度尺度(如图2(a)中的红框所示)取决于传感器的安装位置。遵循勾股定理,随着高度差Δh的增加,深度尺度差Δd也会相应增加。请注意,这不仅限于高度;任何部署转换的移动(例如,沿着x、y或z轴)都会导致实际深度尺度的变化。因此,视角差异会显著阻碍模型对三维几何理解的统一,从而导致深度不一致。为了解决上述问题,作者引入了一种新颖的惩罚策略,有效地提高了在各种摄像头几何变化下的深度一致性。
Multi-view Overlap Depth Constraint
动机
最近,先前的研究[55, 14, 54, 56]通过增强多视图图像,以概括具有挑战性的视角视图间隙。然而,这些策略在跨域场景下的泛化能力较差,主要原因是不同传感器部署之间的视角变化被低估,如在3.2节中报告的那样。为了缓解视角间隙,作者引入了多视图重叠深度约束,有效促进了视角不变学习。
在这里,作者从三个关键假设开始:首先,多视图模式中相邻摄像头之间的视角移动是非平凡的且多样的,类似于跨域领域中观察到的(_e.g._,nuScenes
Lyft)。其次,视觉测距技术(如结构从运动(SfM)和同时定位与建图(SLAM))通常受益于相邻视图之间的改进深度一致性(例如,相对位姿估计)。第三,在多视图模式中,重叠区域充当强大的几何三角线索,无缝地连接相邻视图。然而,在输入相机参数的条件下,现成的位姿估计[57, 58, 59, 60, 61]会导致学习精确几何的歧义。为了减轻这些问题,作者引入了一种新的深度约束(图3(i)),在相邻摄像机之间的重叠区域。
方法论
为了实现通用的BEV提取,作者直接从多视图相机之间的相邻重叠区域约束深度估计网络。
同时,作者主张多帧图像输入在快速平移和旋转变化的场景中,可以极大地补充几何理解。为此,作者提出了一种基于空间和时间相邻视图的深度
公式。首先,作者根据公式2计算重叠变换矩阵
。
其中
和
分别表示内参和外参相机参数。
和
分别表示相邻视图之间的对应像素,
表示深度预测。
然后,作者直接惩罚不匹配的对应深度
,以实现无偏视角不变的学习,如下式 3 所示:
其中
代表欧几里得距离。此外,作者还观察到光度重投影误差显著缓解了相对几何模糊性。尤其是,慢收敛主要可能由于小重叠区域(全分辨率约30%)中不正确的关系。为了减轻这些关注,作者有效地增强了详细的2D匹配,将
如下所示公式4:
代表由
生成的点云,
是 SSIM [62] 中的光度误差。此外,
表示在 RGB 图像上进行双线性插值。具体来说,作者在
狭窄遮挡区域
中利用
获取两个优势:首先,
有效地减小了三角形的错位。其次,
可能支持不足的
缩放。最终,作者通过直接约束相应的深度和相邻视图之间的光度匹配来缓解视角视差。
Label-Efficient Domain Adaptation
动机
在为安全关键的自动驾驶车辆开发和部署多视角3D目标检测器时,存在实际挑战。每辆车辆和每个传感器都需要在其特定条件下(例如,动态天气、位置和时间)成功运行各自的模型。此外,虽然在大规模多样环境中收集标签是高度推荐的,但这非常昂贵、低效且耗时。其中,作者特别关注以下几个方面:(i)稳定的性能,(ii)训练的效率,(iii)防止灾难性遗忘,以及(iv)最小化标签成本。为了满足这些实际需求,作者精心设计了一种高效且有效的学习策略,即标签有效域自适应(LEDA),该策略可以无缝地转移并保留其自身的潜力,同时只需要少量标注标签。
在本文中,作者提出了一种称为标签高效域自适应(Label-Efficient Domain Adaptation)的新策略,该策略可以无缝地利用少量的目标数据来弥合域间差距。为此,作者添加了额外的参数
[48],其中包含 Bottleneck 结构(_i.e._,向下
层和向上