专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

从复杂到简单：CTS框架优化模拟到现实3D目标检测！

智驾实验室 · 公众号 · · 2024-07-19 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

模拟数据可以被准确标记，并预期会提高数据驱动算法的性能，包括目标检测。然而，由于从模拟到现实的多种领域不一致性（模拟到现实），跨领域目标检测算法通常遭受性能的显著下降。

尽管已经开发了大量的无监督领域适应（UDA）方法来解决真实世界数据集之间的跨领域任务，但在模拟到现实的进展仍然有限。

本文提出了一种新颖的从复杂到简单（CTS）框架，用于将模型从标记的模拟（源）领域转移到未标注的现实（目标）领域。

基于两阶段检测器，这项工作的创新之处有三方面：

开发了固定大小的 Anchor 头和RoI增强，以解决两个领域之间的大小偏差和特征多样性，从而提高伪标签的质量；

开发了边界框的偶然不确定性（AU）的新型角格式表示，以统一量化伪标签质量；

开发了基于AU的考虑噪声的平均教师领域适应方法，以及目标级和帧级采样策略，以迁移噪声标签的影响。

实验结果表明，作者提出的方法显著增强了3D目标检测模型的模拟到现实领域适应能力，优于通常用于真实到真实UDA任务的现有跨领域算法。

I Introduction

无监督域自适应（UDA）在3D目标检测领域的研究在各类真实世界数据集上取得了卓越成果。相比之下，模拟到真实的域自适应尚未取得太多进展。

这主要是由于常用模拟环境（如CARLA[9]）中生成的点云存在以下局限性：

1)理想且密集收集，噪声极小；

2)与真实世界数据的统计差异显著，因为模拟资产的类型和大小有限；

3)目标特征多样性不足。这些限制降低了3D目标检测中模拟到真实域自适应的性能。

通常，3D目标检测中的UDA方法可以分为两大类：

1)域不变特征学习，通过最小化源域和目标域特征分布之间的距离来学习域不变特征；

2)伪标签引导方法，通过在目标域生成伪标签并使用这些标签进行进一步训练来提高传输性能。尽管前者需要两个域的特定特征信息，但后者提供了一个更通用、更灵活的跨域框架。然而，这些方法并不直接适用于模拟到真实的场景。

一个完全功能的伪标签引导的模拟到真实UDA方法应该能够解决以下问题：

生成高质量的伪标签。 如图1所示，模拟数据和真实数据之间的目标大小偏差和分布差异很容易导致回归结果不一致（即低质量的伪标签）。如何减轻检测中的这些偏差对于生成高质量的伪标签至关重要。

统一量化伪标签质量。 如图1所示，生成的伪标签包括真阳性（TP）、假阳性（FP）和假阴性（FN）。通常，TP标签质量高，FP标签质量低，FN标签缺失。如何统一量化伪标签的质量对于后续采样高质量标签至关重要。
使用高质量伪标签的目标数据采样。 在大多数伪标签引导的UDA方法中，所有伪标签都被打包到目标域训练阶段。然而，FP和FN伪标签为这个过程引入了额外的噪声，并降低了模型性能。如何智能地使用高质量伪标签采样目标数据对于提高跨域性能至关重要。为了减少由目标偏差引起的域差距，当前方法主要关注源域中的点云预处理。然而，这些方法几乎不能减少两个域之间的域不一致性[7, 8, 13]。此外，使用复杂两阶段UDA设计的方法在模拟到真实任务中表现有限[6, 13]。同时，已经提出了各种方法来实现高质量的伪标签引导，包括多输出融合技术，例如融合2D-3D数据的多种模态输出[12]，或融合多遍输出以保持“高随机性”[14]。均值教师方案也可以在目标域生成更准确的伪标签[6, 14, 15]。然而，在模拟到真实任务中，其性能可能会因数据噪声而大大降低。

本文提出了一个基于均值教师的复杂到简单（CTS）框架，重点关注模拟到真实UDA的第二阶段设计，采用新颖的技术减轻目标偏差，提高伪标签质量，以及优化目标域数据采样以指导伪标签。主要贡献包括：

开发了定位细化技术，包括RoI随机缩放和固定大小 Anchor 头，以解决域不一致性并生成高质量的伪标签。
开发了一种统一的角格式度量方法，用于估计偶然不确定性（AU），以准确评估伪标签的质量。
在均值教师域适应过程中，基于AU开发了两项采样策略，只选择具有足够标签质量的点云帧和标签。
发布了CTS的开源代码以及CARLA3D模拟数据集，供进一步研究。
https://github.com/tendo518/CTS-UDA。

II Related Work

UDA for 3D object detection

一些先前的工作已经很好地探索了在3D目标检测中使用无监督域自适应（UDA）的方法。3D目标检测中UDA的一个共同挑战是跨域时目标尺寸的偏差。Wang等人[13]提出了统计标准化（SN）方法，利用目标域数据的统计信息来对齐目标尺寸。ST3D[7]和ST3D++[8]在源域训练期间使用数据增强来提高模型对多样化尺寸信息的融合能力。除了减轻目标尺寸偏差之外，UDA中使用伪标签引导的方法强调提高伪标签的质量。JST[12]通过2D和3D联合细化增强了伪标签的质量，使两种模态的结果保持一致。ST3D[7]集成了一个额外的IoU回归头以评估预测质量，从而促进伪标签池的选择性更新。基于ST3D，ST3D++[8]进一步使用一种质量感知的去噪流程来细化伪标签。MLC-Net[6]也采用了均值教师方案，在点和实例层面上确保教师和学生模块在目标域的一致性，这类似于作者的方法，但在两个阶段使用UDA设计时涉及更高的复杂性。尽管在实到实任务中有显著的改进，现有的UDA方法在模拟到实任务中通常会遇到严重的性能下降。因此，基于对模拟与现实的差异分析，作者的研究专注于伪标签的质量提升、评估和选择，以实现更高的模拟到实性能。

Uncertainty Estimation in 3D Object Detection

不确定性可以作为衡量深度神经网络（DNNs）中数据噪声和模型噪声的重要指标。不确定性估计方法通常解决两个主要来源：认知不确定性（EU）和偶然不确定性（AU）。EU由模型参数上的后验分布表示，提供了对模型不确定性的见解；AU由模型输出的分布表示[19, 21]，反映了内在数据的随机性。值得注意的是，AU随着输入数据质量的变化而变化，适合于量化输入数据的噪声水平。在3D检测任务的背景下，由于能够提高检测性能，几种方法已经集成了偶然不确定性（AU）。Meyer等人使用拉普拉斯分布的混合来拟合每个预定义回归变量的方差，包括框中心位置、大小和方向。Feng等人[24]使用多元高斯分布建模AU，独立变量表示三个不同的集合，即RoI位置、边界框位置和方向。然而，很少有方法利用从3D检测结果估计的偶然不确定性（AU）来评估数据噪声。此外，现有方法使用非均匀变量表示不确定性，这增加了进一步利用的复杂性。因此，本研究提出了一种基于角的统一表示方法来表示带有不确定性的边界框，这便于预测伪标签质量的评估。

III System Setup

在像PointRCNN [26]这样的标准两阶段检测器中，第一阶段粗略检测全帧中的目标，第二阶段则细化定位。直接将PointRCNN应用于模拟到真实的任务导致在IoU阈值为0.7时平均精度（AP）下降了60%，在IoU为0.5时下降了20%（见表1中的CARLA3D KITTI），这表明在目标检测和分类能力保持的同时，定位精度有了大幅下降。为了增强模拟到真实领域的适应性，本文专注于改进第二阶段定位网络的领域适应性，而不是采用复杂的两阶段UDA设计，即从复杂到简单。

完整的CTS框架图如图2所示。CTS框架利用源领域的模拟数据来开发检测能力，然后通过在目标领域的真实交通场景中基于均值教师（mean teacher）的领域适应来细化模型。均值教师方案包括两个分支：学生模型和教师模型。它们具有相同的架构，并且都使用源领域训练的参数进行初始化。然而，它们经历了不同的更新机制：

学生模型： 学生模型使用增强的RoI点和特征作为输入，在目标领域由伪标签进行监督，或在源领域由真实标签进行监督。值得注意的是，生成的伪标签也可以作为第一阶段网络的监督，从而使得第一阶段网络也能进行领域适应。因此，这个网络的总损失包括：1) 第一阶段的RoI回归损失。2) 第一阶段的RoI分类损失。3) 第二阶段的回归Smooth-L1损失。4) 第二阶段的分类损失。5) 第二阶段的AU-NLL损失，在第四节B中具体说明。

教师模型： 教师模型处理原始（未增强）数据，并保持其权重固定。它不是使用标准的反向传播，而是使用指数移动平均（EMA）来更新其权重：

其中是学生权重，是控制更新比例的EMA衰减系数，代表第次迭代。

IV Proposed Methods

Enhancement of Pseudo-Label Quality

Iv-A1 Anchor Head (AH)

第二阶段模型通常预测第一阶段 Proposal 框与最终边界框之间的尺寸残差。这种方法避免了完全从零开始回归边界框的大小。然而，当一个第一阶段模型，在源域标签的有偏监督下训练，在估计 Proposal 框大小时表现出不准确时，就会出现挑战。不可靠的 Proposal 框大小可能导致第二阶段累积尺寸误差，降低最终边界框细化精度和伪标签的有效性。受到基于 Anchor 点检测器[26]的启发，作者引入了一个固定大小的 Anchor 框来代替 Proposal 框，称之为_ Anchor 头（AH）_。通过使用AH，第二阶段网络不再细化 Proposal 框，而是操作全局固定大小的3D Anchor 。在源域和目标域训练中都采用AH，确保了第二阶段网络在域之间的行为一致性，从而促进领域适应并提高伪标签的质量。

Iv-A2 RoI Random Scaling (RRS) and Augmentation

为了增强从模拟数据中学习目标的特征的多样性，作者引入了RoI随机缩放（RRS）和增强。在作者的设置中，第二阶段模型使用第一阶段模型的局部点（RoI点）及其对应的RoI特征作为输入。具体来说，只有点进行增强，而其特征保持不变。令表示RoI框内维度的去中心化点，而表示随机缩放因子。通过将原始尺寸与缩放因子相乘得到缩放后的RoI大小，即。此外，为了增强第二阶段模型的鲁棒性，作者在指定的范围内应用了包括随机旋转、翻转和平移在内的增强，如[27]中所述。

3D Detection with Aleatoric Uncertainty

如文献[17]所述，深度神经网络（DNNs）能够有效地预测偶然不确定性。特别是，当回归遵循参数为的高斯分布时，可以采用以下损失函数进行优化：

其中是模型参数，和分别代表预测均值和方差子网络。

在训练检测器的回归部分时，由于预测的边界框通常用7个值编码，即（称为边界框格式，BF），匹配的方差值主要编码为，其中每个元素对应边界框表示中一个元素的不确定性。然而，BF边界框回归变量，特别是质心位置、扩展（长度、宽度、高度）和方向，表现出数值大小的差异。这些差异也表明每个变量方差的大小不一。简单地对这些方差应用缩减方法（如最大值或平均值）可能会导致由于特定组件，特别是方向（因其数值显著较小）的不确定性被忽视。

受到角点损失方法[28]的启发，作者通过将边界框与其8个角点等价编码，引入了一种基于角点的测度不确定性方法，如图3所示。具体来说，在训练过程中，作者首先对模型预测的BF框和相应的真实框进行角点转换：

其中表示与偏航角

从复杂到简单：CTS框架优化模拟到现实3D目标检测 ！

正文