专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

从复杂到简单：CTS框架优化模拟到现实3D目标检测！

智驾实验室 · 公众号 · · 2024-07-01 17:57

正文

请到「今天看啥」查看全文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

加入【 智驾实验室 】交流群，获取更多内容和资料

模拟数据可以被准确标记，并预期会提高数据驱动算法的性能，包括目标检测。然而，由于从模拟到现实的多种领域不一致性（模拟到现实），跨领域目标检测算法通常遭受性能的显著下降。

尽管已经开发了大量的无监督领域适应（UDA）方法来解决真实世界数据集之间的跨领域任务，但在模拟到现实的进展仍然有限。

本文提出了一种新颖的从复杂到简单（CTS）框架，用于将模型从标记的模拟（源）领域转移到未标注的现实（目标）领域。

基于两阶段检测器，这项工作的创新之处有三方面：

开发了固定大小的 Anchor 头和RoI增强，以解决两个领域之间的大小偏差和特征多样性，从而提高伪标签的质量；

开发了边界框的偶然不确定性（AU）的新型角格式表示，以统一量化伪标签质量；

开发了基于AU的考虑噪声的平均教师领域适应方法，以及目标级和帧级采样策略，以迁移噪声标签的影响。

实验结果表明，作者提出的方法显著增强了3D目标检测模型的模拟到现实领域适应能力，优于通常用于真实到真实UDA任务的现有跨领域算法。

I Introduction

无监督域自适应（UDA）在3D目标检测领域的研究在各类真实世界数据集上取得了卓越成果。相比之下，模拟到真实的域自适应尚未取得太多进展。

这主要是由于常用模拟环境（如CARLA[9]）中生成的点云存在以下局限性：

1)理想且密集收集，噪声极小；

2)与真实世界数据的统计差异显著，因为模拟资产的类型和大小有限；

3)目标特征多样性不足。这些限制降低了3D目标检测中模拟到真实域自适应的性能。

通常，3D目标检测中的UDA方法可以分为两大类：

1)域不变特征学习，通过最小化源域和目标域特征分布之间的距离来学习域不变特征；

2)伪标签引导方法，通过在目标域生成伪标签并使用这些标签进行进一步训练来提高传输性能。尽管前者需要两个域的特定特征信息，但后者提供了一个更通用、更灵活的跨域框架。然而，这些方法并不直接适用于模拟到真实的场景。

一个完全功能的伪标签引导的模拟到真实UDA方法应该能够解决以下问题：

生成高质量的伪标签。 如图1所示，模拟数据和真实数据之间的目标大小偏差和分布差异很容易导致回归结果不一致（即低质量的伪标签）。如何减轻检测中的这些偏差对于生成高质量的伪标签至关重要。

统一量化伪标签质量。 如图1所示，生成的伪标签包括真阳性（TP）、假阳性（FP）和假阴性（FN）。通常，TP标签质量高，FP标签质量低，FN标签缺失。如何统一量化伪标签的质量对于后续采样高质量标签至关重要。
使用高质量伪标签的目标数据采样。 在大多数伪标签引导的UDA方法中，所有伪标签都被打包到目标域训练阶段。然而，FP和FN伪标签为这个过程引入了额外的噪声，并降低了模型性能。如何智能地使用高质量伪标签采样目标数据对于提高跨域性能至关重要。为了减少由目标偏差引起的域差距，当前方法主要关注源域中的点云预处理。然而，这些方法几乎不能减少两个域之间的域不一致性[7, 8, 13]。此外，使用复杂两阶段UDA设计的方法在模拟到真实任务中表现有限[6, 13]。同时，已经提出了各种方法来实现高质量的伪标签引导，包括多输出融合技术，例如融合2D-3D数据的多种模态输出[12]，或融合多遍输出以保持“高随机性”[14]。均值教师方案也可以在目标域生成更准确的伪标签[6, 14, 15]。然而，在模拟到真实任务中，其性能可能会因数据噪声而大大降低。

本文提出了一个基于均值教师的复杂到简单（CTS）框架，重点关注模拟到真实UDA的第二阶段设计，采用新颖的技术减轻目标偏差，提高伪标签质量，以及优化目标域数据采样以指导伪标签。主要贡献包括：

开发了定位细化技术，包括RoI随机缩放和固定大小 Anchor 头，以解决域不一致性并生成高质量的伪标签。
开发了一种统一的角格式度量方法，用于估计偶然不确定性（AU），以准确评估伪标签的质量。
在均值教师域适应过程中，基于AU开发了两项采样策略，只选择具有足够标签质量的点云帧和标签。
发布了CTS的开源代码以及CARLA3D模拟数据集，供进一步研究。
https://github.com/tendo518/CTS-UDA。

II Related Work

UDA for 3D object detection

一些先前的工作已经很好地探索了在3D目标检测中使用无监督域自适应（UDA）的方法。3D目标检测中UDA的一个共同挑战是跨域时目标尺寸的偏差。Wang等人[13]提出了统计标准化（SN）方法，利用目标域数据的统计信息来对齐目标尺寸。ST3D[7]和ST3D++[8]在源域训练期间使用数据增强来提高模型对多样化尺寸信息的融合能力。除了减轻目标尺寸偏差之外，UDA中使用伪标签引导的方法强调提高伪标签的质量。JST[12]通过2D和3D联合细化增强了伪标签的质量，使两种模态的结果保持一致。ST3D[7]集成了一个额外的IoU回归头以评估预测质量，从而促进伪标签池的选择性更新。基于ST3D，ST3D++[8]进一步使用一种质量感知的去噪流程来细化伪标签。MLC-Net[6]也采用了均值教师方案，在点和实例层面上确保教师和学生模块在目标域的一致性，这类似于作者的方法，但在两个阶段使用UDA设计时涉及更高的复杂性。尽管在实到实任务中有显著的改进，现有的UDA方法在模拟到实任务中通常会遇到严重的性能下降。因此，基于对模拟与现实的差异分析，作者的研究专注于伪标签的质量提升、评估和选择，以实现更高的模拟到实性能。

Uncertainty Estimation in 3D Object Detection

不确定性可以作为衡量深度神经网络（DNNs）中数据噪声和模型噪声的重要指标。不确定性估计方法通常解决两个主要来源：认知不确定性（EU）和偶然不确定性（AU）。EU由模型参数上的后验分布表示，提供了对模型不确定性的见解；AU由模型输出的分布表示[19, 21]，反映了内在数据的随机性。值得注意的是，AU随着输入数据质量的变化而变化，适合于量化输入数据的噪声水平。在3D检测任务的背景下，由于能够提高检测性能，几种方法已经集成了偶然不确定性（AU）。Meyer等人使用拉普拉斯分布的混合来拟合每个预定义回归变量的方差，包括框中心位置、大小和方向。Feng等人[24]使用多元高斯分布建模AU，独立变量表示三个不同的集合，即RoI位置、边界框位置和方向。然而，很少有方法利用从3D检测结果估计的偶然不确定性（AU）来评估数据噪声。此外，现有方法使用非均匀变量表示不确定性，这增加了进一步利用的复杂性。因此，本研究提出了一种基于角的统一表示方法来表示带有不确定性的边界框，这便于预测伪标签质量的评估。

III System Setup

在像PointRCNN [26]这样的标准两阶段检测器中，第一阶段粗略检测全帧中的目标，第二阶段则细化定位。直接将PointRCNN应用于模拟到真实的任务导致在IoU阈值为0.7时平均精度（AP）下降了60%，在IoU为0.5时下降了20%（见表1中的CARLA3D KITTI），这表明在目标检测和分类能力保持的同时，定位精度有了大幅下降。为了增强模拟到真实领域的适应性，本文专注于改进第二阶段定位网络的领域适应性，而不是采用复杂的两阶段UDA设计，即从复杂到简单。

完整的CTS框架图如图2所示。CTS框架利用源领域的模拟数据来开发检测能力，然后通过在目标领域的真实交通场景中基于均值教师（mean teacher）的领域适应来细化模型。均值教师方案包括两个分支：学生模型和教师模型。它们具有相同的架构，并且都使用源领域训练的参数进行初始化。然而，它们经历了不同的更新机制：

学生模型： 学生模型使用增强的RoI点和特征作为输入，在目标领域由伪标签进行监督，或在源领域由真实标签进行监督。值得注意的是，生成的伪标签也可以作为第一阶段网络的监督，从而使得第一阶段网络也能进行领域适应。因此，这个网络的总损失包括：1) 第一阶段的RoI回归损失。2) 第一阶段的RoI分类损失。3) 第二阶段的回归Smooth-L1损失。4) 第二阶段的分类损失。5) 第二阶段的AU-NLL损失，在第四节B中具体说明。

教师模型： 教师模型处理原始（未增强）数据，并保持其权重固定。它不是使用标准的反向传播，而是使用指数移动平均（EMA）来更新其权重：

其中是学生权重，是控制更新比例的EMA衰减系数，代表第次迭代。

IV Proposed Methods

Enhancement of Pseudo-Label Quality

Iv-A1 Anchor Head (AH)

第二阶段模型通常预测第一阶段 Proposal 框与最终边界框之间的尺寸残差。这种方法避免了完全从零开始回归边界框的大小。然而，当一个第一阶段模型，在源域标签的有偏监督下训练，在估计 Proposal 框大小时表现出不准确时，就会出现挑战。不可靠的 Proposal 框大小可能导致第二阶段累积尺寸误差，降低最终边界框细化精度和伪标签的有效性。受到基于 Anchor 点检测器[26]的启发，作者引入了一个固定大小的 Anchor 框来代替 Proposal 框，称之为_ Anchor 头（AH）_。通过使用AH，第二阶段网络不再细化 Proposal 框，而是操作全局固定大小的3D Anchor 。在源域和目标域训练中都采用AH，确保了第二阶段网络在域之间的行为一致性，从而促进领域适应并提高伪标签的质量。

Iv-A2 RoI Random Scaling (RRS) and Augmentation

为了增强从模拟数据中学习目标的特征的多样性，作者引入了RoI随机缩放（RRS）和增强。在作者的设置中，第二阶段模型使用第一阶段模型的局部点（RoI点）及其对应的RoI特征作为输入。具体来说，只有点进行增强，而其特征保持不变。令表示RoI框内维度的去中心化点，而表示随机缩放因子。通过将原始尺寸与缩放因子相乘得到缩放后的RoI大小，即。此外，为了增强第二阶段模型的鲁棒性，作者在指定的范围内应用了包括随机旋转、翻转和平移在内的增强，如[27]中所述。

3D Detection with Aleatoric Uncertainty

如文献[17]所述，深度神经网络（DNNs）能够有效地预测偶然不确定性。特别是，当回归遵循参数为的高斯分布时，可以采用以下损失函数进行优化：

其中是模型参数，和分别代表预测均值和方差子网络。

在训练检测器的回归部分时，由于预测的边界框通常用7个值编码，即（称为边界框格式，BF），匹配的方差值主要编码为，其中每个元素对应边界框表示中一个元素的不确定性。然而，BF边界框回归变量，特别是质心位置、扩展（长度、宽度、高度）和方向，表现出数值大小的差异。这些差异也表明每个变量方差的大小不一。简单地对这些方差应用缩减方法（如最大值或平均值）可能会导致由于特定组件，特别是方向（因其数值显著较小）的不确定性被忽视。

受到角点损失方法[28]的启发，作者通过将边界框与其8个角点等价编码，引入了一种基于角点的测度不确定性方法，如图3所示。具体来说，在训练过程中，作者首先对模型预测的BF框和相应的真实框进行角点转换：

其中表示与偏航角对应的旋转矩阵，表示变换后CF编码框的8个角点的位置。为了简化回归，作者假设每个角点坐标的分布遵循具有相同方差的独立高斯分布，表示为：

其中是单位矩阵。因此，作者预测8个（而不是24个）独立的方差用于CF编码框，整体的对数似然损失和偶然不确定性可以通过以下方式轻易降低：

损失函数由下式给出：

不确定性度量定义如下：

所有的组件对损失和最终的不确定性度量贡献是相等的。

Noise-aware Mean Teacher

在学生模型输入和教师模型输出上对齐变换有助于获取领域不变性表示，从而通过伪标签帮助适应目标领域。然而，噪声伪标签可能导致错误累积。为了应对这一挑战，作者利用模型预测的偶然不确定性来标注目标领域的数据，并在以下采样策略下减少噪声数据在均值教师领域自适应中的影响：

Iii-C1 Object-Level Soft Sampling

在每次迭代中，最终的第二阶段回归损失是通过使用分配给各个目标的伪标签提供的监督来计算的。不是仅依赖于这些伪标签，而是通过它们不确定度的倒数来加权损失，表示为：

其中是整个点云帧中每个目标产生的第二阶段损失，是元素乘积。因此，与伪标签相关联的不确定度较高的目标被软过滤掉，从而减轻了噪声目标的不良影响。

V Experiments

实验V部分的开始。

Experimental Setup

实验设置部分的开头。

V-A1 Datasets

作者在模拟源领域CARLA3D中进行有监督的训练，该领域是在CARLA模拟器[9]中获取的。所有样本均来自CARLA中的八个内置场景，以确保数据多样性。自动驾驶车辆的位置是随机设定的，每个场景收集大约100个样本，每个样本包含以2Hz频率的八帧。在每个样本的八帧中，随机选择五帧用于训练集，总共得到3,990帧，包含25,192个目标。关于CARLA3D数据集的更多详细信息在表2中概述。所选的目标领域包括KITTI[10]，Lyft[11]，以及[12]中使用的TinySUscape。在测试阶段，将使用这些数据集的样本及其相应的标签，而在训练阶段仅使用样本。这些数据集的总结在表3中呈现。

V-A2 Evaluation Metric

在作者的3D目标检测评估中，参照[13]，作者采用了[10]中的官方KITTI评估指标对_Car_类别进行评估。作者报告了两个平均精度（AP）指标：基于鸟瞰图IoUs的和基于3D IoUs的。

V-A3 Implementation Details

作者的方法是基于OpenPCDet [27]实现的，使用PointRCNN [30]作为作者的 Baseline 检测器。所有实验都是在配备有12 GiB NVIDIA TITAN V GPU的Ubuntu Linux服务器上进行的。所提出的模型首先在CARLA3D上进行50轮训练，其中学习率、权重衰减和动量分别设置为0.005、0.0001和0.9。对于 Anchor 头配置，全局设置 Anchor 的尺寸为、和。这些值是根据KITTI数据集中所有标记的车辆目标的尺寸的统计平均值得出的，被认为是一个合理的指标。应用RoI增强，包括按因子范围从0.7到1.3的随机缩放，最多上下平移0.5米，旋转角度介于和之间，并有50%的概率进行翻转。在均值教师领域适应期间，选择在源领域训练阶段中准确度最高的模型，并且教师模型和学生模型都从中初始化。指数移动平均（EMA）因子（）设置为0.999，对于Lyft数据集的训练持续30轮，对于KITTI/TinySUscape数据集的训练持续50轮。为了确保稳定性，作者通过在源领域（带有真实标签）和目标领域（带有伪标签）的数据之间交替来训练学生模型。关于噪声感知训练设置，Lyft数据集在1st、6th、16th和21st轮刷新不确定性池，而KITTI和TinySUscape数据集在1st、11th、21st和31st轮刷新。在这些每一轮中，子数据集以总数据集大小的30%、50%、70%和100%进行重新采样，用于后续的训练迭代。

Main Results

作者的CTS框架与以下方法进行了比较：1) SN [13]：一种被认为在各种数据集上有效的域适应方法；2) MLC-Net [6]：一种基于均值教师（mean teacher）的域适应方法，与作者的均值教师部分相似；3) ST3D++ [8]：一种最近的基于自训练的方法，在真实到真实（如，Nusenses [31] KITTI [10]）的域适应任务中取得了最先进的表现。

此外，作者提供了两种可能的结果边界，它们是：

仅源域 ：模型仅在源域上以监督方式进行训练，并在不采用任何域适应方法的情况下直接应用于目标域，这作为下界；

Oracle ：在目标/现实域上使用实际标签进行完全监督训练的模型，被视为上界。

不同UDA方法获得的结果总结在表1中。在模拟到真实检测任务中，作者的CTS方法超越了所有其他方法。特别是，与仅源域方法相比，作者的方法将提高了大约，将提高了大约。然而，由于模拟器与现实之间存在显著的域偏移，作者的CTS方法与监督 Oracle 相比仍显示出明显的差距。相比之下，通常在各种现实世界域中表现良好的SN方法，在模拟到真实的跨域任务中表现挣扎，性能下降，如在CARLA3D TinySUscape场景中。

Ablation Study

为了进一步证明作者提出方法中各个组件的有效性，作者在CARLA3D Lyft任务上进行了广泛的消融实验。

Iv-C1 Benefits of Anchor Head

将 Anchor 头（AH）融入第二阶段检测器中，有效地减少了回归复杂性，同时增强了跨域鲁棒性。如表4所示，与原始设置相比，AH方案能带来超过19%的提升，这突显了即使在简单的 Anchor 点尺寸替换情况下，它在跨域任务中的有效性。

Iv-C2 Benefits of RRS and Second-stage Augmentation

与SN方法[13]相比，作者的RoI随机缩放（RRS）方法有效地促使处理目标的大小类似于真实世界数据的单峰分布，而不是仅仅与仍呈现多峰的统计体积相一致，如图4所示。此外，将RRS整合到作者第二阶段的增强（Aug2）中，性能提高了大约，如表4所示。这些

这些增强技术提高了目标 Level 的数据多样性，使模型能够学习到多样的信息。

Iv-B3 Benefits of Corner-Format AU

与BF方法相比，CF编码在不需要额外操作的情况下，将物体的定位不确定性均匀分布到每个角点组件上。表4显示，使用BF和CF表示进行噪声感知的采样分别提高了3.7%和4.9%的性能。这表明CF在识别可靠的伪标签方面更为有效。采用CF编码方案，作者研究了与预测物体相关的偶然不确定性（AUs），考虑了它们与 GT 值的交并比（IoU）以及它们的自我到物体的距离，如图5所示。作者的观察发现，随着IoU的增加，AU值减少，而随着自我到物体距离的增加，AU值增加。此外，图6展示了稀疏和损坏的点云导致AU升高的例子。这些发现强调了预测的AUs在评估伪标签噪声中的有效性，以及作为伪标签可靠性度量的实用性。

Iv-B4 Benefits of Noise Awareness in Mean Teacher

正如第IV-C节所提到的，采用了两种不同的噪声感知采样策略来最小化在均值教师领域自适应过程中生成的噪声伪标签的负面影响。通过帧 Level 噪声感知（FL-NA）和目标 Level 噪声感知（OL-NA）策略，性能提高了。

此外，仅使用NLL损失函数已被证明能带来改进[24]。表4还显示，在仅源训练中，使用NLL可以从43.51%轻微增加到43.81%。然而，在添加NLL损失和额外的不确定性层时，仅提高了，而同时采用FL-NA和OL-NA则带来了额外的显著改进，提高了。这表明，主要性能提升来自于噪声感知采样策略，而不仅仅是损失函数的替换。

Limitations

尽管作者提出的模型通过多种方案在目标领域内显示出增强的适应性能，但由于模拟器固有的局限性，模拟到现实的UDA仍然落后于现实到现实的方法。像CARLA这样的模拟器中受限的车辆资源无法代表现实世界中车辆的多样性。此外，模拟器难以复制复杂的现实世界情景，包括动态交通模式和多样的城市景观（例如，不同的天气条件），从而限制了它们在提供现实训练数据以进行领域适应方面的有效性。

第六部分结论

本文提出了一种用于从模拟到现实领域3D目标检测的无监督领域适应（UDA）的CTS框架。所提出的技术包括RoI随机缩放和增强以及固定大小 Anchor 头，分别可以丰富模拟数据的多样性并减轻跨领域目标尺寸偏差，从而提高伪标签的质量。

所提出的基于偶然不确定性（AU）估计的统一角落格式边界框表示可以帮助将伪标签噪声的意识融入到平均教师领域适应过程中，实现高质量的伪标签采样。

使用CARLA，KITTI，Lyft和TinySUscape数据集的实验结果可以在各种模拟到现实的UDA任务中显著优于现有方法，包括提高5%-17%和提高2%-10%。作者未来的工作将重点扩展作者的方法，包括模拟到现实和现实到现实的UDA场景。

参考

[1].CTS: Sim-to-Real Unsupervised Domain Adaptation on 3D Detection.

扫描下方二维码，添加 AI驾驶员

获取更多的 大模型 与 多模态 等信息

从复杂到简单：CTS框架优化模拟到现实3D目标检测 ！

正文

请到「今天看啥」查看全文

I Introduction

II Related Work

UDA for 3D object detection

Uncertainty Estimation in 3D Object Detection

III System Setup

IV Proposed Methods

Enhancement of Pseudo-Label Quality

Iv-A1 Anchor Head (AH)

Iv-A2 RoI Random Scaling (RRS) and Augmentation

3D Detection with Aleatoric Uncertainty

Noise-aware Mean Teacher

Iii-C1 Object-Level Soft Sampling

V Experiments

Experimental Setup (adsbygoogle = window.adsbygoogle || []).push({});

V-A1 Datasets

V-A2 Evaluation Metric

V-A3 Implementation Details

Main Results

Ablation Study

Iv-C1 Benefits of Anchor Head

Iv-C2 Benefits of RRS and Second-stage Augmentation

Iv-B3 Benefits of Corner-Format AU

Iv-B4 Benefits of Noise Awareness in Mean Teacher

Limitations

第六部分 结论

参考

请到「今天看啥」查看全文

从复杂到简单：CTS框架优化模拟到现实3D目标检测！

Experimental Setup

第六部分结论