专栏名称: 智驾实验室

欢迎关注“智驾实验室”！本公众号专注于自动驾驶领域，为您带来世界模型的最新研究，多模态大模型的深入解析，以及多模态大模型在自动驾驶领域的应用与落地。在这里，您可以了解到自动驾驶技术的最新动态，洞察行业趋势，与我们一起探索未来出行的无限可能。

SegDepthFormer | 语义分割和单目深度估计双双SOTA的多任务模型，超实时的效率高出集成方法一个数量级

智驾实验室 · 公众号 · · 2024-05-27 08:00

正文

ADAS Laboratory

点击上方蓝字关注 智驾实验室

扫描上方二维码，加入【 智驾实验室 】交流群，

获取更多内容和资料

量化预测不确定性成为了解决深度神经网络过度自信或缺乏可解释性和鲁棒性等常见挑战的可能解决方案，尽管这通常需要昂贵的计算资源。许多现实世界的应用本质上是多模态的，因此受益于多任务学习。例如，在自动驾驶中，语义分割和单目深度估计的联合解决方案已被证明是有价值的。

在这项工作中，作者首先将不同的不确定性量化方法与联合语义分割和单目深度估计结合，并评估它们相互之间的表现。此外，作者还揭示了多任务学习在不确定性质量方面相对于单独解决两个任务的优点。基于这些见解，作者提出了EMUFormer，一种用于联合语义分割和单目深度估计的新型师生蒸馏方法，以及高效的多任务不确定性量化。

通过隐式利用教师的预测不确定性，EMUFormer在Cityscapes和NYUv2上取得了新的最先进的结果，并且还为两个任务估计了高质量的可预测不确定性，这些不确定性可与深度集成相比拟或更优，尽管其效率高出一个数量级。

1 Introduction

由于在诸如语义分割或单目深度估计等基本感知任务中表现出无与伦比的性能，深度神经网络正日益被部署在实时和安全关键的应用中，如自动驾驶，工业检查，以及自动化。然而，它们常常过于自信，缺乏可解释性，并且难以区分域内样本与域外样本，这对于预测可靠性至关重要的应用来说是非常重要的。由于错误的预测可能导致严重后果，之前的工作建议量化模型预测中固有的不确定性是使这些应用更安全的可行方法。例如，在自动驾驶中，当车辆不确定时，它可以向驾驶员提供反馈，或者根据不确定性预先做出风险规避的预测。

近年来，已经提出了一些有前景的不确定性量化方法，以使深度神经网络更加稳健。不幸的是，这些方法要么引入了技术复杂性，要么需要从随机过程中进行计算昂贵的采样来估计预测的不确定性。此外，它们没有考虑到现实世界的应用，如机器人学或自动驾驶，本质上具有多模态特性，并且能从多任务学习中受益，特别是在语义分割和单目深度估计的背景下。尽管通过知识蒸馏的概念，已经有成功的尝试使不确定性量化方法更加高效，但它们要么专注于语义分割，要么专注于单目深度估计。这在当前文献中代表了一个值得注意的研究空白。

在这项工作中，作者进行了一系列全面的实验来研究多任务不确定性，并提出了一个新颖的师生蒸馏方法，用于联合语义分割和单目深度估计以及高效的多任务不确定性量化。作者的贡献可以总结如下：

作者提出了一种新颖的学生-教师提炼方法，用于联合语义分割和单目深度估计的高效多任务不确定性，该方法采用现代的Vision-Transformer，作者称之为 EMUFormer 。
作者表明，通过在训练过程中隐式地利用预测不确定性，EMUFormer可以在Cityscapes和NYUv2数据集上实现最新的技术水平。
作者结合了不同的不确定性量化方法与联合语义分割和单目深度估计，并评估了它们相互之间的表现。
作者揭示了多任务学习在不确定性质量方面相对于单独解决语义分割和单目深度估计的优势。
如表1所示，EMUFormer为两项任务估计了与Deep Ensemble教师相媲美的高质量预测不确定性，尽管其效率提高了数量级。

2 Related Work

在本节中，作者总结了关于联合语义分割和单目深度估计、不确定性量化以及知识蒸馏的相关工作。

Joint Semantic Segmentation and Monocular Depth Estimation

语义分割和单目深度估计都是图像理解中的基本问题，它们涉及基于单个输入图像的像素级预测。受到这两个任务之间的强烈相关性和互补属性的启发，多项先前工作已经专注于联合解决这两个任务。为了限制本篇文献综述的范围，作者不涉及其他具有联合表示共享的多任务方法，或者利用深度图改善语义分割预测的方法。

在他们的开创性工作中，王等人提出了一种统一的框架，通过联合训练并应用两层分层条件随机场（CRF），以强化全局和局部预测之间的协同作用，用于语义分割和单目深度预测。同样，刘等人使用了一个条件随机场，它融合了来自两个任务的特征图。相比之下，Mousavian等人分别对每个任务的模型部分进行独立训练，然后用单一的损失函数对两个任务上的完整模型进行微调。

与此类似，徐等人[70]提出了一种多任务预测-精馏网络，该网络首先预测一组中间辅助任务。这些中间输出随后被用作最终任务的多模态输入——这一概念也被Vandenhende等人[65]采用。Nekrasov等人[52]也使用了知识精馏的思想，主要关注实时估计，而没有特别深入地研究不确定性量化。焦等人[27]引入了一种关注驱动的损失，这种损失不是平等地处理图像中的所有像素，而是相互提高语义分割和单目深度估计。类似地，Bruggemann等人[4]和刘等人[39]基于将注意力机制引入架构以提高结果的想法展开研究。

相对地，高等人[14]提出了一种共享注意力块，并带有上下文监督，以及一个特征共享模块和一个一致性损失。在后续工作中，他们通过将置信度融入到损失中，来提高性能。同样，Kendall等人[29]利用同方差不确定性，他们将其定义为一个捕捉任务间相对置信度的任务相关不确定性，来加权各个损失。最后，有多项工作提出了专门的架构，他们要么通过将一个任务相关的特征与两个任务都相关的特征分离开来改善特征提取，要么通过整合目标性信息利用几何约束，或者应用随机加权训练策略来公正和动态地平衡损失和梯度。

值得注意的是，大多数讨论的方法使用了过时的架构，并且需要对模型、训练过程或两者都进行复杂的适配。为了推动最先进技术的发展，作者采用了类似于徐等人的基于现代Vision-Transformer的架构。为了保持方法论的简单性和结果的透明性，作者不引入跨任务注意力机制、对比自我监督学习算法以及[29]中的损失加权策略，尽管如此，作者仍然取得了卓越的结果。然而，这些策略也可以应用于作者的方法，可能会进一步改善结果。

Uncertainty Quantification

已经开发了多种不确定性量化方法，以弥补深度神经网络的上述不足。预测不确定性可以分解为偶然不确定性和认知不确定性。偶然不确定性捕捉的是不可减少的数据不确定性，例如，由于测量不准确，图像噪声或噪声标签可能会引入这种不确定性。认知不确定性考虑的是模型的不确定性，通过使用更多或更好的训练数据可以降低这种不确定性。对于主动学习或检测分布外样本等应用来说，分离这两种不确定性成分可能是至关重要的。例如，主动学习通过避免具有高偶然不确定性的输入而受益，除非它们表现出高认知不确定性，这对于模型改进至关重要。

大多数知名的不确定性量化方法在测试时需要多次前向传播，这使得它们在计算上非常昂贵。例如，Gal和Ghahramani 提出了蒙特卡洛丢弃法（MCD）作为随机高斯过程的近似。虽然丢弃法通常只在训练期间用于正则化，但MCD在测试时采用这种技术，从测试时的预测后验分布中进行采样。尽管MCD易于实现并且因此非常受欢迎，但深度集成学习[30]通常被认为是跨不同任务不确定性量化的最先进方法。它们由一组经过训练的模型组成，这些模型因在训练期间通过随机权重初始化或不同的数据增强引入随机性而产生多样的预测。

在测试时进行多次前向传播使得前述方法由于高昂的计算成本而不切实际甚至无法用于实时应用。因此，人们对那些需求较少开销的确定性单次前向传播方法产生了更大的兴趣。例如，Van Amersfoort等人[64]和Liu等人[37]考虑了用于量化预测不确定性的距离感知输出层。尽管这些方法提供了计算上更高效的方法，但它们与当前最先进的技术相比并不具有竞争力，并且需要对训练过程进行重大修改。Mukhoti等人[50]通过在训练后使用高斯判别分析进行特征空间密度估计，简化了前述方法。

尽管他们设法在某些设置中与深度集成模型表现相当，但他们的方法需要在训练后执行高斯判别分析，这增加了复杂性。相比之下，Valdenegro-Toro提出了一种简单但有效的深度集成模型的近似方法，其中集成只覆盖了模型的子集层而不是整个模型。这些所谓的深度子集成（DSE）能够在不确定性质量与计算成本之间进行权衡。

据作者所知，到目前为止，还没有研究探索在联合语义分割和单目深度估计中量化预测不确定性。为此，作者比较了针对这一任务的多种不确定性量化方法，并研究了多任务学习与分别解决这两个任务相比，如何影响不确定性估计的质量。

Knowledge Distillation

知识蒸馏，由Hinton等人提出[22]，涉及将复杂模型（教师）的知识传递给通常更小的模型（学生），旨在通过模仿教师的预测或从中间特征传递知识，来提高学生在给定任务上的性能。更近期的作品对知识蒸馏的概念进行了调整，以实现实时不确定性量化。尽管一些之前的工作采用MCD来估计学生学习的的不确定性，但大多数研究提出使用深度集成。在这些研究中，Deng等人[7]是唯一考虑多任务问题的工作，他们关注的是情感识别。

为了在联合语义分割和单目深度估计中实现实时的不确定性量化，作者提出了EMUFormer，一种新颖的学生-教师蒸馏方法，旨在在推理过程中不引入速度惩罚的情况下，同时保留预测和不确定性的质量。

3 Methodology

在以下内容中，作者将概述本文的方法论，描述作者用于分析联合语义分割和单目深度估计不确定性的 Baseline 模型。作者还将解释作者的学生-教师蒸馏方法，以实现高效的多任务不确定性。

Overview

本文大致可以分为两部分：

首先，作者评估了多任务学习如何影响不确定性的质量。
其次，作者提出了EMUFormer，一种用于高效多任务不确定性的新颖的学生-教师蒸馏方法。

多任务不确定性评估。 借鉴了关于不确定性量化（第2.2节）的相关研究，作者评估了深度集成（Deep Ensembles, DEs），蒙特卡洛丢弃（Monte Carlo Dropout, MCD），以及深度子集成（Deep Sub-Ensembles, DSEs）。选择这些方法是因为它们的简单性，易于实施，可并行性，最小的调参要求，以及在不确定性量化方面的当前最先进水平。

此外，将这些方法应用于语义分割和单目深度估计是直接的，而其他提到的的不确定性量化方法则不是这样。

为了探索多任务学习对不确定性质量的影响，作者使用三种模型进行了所有评估：

SegFormer : 一种高效的语义分割视觉 Transformer 。

DepthFormer : 一种高效的单目深度估计视觉转换模型。

SegDepthFormer ：一种联合模型，同时解决语义分割和单目深度估计问题。

作者从SegFormer 架构中派生出了后两种网络：DepthFormer和SegDepthFormer。关键的修改将在第3.2.2节和第3.2.3节中分别进行解释。

EMUFormer. 为了在不牺牲预测性能或不确定性质量的情况下实现高效的多任务不确定性，作者提出了EMUForner。EMUForner采用师生蒸馏作为两步框架：首先，作者用GT标签训练一个合适的教师模型，该模型能够量化高质量的不确定性。随后，作者用同样的GT标签训练一个学生模型，同时提炼教师模型的不确定性。

Baseline Models

以下，作者将讨论三种基准模型：SegFormer，DepthFormer 和 SegDepthFormer。对于这三种模型，作者将简要描述其架构，说明训练准则，以及作者如何获得不确定性的测量。虽然这些模型能够估计aleatoric不确定性，但它们不能量化更完整的预测不确定性，这包括epistemic不确定性。为此，必须使用上述不确定性量化方法之一。

3.2.1 SegFormer

架构。 对于语义分割任务，作者使用了SegFormer，这是一种基于现代Transformer的架构，因其高效率和性能而脱颖而出。因此，它特别适合于实时不确定性量化。

如图1所示，SegFormer包括两个主要模块：一个分层Transformer编码器，生成高分辨率粗特征和低分辨率细特征，以及一个轻量级的全MLP分割解码器。后者融合了编码器的多级特征，通过softmax激活函数产生最终的分割预测，其公式可以表示为：

在公式中，是softmax函数的类别概率，该函数对输入向量的每个个元素进行指数运算，这些元素通常被称为logits，然后对这些结果进行归一化以得到概率分布。由于SegFormer 只在的分辨率下输出logits，给定一个大小的输入图像，作者在对应用softmax函数之前使用双线性插值来获得最终分割预测的原始分辨率。

训练准则。 在训练期间，作者使用了众所周知的类别交叉熵损失（categorical Cross-Entropy loss）作为目标函数。

其中是单一图像的交叉熵损失，是图像中的像素数量，是类别数量，是相应的真实标签，而是预测的softmax概率。

随机不确定性。 作者计算预测熵。

这作为偶然不确定性的度量。

3.2.2 DepthFormer

架构。 受到SegFormer的效率和性能启发，作者提出了DepthFormer用于单目深度估计。

如图2所示，作者使用了与SegFormer相同的分层次基于Transformer的编码器来生成高级和低级特征。同样，这些多级特征在一个全MLP解码器中融合。与分割解码器相比，深度解码器不同之处在于它有两个输出通道：一个用于预测均值，另一个用于预测方差。

预测均值。 第一个输出通道使用整流线性单元（ReLU）作为输出激活函数。

该表达式作为单目深度估计的预测均值。

预测方差。 第二个输出通道应用Softplus激活函数。

这是ReLU函数的一种平滑近似，其优点是即使在处也是可微分的。从经验上讲，作者发现Softplus在预测方差方面比ReLU表现得更好，这遵循了Lakshminarayanan等人的工作。

训练准则。 对于回归任务，神经网络通常只输出一个预测均值，而在最直接的方法中，参数是通过最小化均方误差（MSE）来优化的。然而，MSE并没有涵盖不确定性。

因此，作者采用了Nix和Weigend的方法：将神经网络的预测视为从一个具有预测均值和相应预测方差的高斯分布中抽取的样本，作者可以最小化高斯负对数似然（GNLL）损失，其可以表述为：

其中是真实深度值。

随机不确定性。 通过GNLL最小化，DepthFormer不仅优化了预测均值，而且本质上学习到了相应的方差，这可以被解释为随机不确定性。

3.2.3 SegDepthFormer

架构。 为了联合解决语义分割和单目深度估计问题，作者提出了SegDepthFormer。

如图3所示，该架构包括三个模块：分层基于Transformer的编码器、全MLP分割解码器和全MLP深度解码器。编码器和分割解码器改编自SegFormer，而深度解码器来自DepthFormer。两个解码器都融合了通过共享编码器获得的多级特征，分别预测最终的分割 Mask 和像素级深度估计。

训练准则。 SegDepthFormer模型被训练以最小化之前描述的两个目标函数的加权总和：

在这里，是一个简单的加权因子。由于两个损失值的数量级相似，作者设置。然而，调整可能会略微提高 SegDepthFormer 的性能。

随机不确定性。 对于分割任务，通过计算预测熵（见方程3）来获得相应的随机不确定性，或者通过预测方差（见方程5），这是通过优化隐式学习的。

EMUFormer

在以下内容中，作者解释了作者用于高效多任务不确定性的学生-教师提炼框架，作者称之为EMUFormer。作者使用EMUFormer的目标有三方面：

实现最先进的联合语义分割和单目深度估计结果。
为两项任务准确估计校准后的预测不确定性。
在推理过程中避免引入额外的计算开销。

为了实现这些目标，EMUFormer采用了一个两步的学生-教师蒸馏框架：

训练一个带有真实标签的教师模型。
训练学生模型使用真实标签的同时，提炼教师模型的预测不确定性。

教师。 尽管作者的框架对于教师的类型具有灵活性，但作者使用了一种已知能够产生高质量估计的DE。

学生。 作者建议为学生模型采用SegDepthFormer架构，因其简便性、性能和效率。然而，原则上任何能够输出语义分割 Mask 以及用于单目深度估计的预测均值和方差的架构都是适用的。