专栏名称: 小白学视觉

本公众号主要介绍机器视觉基础知识和新闻，以及在学习机器视觉时遇到的各种纠结和坑的心路历程。

IJCV 2024 | CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测

小白学视觉 · 公众号 · · 2024-07-06 12:13

正文

点击上方“ CVPaper ”，选择加" 星标 "或“ 置顶 ”

顶刊论文解读，第一时间分享

CAE-GReaT: Convolutional-Auxiliary Efficient Graph Reasoning Transformer for Dense Imag

CAE-GReaT: 卷积辅助高效图推理Transformer用于密集图像预测。

Dong Zhang, Yi Lin, Jinhui Tang, Kwang-Ting Cheng

摘要

卷积神经网络（CNNs）和视觉变换器（ViT）是当前计算机视觉领域语义图像识别任务的两个主要框架。普遍的共识是，CNNs和ViT都有其潜在的优势和弱点，例如，CNNs擅长提取局部特征但难以聚合长距离特征依赖性，而ViT擅长聚合长距离特征依赖性但对局部特征的表示较差。在本文中，我们提出了一个辅助的集成网络架构，名为卷积辅助高效图推理变换器（CAE-GReaT），它将CNNs和ViT的优势结合到一个统一的框架中。CAE-GReaT站在先进图推理变换器的基础上，并采用内部辅助卷积分支来丰富局部特征表示。此外，为了降低图推理中的计算成本，我们还提出了一种高效的信息扩散策略。与现有的ViT模型相比，CAE-GReaT不仅具有目标交互模式的优势（通过图推理分支），而且可以通过辅助卷积分支捕获细粒度的异构特征表示。我们在三个具有挑战性的密集图像预测任务上进行了广泛的实验，即语义分割、实例分割和全景分割。结果表明，CAE-GReaT能够在保持轻微计算成本的同时，在最先进的基线上实现一致的性能提升。

关键词

视觉变换器，卷积神经网络，辅助学习，密集图像预测

1 引言

密集图像预测（DIP），例如语义分割、实例分割和全景分割，是多媒体和计算机视觉社区中一个基础但具有挑战性的研究任务，其目标是为给定图像中的每个目标像素分配一个唯一的类别标签。在过去的几年中，这些任务已经被深入研究，并被应用于广泛的实际应用中，例如自动驾驶、生物医学图像分析和安全监控系统。

在深度学习时代，由于卷积神经网络（CNNs）在图像处理方面的巨大进步，成功的密集图像预测方法主要基于精心设计的CNNs作为骨干网络。然而，由于基于卷积的残差块的局部感受野有限（通过一组堆叠的局部卷积），CNNs只能捕获给定图像的短距离特征依赖性（也称为局部上下文），这对于某些复杂案例和多样化的场景来说是不够的。例如，特征依赖性的不足可能导致预测的对象掩模不完整和零碎。为了解决这个问题，提出了许多改革性的方法。这些方法主要基于CNNs，目标是通过扩大有效感受野或使用一些特定的全局上下文建模方案，来捕获长距离特征依赖性。

尽管基于CNNs的方法及其扩展取得了初步成功，但卷积操作中固有的局部性问题仍然存在。最近，受到变换器框架在自然语言处理领域的成熟应用的启发，视觉变换器（ViT）框架已在多媒体和计算机视觉社区中得到广泛研究，并在图像和视频上取得了许多令人瞩目的成果。对于图像识别的标准ViT框架，如图1b所示，ViT编码器层主要由图像块划分操作、块/位置嵌入操作、层归一化、多头注意力层、多层感知层和一些特定任务操作组成（例如，特征图的向量化、多尺度特征组合操作和块合并。作为核心组件之一，多头注意力用于图像块交互，并以无偏的全连接方式实现，可以捕获长距离特征依赖性（也称为全局上下文信息）。因此，卷积操作中固有的局部性问题可以完全在ViT框架中解决。

然而，现有的多头注意力机制中的补丁交互过程可能存在以下两个问题：问题1）类内补丁的冗余交互，问题2）类间补丁的无导向交互。对于问题1），这意味着对于一些属于同一类别并且在没有包含任何对象边界信息的同时，它们之间的交互将不会有信息量并且是不必要的。移除这部分补丁交互不仅可以增加模型的交互效率，而且还有潜力提高模型的泛化能力和鲁棒性。这也是为什么基于空间和基于注意力的dropout和标记重组方法在ViT模型中有效的原因。对于问题2），这意味着现有的补丁交互在多头注意力机制的帮助下不区分不同的对象类别，并且以大致无偏的方式执行。例如，在一张同时出现“人”、“马”和“天空”的图像中。现有的补丁交互方法将这三个对象之间的交互视为一致的，而我们期望“人”和“马”之间的交互比“人”和“天空”之间的交互更为重要。因为常识表明，“人”和“马”的共现比“人”和“天空”的共现更为重要。因此，现有的补丁交互方式与常识不符。为了解决上述两个问题，如图1c所示，我们在之前的作品中提出了一个图推理变换器（GReaT），它使图像块能够按照全局关系推理模式进行交互。所有图像块在完全连接的交互后被投影到图空间，然后被投影回几何空间。与传统的ViT框架相比，GReaT具有更高的交互效率和有目的的交互模式。

尽管GReaT在图像块交互方面取得了成功，但在一些复杂的视觉场景中，GReaT在图推理模式下获得的简单特征表示可能不够充分。此外，ViT框架还存在着一些固有问题，例如缺乏平移不变性和局部特征的弱项。为了解决这些问题，在本文中，我们提出了一个辅助的集成网络架构，名为卷积辅助高效图推理变换器（CAE-GReaT），它将CNNs和ViT各自的优势结合到一个统一的框架中，用于DIP任务。如图1d所示，CAE-GReaT编码器层主要由两个分支组成：高效的图推理分支，用于通过基于图的图像块交互捕获长距离特征依赖性，以及辅助卷积分支，用于通过丰富局部特征表示来缓解ViT的固有问题。CAE-GReaT的统一特征表示是通过这两个互补分支的特征表示通过特征聚合过程获得的。此外，为了降低图推理中的计算成本，我们提出了一种高效的信息扩散策略。与现有的ViT模型和CNNs模型相比，CAE-GReaT不仅具有目标交互模式的优势（通过图推理分支），而且可以学习细粒度的异构特征表示（通过辅助卷积分支）。为了证明CAE-GReaT的有效性和效率，我们在几个代表性和具有挑战性的DIP任务的几个数据集上进行了广泛的实验，即语义分割、实例分割和全景分割。实验结果表明，CAE-GReaT能够在保持轻微计算成本的同时，在最先进的基线上实现一致的性能提升。本文的主要贡献总结如下：(1) 提出了一个统一的CAE-GReaT框架，用于DIP任务，通过捕获局部特征表示来解决ViT的固有问题；(2) 我们在几个密集图像预测任务上与最先进的ViT基线相比，以轻微的计算成本取得了一致的性能提升。本文是我们之前工作的扩展。特别是，我们进行了以下改进：

我们提出了一个辅助卷积分支，以补偿平移不变性缺乏和局部特征的弱点。
我们提出了一种高效的信息扩散策略，以减少图推理过程中的计算成本。-我们将实验从语义分割扩展到一般密集图像预测任务，并取得了有竞争力的结果。

2 相关工作

2.1 密集图像预测（DIP）

基于FCN的思想，通过应用渐进式主干网络，现有的DIP方法主要可以分为以下三种类型：（1）基于CNNs的方法，（2）基于ViT的方法，以及混合方法（即混合CNNs和ViT）。在第一种类型中，这些方法主要使用CNNs作为主干，并为上采样或上下文聚合添加了一些特定操作。特别是，为了缓解多尺度目标识别结果的不准确性并提高计算效率，大多数模型采用了基于特征金字塔的方法用于实例分割和全景分割，例如FPN、FPT和PFP。但总的来说，这类方法的特征是基于CNNs的局部表示。在第二种类型中，输入图像首先被划分为图像块，然后转换为序列。在此基础上，通过一系列重复操作（例如，层归一化、块交互和残差连接）完成变换器编码。最后，在模型输出之前，在编码的图像序列上部署上采样和块合并操作。这类方法的优势在于能够天生获得长距离依赖性。然而，由于缺乏局部特征表示，这类方法在保持平移不变性方面存在缺陷。在第三种类型中，方法主要基于同时利用CNNs和变换器的优势作为起点，例如TransUNet、ConFormer、nnFormer、CMT、CVT、ACmix和Next-ViT。尽管第三种类型的方法具有CNNs和ViT的优势，但ViT（见第1节）中固有的两个问题仍使混合方法存在固有缺陷。在这项工作中，我们遵循基于变换器的框架进行DIP任务。我们的贡献是使ViT框架能够捕获局部特征表示，同时解决现有ViT模型的固有问题。

2.2 视觉变换器（ViT）

自从ViT成功应用于语义图像分类以来，基于变换器的视觉识别模型已经扩展到大量的计算机视觉任务中，例如目标检测、实例分割、语义分割和目标跟踪。对于计算机视觉变换器模型，提高多头注意力模块的计算效率是一个关键要求。当面对DIP任务时，这一要求将变得更加紧迫，因为DIP任务所需的计算成本本质上是巨大的。为此，一种直观的方法是缩短图像序列长度，如Wang et al. 和Wang et al. 中所做的。然而，这种方法可能导致一些关键信息线索丢失，这对于当前的DIP尤为重要。为了在减少计算成本的同时保留尽可能多的有用信息，也提出了一些针对视觉变换器的高效注意力方法，例如动态标记、移位窗口和焦点注意力。尽管上述方法可以缓解低效率问题，但视觉变换器中类间补丁无导向交互的问题仍然存在。在本文中，我们提出使用全局关系推理方式进行补丁交互。基于此，我们进一步使用辅助卷积分支来丰富局部特征表示。

2.3 图推理（GR）在图像识别中的应用

GR是捕获给定图像像素级长距离特征依赖性的最有效方式之一。现有的GR方法可以分为以下两类：没有外部知识库的方法和有外部知识库的方法。在本文中，我们的方法也属于第一类。在这一类中，成功的方法（例如条件随机场和随机游走操作）已经在DIP中应用于CNNs特征表示或预测的分割掩模之上，并取得了令人满意的识别性能，这些通常被视为初始全监督模型中的后处理步骤。最近，使用结构化密集连接图的图卷积操作（例如非局部操作、GloRe单元和SGR）被提出，并成功应用于几个计算机视觉任务中，例如语义分割、实例分割和目标检测。这些方法的一个共同特点是它们可以以端到端的方式进行训练，并且具有现有模型中即插即用的优势。然而，由于这些方法在其图计算过程中是完全连接的，它们将带来计算成本的大幅增加。在本文中，我们的方法受到Chen et al. 、Jain et al.、Liang et al. 、Li和Gupta 的启发，我们的贡献在于使用高效的GR机制来解决视觉变换器框架中图像块交互的两个潜在问题。此外，我们还将局部卷积特征引入GR，以增强详细的特征表示。

2.4 多尺度表征学习（MSRL）

MSRL已被广泛用于捕获细粒度的多尺度特征表示，并解决图像中对象尺度不一致的问题。一般来说，现有的MSRL模型用于密集图像预测可以分为以下两种类型：（1）用于主干的方法（例如，Inception网络、Res2Net、SKNets、ResNeXt、ResNeSt和视觉变换器框架中的多头注意力），以及（2）用于头部网络的方法（例如，PSP、PPM、ASPP、FPT、ASNB和APNB）。在几个识别任务上的广泛实验结果已经验证了这些MSRL方法的有效性。除了这些明确的方法外，还有一些使用隐式多尺度学习策略的思想的操作。例如，代表性的混合Softmax，它使用不同的卷积将特征图投影到不同的表示空间，并在加权求和到原生空间之前，对每个子空间中的特征表示进行归一化。尽管这些方法没有显式使用多尺度表示，它们的本质是多尺度学习模式。在本文中，我们将特征图投影到不同的空间，并使用图推理操作和基于卷积的操作，在统一的特征表示框架中捕获细粒度的多尺度特征。我们的贡献是使从不同尺度学习分支获得的特征表示相互支持，以互补ViT和CNNs各自的缺点。

3 方法论

3.1 预备知识

视觉变换器框架被提出来弥补传统CNN模型在捕获长距离特征依赖方面的不足。在本节中，我们重新审视了标准视觉变换器框架的工作流程。对于给定的图像，我们首先使用图像块划分操作将其划分为个图像块，表示为，其中和分别表示图像的高度和宽度。表示通道大小，表示图像块在高度和宽度上的分辨率。表示第个图像块，。因此，有个图像块，它们被用作变换器层的输入。在将补丁展平为2D序列并线性嵌入到特征空间后（即，），我们然后向每个序列添加一个可学习的相对位置编码，以确保每个补丁的空间信息可以被保留，其中表示线性嵌入操作后的通道维度。这个过程可以表述为：

其中表示可学习的相对位置编码层。表示包含相对位置信息的图像补丁。为了书写方便，我们在后续的公式中省略了补丁展平和线性嵌入。然后，对执行层归一化和多头注意力操作，分别用于归一化和交互。借助残差连接，我们可以获得交互后的补丁：

其中表示层归一化操作，表示所有图像补丁的多头自注意力。表示与其他图像补丁交互后获得的补丁。然后，在上执行层归一化操作和前馈网络。经过来自的残差连接后，当前的输出可以通过以下方式获得：

其中表示前馈网络，表示当前输出。在ViT模型中，上述步骤被串联形成一个整体层，称为变换器编码层。当这个变换器编码层多次实现（如果需要，还包括残差连接和下采样操作），就形成了一个变换器编码器网络，可以用来提取输入图像的语义特征。与CNN相比，图像补丁特征具有丰富的长距离依赖信息。这些特征最终被重塑并上采样到与输入图像相同的空间分辨率，并在补丁合并后用于密集预测。

3.2 CAE-GReaT概述

当前的ViT框架可能存在内部类补丁的冗余交互和不同类别间补丁的无导向交互问。特别是，在密集图像预测任务中，这些问题更为严重，因为这个领域的常用方法通常采用较小的补丁大小来保留对象的边界信息和细节，导致大量平凡补丁的出现。在这项工作中，我们的目标是通过使图像补丁在图空间中交互来解决这两个问题。此外，为了弥补ViT框架中缺乏平移不变性和局部特征的弱点，我们使用基于卷积的分支来编码局部特征，使模型更好地应用于DIP。对于CAE-GReaT，输入是图像，输出是预测的语义掩模，其中表示所使用的数据集的类别大小（包括一个背景）。CAE-GReaT主要由变换器编码器网络和变换器解码器网络组成。对于编码器网络，有四个阶段，来自Stage-1到Stage-4的特征具有输入空间分辨率的1/4、1/8、1/16和1/32。在每个编码器阶段中，如Dosovitskiy等人、Liu等人、Touvron等人、Wang等人所述，有多个重复的变换器编码层。在本工作中，变换器编码层指的是所提出的CAE-GReaT层（见3.3节）。如图1d所示，CAE-GReaT层由两个分支组成：高效的图推理分支，用于通过基于图的图像补丁交互捕获长距离特征依赖，以及辅助卷积分支，用于通过丰富局部特征表示来缓解ViT的固有问题。CAE-GReaT的统一特征表示是通过特征聚合过程将这两个互补分支的特征表示融合而成。此外，为了减少图推理中的计算成本，提出了一种高效的信息扩散策略。对于解码器网络和特定于任务的头部网络，我们遵循先前方法中的相同设置，通过使用渐进式上采样策略或多级特征聚合策略。

3.3 CAE-GReaT层

CAE-GReaT层的实现示意图如图2所示。输入是一组图像特征，输出是另一组增强的特征，其比例与输入相同。CAE-GReaT层主要由三个组成部分：(1)特征分离，(2)卷积辅助高效图推理块（CAE-GReaB），以及(3)特征聚合。

3.3.1 特征分离（FS）

FS的目标是沿通道维度将输入图像特征分离到三个不同的子空间中，每个子空间包含一组通道大小为256的特征图。如图2a所示，这些特征中，一组用于高效的图推理分支，另外两组用于辅助卷积分支。为了实现这一目标，对于每个子空间，我们使用3×3卷积、1×1卷积和批量归一化层。每个子空间的特征分离过程可以表述为：

其中表示用于高效图推理分支的分离特征。和分别是3×3卷积层和1×1卷积层。表示批量归一化层（Ioffe & Szegedy, 2015）。除了，我们还可以通过相同的过程获得用于辅助卷积分支的分离特征和。值得注意的是，FS中用于不同分支的卷积层不共享参数。

3.3.2 CAE-GReaB

如图2b所示，CAE-GReaB旨在将分离的图像特征 X GReaT、 X F_Aux 和 X C_Aux 编码成两组特征图，其中图推理分支用于捕获长距离特征依赖，卷积分支用于捕获局部详细信息。

高效图推理分支（E-GReaB）。 E-GReaB是CAE-GReaT层中的核心元素。我们首先使用补丁划分操作将 X GReaT划分为一组图像补丁，并在这些图像补丁上执行补丁展平和线性嵌入操作，如3.1节所述。然后，我们将线性嵌入的图像补丁特征 X P_GReaT（包括可学习的相对位置编码信息和层归一化）作为E-GReaB的输入，并输出一组与输入比例相同的图像补丁特征 O P_GReaT，但包含丰富的长距离特征依赖。如图2b的下半部分所示，E-GReaB包含以下三个步骤：(1)补丁投影；(2)高效信息扩散；(3)节点映射。

补丁投影 。补丁投影的目标是将图像补丁特征从几何空间投影到图空间，图中的每个节点表示一组图像补丁的隐式视觉中心。值得注意的是，这里的每个节点并不代表任何特定的“实例”或“类别”（即连续的视觉特征），而是一个离散的区域表示。按照（Chen et al., 2019; Liang et al., 2018），我们首先使用一个可学习的补丁投影权重来实现这个目的，可以表述为：

高效信息扩散 。在获得 M 个节点后，我们可以建立一个图表示，其中每条边反映了两个节点之间的关系权重。基于这个图，信息扩散过程通过单层图卷积网络在所有节点之间实现，可以表达为：

其中是一个单位矩阵，用来在模型优化阶段减少阻力。表示用于扩散信息的邻接矩阵，包含任意两个节点之间的关系权重。在我们的工作中， A 是随机初始化的，并与整个模型一起端到端优化。按照（Chen et al., 2019; Liang et al., 2018; Kipf & Welling, 2016; Li et al., 2018），这一步中的起到拉普拉斯平滑的作用。