自从ViT成功应用于语义图像分类以来,基于变换器的视觉识别模型已经扩展到大量的计算机视觉任务中,例如目标检测、实例分割、语义分割和目标跟踪。对于计算机视觉变换器模型,提高多头注意力模块的计算效率是一个关键要求。当面对DIP任务时,这一要求将变得更加紧迫,因为DIP任务所需的计算成本本质上是巨大的。为此,一种直观的方法是缩短图像序列长度,如Wang et al. 和Wang et al. 中所做的。然而,这种方法可能导致一些关键信息线索丢失,这对于当前的DIP尤为重要。为了在减少计算成本的同时保留尽可能多的有用信息,也提出了一些针对视觉变换器的高效注意力方法,例如动态标记、移位窗口和焦点注意力。尽管上述方法可以缓解低效率问题,但视觉变换器中类间补丁无导向交互的问题仍然存在。在本文中,我们提出使用全局关系推理方式进行补丁交互。基于此,我们进一步使用辅助卷积分支来丰富局部特征表示。
2.3 图推理(GR)在图像识别中的应用
GR是捕获给定图像像素级长距离特征依赖性的最有效方式之一。现有的GR方法可以分为以下两类:没有外部知识库的方法和有外部知识库的方法。在本文中,我们的方法也属于第一类。在这一类中,成功的方法(例如条件随机场和随机游走操作)已经在DIP中应用于CNNs特征表示或预测的分割掩模之上,并取得了令人满意的识别性能,这些通常被视为初始全监督模型中的后处理步骤。最近,使用结构化密集连接图的图卷积操作(例如非局部操作、GloRe单元和SGR)被提出,并成功应用于几个计算机视觉任务中,例如语义分割、实例分割和目标检测。这些方法的一个共同特点是它们可以以端到端的方式进行训练,并且具有现有模型中即插即用的优势。然而,由于这些方法在其图计算过程中是完全连接的,它们将带来计算成本的大幅增加。在本文中,我们的方法受到Chen et al. 、Jain et al.、Liang et al. 、Li和Gupta 的启发,我们的贡献在于使用高效的GR机制来解决视觉变换器框架中图像块交互的两个潜在问题。此外,我们还将局部卷积特征引入GR,以增强详细的特征表示。
如图2b所示,CAE-GReaB旨在将分离的图像特征
X
GReaT、
X
F_Aux 和
X
C_Aux 编码成两组特征图,其中图推理分支用于捕获长距离特征依赖,卷积分支用于捕获局部详细信息。
高效图推理分支(E-GReaB)。
E-GReaB是CAE-GReaT层中的核心元素。我们首先使用补丁划分操作将
X
GReaT划分为一组图像补丁,并在这些图像补丁上执行补丁展平和线性嵌入操作,如3.1节所述。然后,我们将线性嵌入的图像补丁特征
X
P_GReaT(包括可学习的相对位置编码信息和层归一化)作为E-GReaB的输入,并输出一组与输入比例相同的图像补丁特征
O
P_GReaT,但包含丰富的长距离特征依赖。如图2b的下半部分所示,E-GReaB包含以下三个步骤:(1)补丁投影;(2)高效信息扩散;(3)节点映射。
补丁投影
。补丁投影的目标是将图像补丁特征从几何空间投影到图空间,图中的每个节点表示一组图像补丁的隐式视觉中心。值得注意的是,这里的每个节点并不代表任何特定的“实例”或“类别”(即连续的视觉特征),而是一个离散的区域表示。按照(Chen et al., 2019; Liang et al., 2018),我们首先使用一个可学习的补丁投影权重来实现这个目的,可以表述为:
高效信息扩散
。在获得
M
个节点后,我们可以建立一个图表示,其中每条边反映了两个节点之间的关系权重。基于这个图,信息扩散过程通过单层图卷积网络在所有节点之间实现,可以表达为:
其中
R
∈
R
^
M
×
M
是一个单位矩阵,用来在模型优化阶段减少阻力。
A
∈
R
^
M
×
M
表示用于扩散信息的邻接矩阵,包含任意两个节点之间的关系权重。在我们的工作中,
A
是随机初始化的,并与整个模型一起端到端优化。按照(Chen et al., 2019; Liang et al., 2018; Kipf & Welling, 2016; Li et al., 2018),这一步中的 (
R
−
A
) 起到拉普拉斯平滑的作用。
W
u ∈
R
^
C
×
C
表示一个可训练的状态更新权重。在这项工作中,为了减少计算成本,我们提出了一种高效的信息扩散策略。我们将状态更新权重的矩阵乘法分解为两个长而窄的乘法操作,即我们将
W
u 分解为
W
u_l1 ∈
R
^
C'
×1 +
W
u_l2 ∈
R
^1×
C'
和
W
u_r1 ∈
R
^1×
C'
+
W
u_r2 ∈
R
^
C
×1。从经验上看,分解的乘法操作与
W
u 具有相同的效果,但计算成本和参数数量更少(Peng et al., 2017; Ho et al., 2019)。例如,分解的操作有 4
C'
个参数,但使用
W
u 有
C'
×
C'
个参数。因此,基于分解矩阵乘法的信息扩散是一个高效的策略。通过步骤2,不同节点之间的全局关系信息可以通过这个单层图卷积网络完全交互。值得称赞的是,由于图中的节点数量远小于图像补丁的数量,信息扩散步骤的复杂度较低。实际上,我们也可以设计当前网络为多层结构(即多层图卷积网络)。然而,这样的设计无疑会带来显著的参数增长。第4.3节中给出了计算开销和效率之间的详细权衡分析。
卷积辅助分支(CAB)。
CAB用于通过两个各自的卷积分支对
X
F_Aux 和
X
C_Aux 进行编码,并输出一组融合的图像特征
O
Aux。我们将这两个卷积分支分别命名为粗卷积分支(通过
X
C_Aux 生成粗粒度特征)和细卷积分支(通过
X
F_Aux 生成细粒度特征)。对于
X
C_Aux,我们连续使用三组卷积层,包括1×1卷积、3×3卷积、1×1卷积和批量归一化层。这个计算过程可以表述为:
对于
X
F_Aux,我们使用1×1卷积层和批量归一化层。细粒度特征过程表示为:
基于
O
C_Aux 和
O
F_Aux,我们可以通过特征加法操作获得CAB的最终输出: