专栏名称: 我爱计算机视觉
关注计算机视觉与机器学习技术的最前沿,“有价值有深度”,分享开源技术与最新论文解读,传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习,QQ群:928997753,52CV君个人账号:Your-Word。
目录
相关文章推荐
超级数学建模  ·  《哪吒》刷屏,其实46年前这个“初代哪吒”就 ... ·  2 天前  
超级数学建模  ·  限时领 | ... ·  2 天前  
超级数学建模  ·  为什么有些 985、211 ... ·  3 天前  
超级数学建模  ·  亚朵酒店的控温被,是怎么火起来的? ·  3 天前  
超级数学建模  ·  甩货,超强清仓!华熙生物胶原贵妇精华,99元 ... ·  4 天前  
51好读  ›  专栏  ›  我爱计算机视觉

TNNLS24|动态网络!同一个模型走不同路径,就能生成不同的图像描述结果!

我爱计算机视觉  · 公众号  ·  · 2024-11-14 14:58

正文




关注公众号,发现CV技术之美




本文探讨了一种用于视觉和语言任务的新型动态网络,其中推理结构针对不同的输入动态定制。之前大多数最先进的方法都是静态的和手工制作的网络,它们不仅严重依赖于专家知识,而且忽略了输入样本的语义多样性,因此导致性能不佳。

为了解决这些问题,我们提出了一种用于图像字幕的新型Dynamic Transformer Network (DTNet),它为不同的样本动态分配定制的路径,从而产生具有辨别力且准确的字幕。

具体而言,为了构建丰富的路由空间并提高路由效率,我们引入了五种基本单元,并根据其操作域即空间和通道将它们分组到两个单独的路由空间中。然后,我们设计了一个Spatial-Channel Joint Router (SCJR),它使模型能够根据输入样本的空间和通道信息进行路径定制。

为了验证我们提出的 DTNet 的有效性,我们在 MS-COCO 数据集上进行了大量实验,并在 Karpathy 分割和在线测试服务器上都取得了新的最先进的性能。

  • 论文:https://arxiv.org/abs/2406.00334
  • 源代码:https://github.com/xmu-xiaoma666/DTNet
  • 索引词:图像字幕,输入敏感,动态网络,Transformer
@ARTICLE{ma2024image,
  author={Ma, Yiwei and Ji, Jiayi and Sun, Xiaoshuai and Zhou, Yiyi and Hong, Xiaopeng and Wu, Yongjian and Ji, Rongrong},
  journal={IEEE Transactions on Neural Networks and Learning Systems}, 
  title={Image Captioning via Dynamic Path Customization}, 
  year={2024},
  volume={},
  number={},
  pages={1-15},
  keywords={Routing;Visualization;Transformers;Adaptation models;Task analysis;Feature extraction;Semantics;Dynamic network;image captioning;input-sensitive;transformer},
  doi={10.1109/TNNLS.2024.3409354}}

介绍

图像字幕旨在生成一个自然语言句子来描述给定的图像,是视觉和语言 (V&L) 研究中最基本但最具挑战性的任务之一。近年来,随着一系列创新方法的出现[1, 2, 3, 4, 5, 6, 7, 8],图像字幕得到了快速发展。

然而,最近大多数用于图像字幕的架构[9, 10, 11, 12, 13, 14, 15, 11]都是静态的,所有输入样本都通过相同的路径,尽管它们的外观差异和语义多样性很大。这种静态架构有两个局限性:1) 静态网络无法根据输入样本调整其架构,因此缺乏灵活性和辨别力。如图 1 (a) 所示,由于模型容量的限制,当输入语义相似的图像时,静态模型往往会忽略细节并生成相同的句子,这一点在之前的工作 [16, 17, 12] 中也有提及。值得注意的是,这种使用静态网络的“安全”字幕模式严重阻碍了为图像生成信息丰富且描述性的句子。2) 这种静态网络的设计严重依赖于开发人员和用户的专业知识和经验反馈。

图 1: Vanilla Transformer (静态) 和我们的 DTNet (动态) 的说明。不同颜色的圆圈代表不同的单元,不同颜色的箭头代表不同输入样本的数据流。注意,橙色和绿色圆圈分别代表空间和通道操作。在这个例子中,静态模型 (a) 倾向于为相似的图像生成相同的句子,而动态网络 (b) 可以通过动态路由生成信息丰富的字幕。图 5 中显示了更多示例。

为了解决这些问题,如图 1 (b) 所示,我们探索了一种新的范式,在网络设计中加入动态路由,以实现自适应和灵活的字幕生成。然而,将典型的动态路由策略应用于图像字幕时,会出现三个问题:

  1. 大多数动态网络 [18, 19, 20] 主要关注卷积核的动态设计,而忽略了空间多尺度建模和通道级建模。
  2. 当前的动态方法将所有候选模块置于同一个路由空间,导致路由效率低下。
  3. 动态网络 [21, 20, 22, 18, 19, 23] 中的大多数路由器都基于 Squeeze-and-Excitation [24] 架构,其中空间信息被 全局平均池化 操作破坏。

在本文中,我们提出了一种新颖的输入依赖型 Transformer 架构,称为 Dynamic Transformer Network (DTNet),以同时解决这三个问题。为了解决第一个动态设计问题,我们引入了五个基本单元来对空间域和通道域中的输入样本进行建模,从而构建更丰富的路由空间。为了解决第二个路由效率问题,我们将五个提出的单元分组到两个独立的路由空间,这降低了路由优化的难度。

具体而言,在空间域中,三个单元用于全局、局部和轴向建模;在通道域中,两个单元分别通过投影和注意力机制进行通道级建模。为了解决最后的信息损失问题,我们提出了一种新颖的 Spatial-Channel Joint Router (SCJR),它对输入样本的空间和通道信息进行全面的建模,以生成自适应路径权重。特别地,SCJR 将空间和通道域的建模解耦到两个分支,然后综合处理两个分支的输出以生成相应的路径权重。

基于上述新颖的设计,在推理过程中,不同的样本自适应地通过不同的路径进行定制处理。值得注意的是,与自注意力和前馈网络相比,大多数提出的基本单元都是轻量级的,因此我们提出的 DTNet 在参数增加可忽略的情况下,相对于普通 Transformer (i.e., 36.15 M vs. 33.57 M) 取得了显著的性能提升。

总之,我们的贡献有三方面:

  1. 我们提出了一种自适应的 Dynamic Transformer Network (DTNet) 用于输入敏感的图像字幕生成,它不仅为相似的图像生成更多有区别性的字幕,而且为多样化的图像字幕生成提供了一种创新的范式。
  2. 我们引入了五个基本单元,这些单元在空间和通道域中使用不同的机制对输入特征进行建模,以构建一个丰富的路由空间,实现更灵活的动态路由。
  3. 我们提出了 Spatial-Channel Joint Router (SCJR),通过联合考虑空间和通道建模来进行动态路径定制,以弥补之前路由器的信息损失。

在 MS-COCO 基准测试集上的大量实验表明,我们提出的 DTNet 显著优于之前的 SOTA 方法。此外,在 Flickr8K [25] 和 Flickr30K [26] 数据集上的实验结果也验证了 DTNet 的有效性和泛化性。

图 2:所提出的 Dynamic Transformer Network (DTNet) 用于图像字幕生成的框架。视觉特征是根据 [27] 提取的。接下来,堆叠的动态编码器层用于编码视觉特征,这些特征具有各种依赖于输入的架构,这些架构由我们提出的 Spatial-Channel Joint Router (SCJR) 确定。最后,来自编码器的特征将被馈送到解码器中以逐字生成字幕。为了简便起见,编码器中的残差连接被省略。最好在彩色下查看。

相关工作

之前的 V&L 研究主要集中在面向任务的网络架构设计上,这在很大程度上依赖于专家经验和经验反馈。与之前的工作不同,我们提出的 DTNet 将动态地为每个输入样本定制最合适的路径,这在图像字幕中很少被探索。在本节中,我们将首先回顾图像字幕的发展,然后介绍动态网络的最新趋势。

图像字幕

图像字幕是一项具有挑战性和基础性的任务,促进了多种应用的发展,例如,人机交互。随着深度学习的快速发展,我们可以观察到大量的改进,其中出现了许多方法[28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42],例如,SCST [43],Up-Down [44],AoANet [45],M2Transformer [46],X-LAN [35] 和 OSCAR [47]。通常,当前的字幕方法可以分为三类,即,基于模板的方法 [48, 49],基于检索的方法 [50, 51, 52, 42] 和基于生成的方法 [53, 44]。基于模板的方法 [48, 49] 识别视觉概念,如物体、属性和关系,然后将它们插入预定的短语模板中,这些模板包含几个空位,以完成字幕。基于模板的方法可以创建语法上准确的字幕。

然而,模板是预先定义的,因此语言的灵活性和生成的字幕的长度受到严重限制。基于检索的方法 [51, 52] 试图从现有的字幕池中搜索与查询图像匹配的句子。由于这些方法不会生成新的字幕来描述给定的图像,因此它们很难捕捉图像的独特性和复杂的语义。随着自然语言处理 (NLP) 和计算机视觉 (CV) 中生成模型的兴起,基于生成的图像字幕方法 [53, 44] 正在成为主流方法。

具体来说,大多数基于生成的方法遵循编码器-解码器范式,其中编码器用于将图像编码为视觉矢量表示,解码器用于基于这些矢量表示生成描述给定图像的字幕。由于其高度灵活性和高性能,基于生成的方法已获得研究人员大量的时间和精力投入。

但是,大多数以前的图像字幕模型都是静态的,它们严重依赖于专业设计,并阻碍了多样化句子的生成。与静态模型相比,我们的 DTNet 基于输入样本进行路径定制,因此提高了模型的灵活性和适应性。此外,静态模型只能为一张图像生成一个句子,而我们的 DTNet 可以通过控制路径权重为同一个输入生成不同的句子。

动态网络

神经科学领域的实证证据 [54, 55] 表明,在处理不同的信息时,海马体的不同部分会被激活,这揭示了大脑的动态特性。

受此发现的启发,旨在根据相应的输入调整架构的动态网络已成为计算机视觉中的一个新的研究重点,例如,图像分类 [19, 18, 56, 57, 58]、目标检测 [59, 60]、语义分割 [61, 62, 63]、长尾分类 [64]。Chen 等人 [19] 提出了动态卷积,这是一种新设计,可以在不增加网络深度或宽度的同时提高模型的复杂性。Li 等人 [62] 研究了一种新方法,即动态路由,以减轻语义表示中的尺度差异,该方法根据图像的尺度分布生成与数据相关的路由。Duggal 等人 [64] 提出了提前退出框架 (ELF) 来解决长尾问题,其中简单的示例将首先退出模型,而困难的示例将由更多模块处理。在 V&L 领域,Zhou 等人 [23] 提出了一个动态设计,通过感受野掩蔽来捕获视觉问答 (VQA) 的局部和全局信息。

然而,动态路由很少在更通用的 V&L 任务中得到探索,例如 图像字幕。直接将现有的动态机制融入图像字幕模型会导致次优性能。因此,在本文中,我们探索了一种用于图像字幕的动态方案,以实现更好的性能并生成多样化的字幕。

值得注意的是,尽管 TRAR [23] 也借鉴了动态网络的概念,但我们提出的 DTNet 与它有很大的不同。首先,TRAR 侧重于动态空间建模,因此动态思想只体现在对动态感受野的使用中,而我们提出的 DTNet 的动态思想同时体现在空间和通道建模中。

其次,TRAR 是一种具有动态感受野的 Transformer,它使用注意力掩码来控制感受野。我们的 DTNet 提出了多个建模单元和空间-通道联合路由器来实现对输入敏感的网络架构。值得注意的是,我们的研究引入了五个新颖的基本单元,每个单元都有独特的角色,并以独特的方式为特征提取过程做出贡献。

当单独考虑这些单元时,感知到的边际增益掩盖了我们在将它们全部组合在一起时观察到的协同性能增益。实际上,正是这组单元所带来的综合方法,而非单个单元的性能,真正促成了我们所取得的最先进技术的进步。


方法

在本节中,我们介绍了用于图像字幕的提出的 动态 Transformer 网络 (DTNet) 的细节,其中特定的网络架构随输入样本而变化。特别地,我们首先在第 III-A 节中介绍 DTNet 的概述。然后,我们在第 III-B 节和第 III-C 节中详细介绍了空间和通道路由空间中五个基本单元的架构。之后,我们在第 III-D 节中展示了我们提出的 空间-通道联合路由器 (SCJR) 的设计。最后,我们在第 III-E 节中详细阐述了图像字幕训练过程中的目标。

概述

图 2 说明了我们提出的 DTNet 的总体架构。给定一张图像 I,我们首先根据 [27] 提取视觉特征 V∈ℝH×W×C,其中 H、W、C 分别表示视觉特征的高度、宽度和通道维数。

然后,我们将视觉特征输入到提出的动态编码器中,以获得编码的视觉特征 V^∈ℝH×W×C,其公式为:

其中 η⁢(⋅) 表示动态编码器中的操作。如图 2 中间部分所示,前向路径不是静态的,而是由我们提出的路由器自适应地确定的,即 架构随输入而变化。

特别地,动态路由操作可以表述如下:

其中 K 是路由空间中的单元数量,即 候选路径的数量,x 是输入,πk⁢(x) 是给定 x 的第 k 个单元的路径权重,Yk 是第 k 个单元的输出,Y^ 是动态输出。

最后,编码的视觉特征将被输入到解码器中,解码器遵循 Vanilla Transformer [65] 的架构,以生成相应的标题。

图 3:空间和通道路由空间中不同单元的详细架构。为简化起见,省略了 BatchNorm。
图 4:不同单元的感受野说明。(a) 全局建模单元,(b) 局部建模单元,(c) 轴向建模单元。深蓝色网格是查询网格,浅蓝色区域是感受野,其余白色区域是不可感知区域。

空间建模单元

为了感知空间域中不同感受野的信息,我们定制了三个单元,包括 全局建模单元 (GMC)、局部建模单元 (LMC) 和 轴向建模单元 (AMC),如图 3 中的粉色块所示。特别是,GMC、LMC 和 AMC 分别在空间维度上对全局、局部和轴向信息进行建模,起着特定的作用。

全局建模单元 (GMC)

为了捕捉视觉特征中的全局依赖关系,引入了全局建模单元 (GMC)。如图 3 [S1] 所示,它是利用 Transformer [65] 的多头自注意力 (MHSA) 机制实现的。

MHSA 的 i 头可以表示为:

其中,WiQ、WiK、WiV∈ℝC×C/ℋ 是可学习的投影矩阵,ℋ 代表头的数量,dk 是 X⁢WiK 中通道维度的数量。之后,所有头的输出在通道维度上连接在一起,如下所示:

其中 [;] 是在通道维度上的连接操作,WO∈ℝC×C 是可学习的参数矩阵。GMC 的感受野如图 4 (a) 所示。

局部建模单元 (LMC)

一系列工作 [66, 67, 68, 69, 70, 71] 表明,平移不变性和局部感知对于图像识别至关重要。因此,除了全局建模之外,我们还引入了 LMC 来感知不同尺度的物体。如图 3 [S2] 所示,LMC 由两个多分支卷积、一个激活函数(即 ReLU)和一个归一化函数(即 Sigmoid)组成。每个多分支卷积可以表示为:

其中 i∈{0,1} 是多分支卷积的索引,B⁢Ni⁢(⋅)、Fi1×1⁢(⋅)、Fi3×3⁢(⋅) 分别表示批量归一化 [72]、1×1 Conv 和 3×3 Conv 1 。使用 ReLU 激活模块来连接这两个多分支卷积。

之后,我们将对输出进行归一化并将归一化权重应用于输入:

其中 δ⁢(⋅) 是 Sigmoid,⊗ 是逐元素乘法。LMC 的感受野如图 4 (b) 所示。

轴向建模单元 (AMC)

之前的工作 [69, 73] 已经表明,图像中的轴向建模对于信息感知至关重要。因此,我们还引入了一个简单的单元来在图像中执行轴向注意,详细说明如图 3 [S3] 所示。

具体来说,X∈ℝH×W×C 表示 AMC 的输入。我们采用两个全连接 (FC) 层来覆盖输入的宽度和高度维度,分别获得 XW∈ℝH×W×C 和 XH∈ℝH×W×C。之后,X 将与 XH 和 XW 连接如下:

为了进行后处理,我们使用一个 FC 层来降低 Xc⁢o⁢n 的通道维度,并使用 sigmoid 函数来归一化输出,得到轴向注意力权重。最后,根据注意力权重重新加权输入,这可以表示为:

其中 Wr⁢e⁢c∈ℝ3⁢C×C 是可学习的参数矩阵。AMC 的感受野如图 4 (c) 所示。

通道建模单元

我们探索了在通道域中建模信息的两种替代方法,i.e., 基于投影和基于注意力的方法。具体来说,我们引入了两种单元来通过投影和注意力对信息进行建模。通道投影单元 (CPC) 和通道注意力单元 (CAC) 分别在通道维度上运行并执行不同的操作。

通道投影单元 (CPC)

CPC 是一种基于投影的方法,用于在通道域中建模信息,它使用前馈网络 (FFN) [65] 实现。具体来说,如图 3 [C1] 所示,它包含两个 FC 层,中间有一个 ReLU 激活函数:

其中 W1C⁢P⁢C∈ℝC×4⁢C 和 W2C⁢P⁢C∈ℝ4⁢C×C 是可学习的投影矩阵,b1 和 b2 是偏差项,σ⁢(⋅) 是激活函数,i.e., ReLU [74]。

通道注意力单元 (CAC)

CAC 是一种基于注意力的通道建模方法,如图 3 [C2] 所示。具体来说,我们采用广泛使用的 Squeeze-and-Excitation (SE) [24] 来实现它,它包含一个多层感知器和一个 Sigmoid 函数,如下所示:

其中 P⁢o⁢o⁢l⁢(⋅) 是空间域中的平均池化操作,W1C⁢A⁢C∈ℝC×C16 和 W2C⁢A⁢C∈ℝC16×C 是可学习的投影矩阵,δ⁢(⋅) 是 Sigmoid 函数,σ⁢(⋅) 是 ReLU 激活函数。

具体而言,将 CAC 集成到我们模型背后的主要动机源于它在增强表示能力方面的重要作用。通过调整自适应权重,CAC 有选择地强调和增强最相关的特征通道。通过通道注意机制,我们的模型获得了动态分配注意力的能力,以关注特定的特征通道。这种动态分配使模型能够专注于最有信息量的通道,同时抑制不太有用的通道。此外,CAC 的包含旨在补充我们模型架构中的通道投影单元 (CPC)。虽然 CPC 负责使用具有非线性激活的堆叠全连接层学习复杂的特征表示,但 CAC 通过微调各个特征通道的重要性,在更细粒度的层面上运行。CAC 和 CPC 的组合产生了更强大、更灵活的特征表示能力,正如 Tab. II 中最后三行的分析所示。

空间-通道联合路由器

以前大多数动态网络 [23, 21, 19] 中的路由器都是基于 SE [24] 的,在全局池化期间会破坏空间位置信息。为了克服这一局限性,我们提出了一种新颖的空间-通道联合路由器 (SCJR),如图 2 的绿色块所示。在我们的提议中,输入特征由两个分支处理,即一个用于通道域,另一个用于空间域。在通道分支中,输入首先通过全局空间池化 (𝒢⁢𝒮⁢𝒫) 在空间域中被压缩,然后由多层感知器 (M⁢L⁢P) 处理,其公式为:

其中 σ⁢(⋅) 是 ReLU 激活函数,W1C⁢h⁢a∈ℝC×Cr1,W2C⁢h⁢a∈ℝCr1×p(r1=16 是我们实验中的默认设置),p 是候选路径的数量。

同样,空间分支可以表示为:

其中 𝒢⁢𝒞⁢𝒫⁢(⋅) 是全局通道池化,W1S⁢p⁢a∈ℝN×N/r2,W2S⁢p⁢a∈ℝN/r2×p(r2=7 是我们实验中的默认设置),为了简便起见,省略了重塑操作,N 是网格的数量,即 i.e., N=H×W。

最后,通道分支和空间分支的输出将被连接起来,然后输入到一个 MLP,然后进行 S⁢o⁢f⁢t⁢m⁢a⁢x 归一化:

其中 [;] 是张量的连接操作,W1J⁢o⁢i⁢n⁢t∈ℝ2⁢p×p,W2J⁢o⁢i⁢n⁢t∈ℝp×p,W^∈ℝp 是每条路径的最终权重。

优化

DTNet 可以用于各种 V&L 下游应用。对于图像字幕,我们首先使用交叉熵 (CE) 损失预训练我们的模型,该损失表示为:

其中 y1:T∗ 是具有 T 个词的真实字幕,θ 表示我们模型的参数。

然后,根据 CIDEr [75] 和 BLEU-4 [76] 的总和,模型按照自关键序列训练 (SCST) [43] 进行优化:

其中 k 是束搜索大小,r⁢(⋅) 表示奖励,b=(∑ir⁢(y1:Ti))/k 表示奖励基线。


实验

数据集和实验设置

我们在流行的图像字幕基准 MS-COCO [77] 上评估我们提出的方法,该基准包含超过 120,000 张图像。具体来说,它包括 82,783 张训练图像、40,504 张验证图像和 40,775 张测试图像,每张图像都标注了 5 个标题。为了离线评估,我们采用 Karpathy 分割 [78],其中 5,000 张图像用于验证,5,000 张图像用于测试,其余图像用于训练。为了在线评估,我们将生成的 COCO 官方测试集的标题上传到在线服务器。

视觉特征是从 Jiang 等人 et al. [27] 提供的 Faster R-CNN [79] 中提取的。为了减少自注意力机制的计算量,我们按照 Luo 等人 et al. [36] 将特征平均池化到 7×7 网格大小。

为了公平比较,我们使用与经典方法类似的实验设置,例如 [36, 37, 46]。具体来说,dm⁢o⁢d⁢e⁢l 为 512,头部数量为 8,FFN 的扩展率为 4,波束大小为 5,优化器为 Adam [80],编码器和解码器的层数为 3。请注意,除了简单的增强(e.g., 随机裁剪、随机旋转)之外,我们没有使用任何额外的预处理数据。在 CE 训练阶段,批次大小为 50,学习率在最初的 4 个时期线性增加到 1×10-⁢4。之后,我们将其设置为 2×10-⁢5,4×10-⁢6 在第 10 个和第 12 个时期。在 18 个时期的 CE 预训练之后,我们选择了在批次大小为 100 和学习率为 5×10-⁢6 的情况下,在 SCST 优化中取得最佳 CIDEr 分数的检查点。学习率将在第 35 个、第 40 个、第 45 个、第 50 个时期分别设置为 2.5×10-⁢6,5×10-⁢7,2.5×10-⁢7,5×10-⁢8,SCST 训练将持续 42 个时期。

按照标准评估协议,我们利用流行的字幕指标来评估我们的模型,包括 BLEU-N [76]、METEOR [81]、ROUGE [82]、CIDEr [75] 和 SPICE [83]。

表 I:空间建模单元的消融研究。所有值均以百分比 (%) 表示。B-N、M、R、C 和 S 分别代表 BLEU-N、METEOR、ROUGE-L、CIDEr-D 和 SPICE 得分。GMC、LMC 和 AMC 分别代表全局建模单元、局部建模单元和轴向建模单元。

表 II:关于通道建模单元的消融研究。B-1、B-4、M、R、C 和 S 分别代表 BLEU-1、BLEU-4、METEOR、ROUGE、CIDEr 和 SPICE 得分。CAC 和 CPC 分别代表通道注意力单元和通道投影单元。

表 III:关于动态空间和通道块的各种排列的消融研究。‘S’ 和 ‘C’ 分别代表空间和通道。‘&’ 和 ‘+’ 分别代表并行和串行连接。B-1、B-4、M、R、C 和 S 分别代表 BLEU-1、BLEU-4、METEOR、ROUGE、CIDEr 和 SPICE 得分。

表 IV:关于各种路由器的消融研究。B-1、B-4、M、R、C 和 S 分别代表 BLEU-1、BLEU-4、METEOR、ROUGE、CIDEr 和 SPICE 得分。

表 V:关于单元分组操作的消融研究。B-1、B-4、M、R、C 和 S 分别代表 BLEU-1、BLEU-4、METEOR、ROUGE、CIDEr 和 SPICE 分数。

表 VI:不同分组组合的性能比较。B-1、B-4、M、R、C 和 S 分别代表 BLEU-1、BLEU-4、METEOR、ROUGE、CIDEr 和 SPICE 分数。

消融分析

对空间建模单元的消融

为了深入了解三个空间建模单元,我们进行了详细的消融研究。如表 I 所示,我们观察到无论配备哪个单元,性能都会显著提高,这证明了我们提出的单元的有效性。此外,与 LMC 和 AMC 相比,GMC 实现了更好的性能,这表明全局建模比局部和轴向建模起着更重要的作用。此外,我们可以观察到,与单独依赖一种类型相比,同时使用两种空间建模单元可以提高性能。

例如,当 GMC 和 AMC 同时参与时,我们注意到 CIDEr 分数显着增加;根据测量结果,与仅使用 GMC 或 AMC 相比,分别增加了 1.0 CIDEr 和 0.9 CIDEr。此外,我们发现,将所有三个空间建模单元(GMC、LMC 和 AMC)结合起来可以获得更大的收益。这种现象可以归因于全局、局部和轴向建模在空间域中的协同效应。总之,这些不同的建模技术共同增强了对图像中视觉语义的理解。因此,这种协调有助于生成更准确、更流畅的图像字幕。

重要的是,在使用我们提出的三个空间建模单元的实验中,CIDEr 分数提高了 2.4(即从 132.5 到 134.9)。这表明这些单元为空间信息建模提供了一种有效的机制。

关于通道建模单元的消融

为了探索通道建模单元的影响,我们还进行了增量消融研究。如表 II 所示,我们可以观察到,配备通道建模单元也有助于提高性能。具体来说,CAC 和 CPC 帮助字幕模型在 CIDEr 分数上分别提高了 0.8% 和 1.0%,因此基于注意力的单元和基于投影的单元都可以提高模型的语义建模能力和生成字幕的准确性。

此外,配备这两个通道建模单元可以进一步提高性能,即 CIDEr 分数提高 2.8%。虽然 CAC 和 CPC 都是通道域中的建模模块,但由于它们的建模原理不同(即 基于注意力的方法和基于投影的方法),它们可以互相促进以实现更高的性能。重要的是,表 II 显示由于我们提出的两个通道建模单元,CIDEr 分数提高了 2.8(从 132.1 到 134.9),从而证明了它们在通道信息建模方面的有效性。

表 VII:关于各种路由类型的消融研究。B-1、B-4、M、R、C 和 S 分别代表 BLEU-1、BLEU-4、METEOR、ROUGE、CIDEr、SPICE 分数。

不同单元排列的影响

为了探索不同建模单元排列的影响,我们比较了三种排列空间和通道建模单元的方式:并行通道-空间 (S&C)、顺序通道-空间 (C+S) 和顺序空间-通道 (S+C)。表 III 总结了不同排列方法的结果。通过分析实验结果,我们发现 S+C 的性能始终优于 S&C 和 C+S。

表 VIII:Karpathy 测试集上的 SOTA 比较。B-1、B-4、M、R、C 和 S 分别代表 BLEU-1、BLEU-4、METEOR、ROUGE、CIDEr 和 SPICE 分数。

表 IX:COCO 在线测试服务器上已发表的最先进的图像字幕模型的排行榜。†代表同时采用网格和区域视觉特征。

表 X:使用相同的 ResNeXt-101 网格特征在 Karpathy 测试集上与 SOTA 方法进行比较。B-1、B-4、M、R、C 和 S 分别代表 BLEU-1、BLEU-4、METEOR、ROUGE、CIDEr 和 SPICE 分数。

不同路由器的影响

与之前的工作不同,之前的路由器基于 Squeeze-and-Excitation [24],我们提出的 SCJR 根据输入样本的通道和空间信息执行路径定制。

为了验证其有效性,我们通过解耦 SCJR 的空间和通道分支进行了大量的消融实验。此外,我们还报告了“静态路由器”的性能,它直接对所有单元的输出进行求和。如表 IV 中所述,我们观察到我们提出的 SCJR 比基于空间和基于通道的路由器表现得更好,这证实了在空间和通道域中联合建模的重要性。

特别是,在 CIDEr 分数上,SCJR 的性能比基于空间和基于通道的路由器分别高出 1.8% 和 1.3%。请注意,所有动态路由器都比“静态路由器”表现得更好,这表明动态路由对于推动图像字幕中的性能至关重要。

单元分组操作的影响

为了探索单元分组操作的影响,我们还通过将所有空间和通道建模单元放置在相同的路由空间中进行实验。如表 V 所示,我们观察到,如果没有分组操作,性能会显著下降(即 在 CIDEr 分数上下降 1.4%)。原因可能是空间和通道单元是互补的,将它们放置在相同的路由空间中会损害路由效率。在根据先验知识进行分组后,模型不再需要决定是走通道路径还是空间路径,从而降低了优化难度。

不同路由类型的影响

使用 Gumbel-Softmax 技巧 [99],我们还实现了一种端到端的硬路由方案,它在编码器中实现了二进制路径选择。如表 VII 所示,我们发现硬路由模型的性能比软路由模型差,但仍然优于静态模型,这可以用子模型的数量来解释。在静态模型中,所有样本都通过相同的路径,因此静态模型中的子模型数量为 1。同样,由于二进制路径选择,硬路由模型中子模型的上限数量为 Πi=1L⁢(Nsi⁢Nci),其中 L 是编码器层的数量,Nsi,Nci 是 i 层中的空间和通道建模单元的数量。软路由模型可以根据输入样本分配不同的路径权重,因此软路由模型中子模型的上限数量为 +∞。

不同分组组合的影响

为了研究不同分组组合的影响,我们广泛地检查了一系列分组配置,其中包括在同一路由空间内空间建模单元和通道建模单元的不同组合。我们的实证结果如表 VI 的前六行所示,一致地表明,当空间和通道建模单元在路由空间中混合时,性能会下降,程度不同。当我们将这两类单元分配到单独的路由空间时,图像字幕模型获得了对空间和通道建模的集中关注,我们认为这是获得优异性能的关键。这一观察结果证实了我们早期的假设,即空间建模单元和通道建模单元的功能是相互补充的,从而表明不同分组的关键作用。基于这些经验基础的观察和后续分析,我们建议将五种基本单元类型分别划分为两个不同的组,分别用于空间建模和通道建模。

通用性能比较

离线评估

在表 VIII 中,我们报告了我们提出的 DTNet 与以前 SOTAs 在离线 COCO Karpathy 分割上的性能比较。为了公平比较,我们报告了单个模型的结果,不使用任何集成技术。可以观察到,我们的 DTNet 在大多数指标方面都优于其他模型。具体来说,DTNet 的 CIDEr 分数为 134.9%,显著优于所有先前的方法。

图 5:Transformer [65]、Transformer M2[46]、RSTNet [37] 和 DTNet 生成的字幕示例。“GT” 是 “Ground Truth” 的缩写。

表 XI:标准 Transformer 和我们的 DTNet 不同字幕指标的性能比较。P 值来自使用配对样本进行的双尾 t 检验。粗体显示的 P 值在 0.05 的显著性水平上具有显著性。

表 XII:标准 Transformer 和我们提出的 DTNet 的 SPICE 指标子类别。P 值是通过使用配对样本进行的双尾 t 检验计算得出的。请注意,粗体显示的 p 值在 0.05 的显著性水平上具有显著性。







请到「今天看啥」查看全文