专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

Structure-CLIP：面向场景图知识以增强多模态结构化表示

FightingCV · 公众号 · · 2025-01-14 09:00

正文

摘要

大规模视觉-语言预训练在多模态理解和生成任务中取得了显著的性能提升。然而，现有方法在需要结构化表示的图像-文本匹配任务上的表现往往较差，即对对象、属性和关系的表示。 As illustrated in Fig. 1 (a), the models cannot make a distinction between “An astronaut rides a horse” and “A horse rides an astronaut”. 这是因为它们在多模态场景中学习表示时未能充分利用结构化知识。在本文中，我们提出了一种端到端的框架Structure-CLIP，它集成了 场景图知识 (SGK) 来增强多模态结构化表示。首先，我们使用场景图来指导构建 语义否定 示例，这使得学习结构化表示更加突出。此外，提出了一种 知识增强编码器 (KEE) ，利用SGK作为输入来进一步增强结构化表示。为了验证所提出框架的有效性，我们使用上述方法预训练我们的模型，并在下游任务上进行了实验。实验结果表明，Structure-CLIP在VG-Attribution和VG-Relation数据集上取得了 最先进的 (SOTA)性能，分别比多模态SOTA模型高出 12.5 % 和 4.1 % 。同时，MSCOCO上的结果表明，Structure-CLIP在保持一般表示能力的同时，显著增强了结构化表示。我们的代码可在https://github.com/zjukg/Structure-CLIP获取。

1 引言

图1：图像与匹配/不匹配标题之间的CLIP得分 (在两个结果之间归一化后) 。结果表明，CLIP模型无法区分具有结构化语义差异的句子。

视觉语言模型 (VLMs) 在各种多模态理解和生成任务中展现出显著的性能 (Radford等人，2021；Li等人，2022；Singh等人，2022；Li等人，2019) 。尽管多模态模型在各种任务中表现出色，但这些模型能否有效地捕捉结构化知识（即理解对象属性和对象之间关系的能力）的问题仍然悬而未决。

例如，如图 1 1 所示，图像与正确匹配的标题（“一名宇航员骑着一匹马”）之间的CLIP得分（即语义相似度）与图像与不匹配标题（“一匹马骑着一名宇航员”）之间的得分相比，值较低。随后，图 1 (b)说明了交换两个对象之间的属性也会对模型准确区分造成挑战。它们的语义。这些发现表明，CLIP模型产生的通用表示无法区分包含相同单词但在结构化知识方面存在差异的文本片段。换句话说，CLIP模型表现出类似于词袋方法的倾向，这种方法不理解句子中的细粒度语义 (Lin等人，2023) 。

Winoground (Thrush等人，2022) 是第一个关注这个问题并进行了广泛研究的工作。他们故意创建了一个包含400个实例的数据集，其中每个实例包含两个单词组成相同但语义不同的句子。他们评估了各种性能良好的VLM（例如，VinVL (Zhang等人，2021) ，UNITER (Chen等人，2020) ，ViLBERT (Lu等人，2019) 和CLIP (Radford等人，2021) ），旨在评估与对象、属性和关系相关的结构化表示。不幸的是，他们的研究结果表明，尽管这些模型在其他任务中表现出与人类水平相当的能力，但其结果与随机选择相当。这些任务的结果表明，一般的表示不足以进行语义理解。因此可以推断，应该更加重视结构化表示。

NegCLIP (Yüksekgönül et al. 2022) 通过整合特定任务的负样本增强结构化表示，这些负样本是通过随机交换句子中任意两个单词生成的。因此，虽然通用表示在正样本和负样本中保持一致性，但结构化表示则表现出差异。通过采用对比学习方法，它迫使模型获取结构化表示而不是通用表示。此外，NegCLIP 还提供了一个大规模的测试平台，用于评估视觉语言模型 (VLMs) 在结构化表示方面的能力。然而，NegCLIP 存在一个缺点，即在负样本构建过程中缺乏对语义知识的理解和建模，这导致负样本质量显著下降。例如，当在原始标题“黑白奶牛”中互换“白色”和“黑色”属性时，句子的底层语义含义保持不变。这种低质量的负样本进一步导致性能下降。

在本文中，我们提出了一种新方法 Structure-CLIP，它利用 场景图知识 (SGK) 来增强多模态结构化表示。首先，与 NegCLIP 中的随机交换方法相反，我们利用 SGK 来构建更符合底层意图的单词交换。其次，我们提出了一种 知识增强编码器 (KEE) ，利用 SGK 来提取重要的结构信息。通过在输入层整合结构化知识，提出的 KEE 可以进一步增强结构化表示的能力。在 Visual Genome Relation 和 Visual Genome Attribution 上的结果显示了 Structure-CLIP 的 最先进 (SOTA) 性能及其组件的有效性。此外，我们在 MSCOCO 上进行了跨模态检索评估，结果表明 Structure-CLIP 仍然保留了足够的通用表示能力。

总体而言，我们的贡献有三方面：

•

据我们所知，Structure-CLIP 是第一个通过构建 语义负 样本增强详细结构化表示的方法。
•

Structure-CLIP 中引入了一个 知识增强编码器 ，利用结构化知识作为输入来增强结构化表示。
•

我们进行了全面的实验，证明Structure-CLIP能够在结构化表示的下游任务上取得最先进的性能，并在结构化表示上取得显著改进。

图2： Structure-CLIP概述。 (a) 基于场景图的语义负采样 ：我们从标题中提取场景图，以帮助构建高质量的负样本（左部分）。 (b) 知识增强编码器 ：知识嵌入模块和多个 Transformer层用于在输入级别建模结构化知识（右部分）。

2 相关工作

2.1 视觉语言预训练

视觉语言模型 (VLMs) 旨在学习通用的跨模态表示，这有利于在下游多模态任务中取得良好的性能。根据多模态下游任务的不同，已经开发出不同的模型架构，包括双编码器架构 (Radford et al. 2021; Jia et al. 2021) 、融合编码器架构 (Tan and Bansal 2019; Li et al. 2021a) 、编码器-解码器架构 (Cho et al. 2021; Wang et al. 2022c; Chen et al. 2022a) ，以及最近的统一Transformer架构 (Li et al. 2022; Wang et al. 2022a) 。

预训练任务对 VLMs 可以从数据中学到什么有很大的影响。主要有4种类型的任务： (i) 跨模态掩码语言建模 (MLM) (Kim, Son, and Kim 2021; Lin et al. 2020; Li et al. 2021a; Yu et al. 2022) ； (ii) 跨模态掩码区域预测 (MRP) (Lu et al. 2019; Chen et al. 2020; Huang et al. 2021) ； (iii) 图像文本匹配 (ITM) (Li et al. 2020; Lu et al. 2019; Chen et al. 2020; Huang et al. 2021) ； (iv) 跨模态对比学习 (CMCL) (Radford et al. 2021; Jia et al. 2021; Li et al. 2021a; Huo et al. 2021; Li et al. 2021b) 。

最近的研究主要集中在CMCL的研究上。以CLIP模型 (Radford et al. 2021) 为例，该模型通过将正样本与数据集中所有其他样本的负样本进行比较，学习到了足够的通用表示。

2.2 结构化表示学习

结构化表示指的是匹配具有相同词组成的图像和文本的能力。 Winoground (Thrush等人，2022) 首次提出了一项用于评估视觉语言模型 (VLMs) 能力的新任务和数据集。该数据集主要包含400个手工制作的实例，其中每个实例包括两句词语构成相似但语义不同的句子，以及相应的图像。 Winoground 的评估结果通过一系列相关任务（即探测任务、图像检索任务）的实验确定了数据集的主要挑战，表明视觉方面的主要挑战-语言模型可能在于融合视觉和文本表示，而不是理解组合语言。

由于Winoground测试数据的数量有限，因此很难得出关于结构表示能力的可靠实验结果。最近， NegCLIP (Yüksekgönül等人，2022) 提供了一个大型测试平台来评估VLMs的结构化表示。此外，NegCLIP还提出了一种负采样方法来增强结构化表示。

2.3 场景图生成

一个场景图是一种结构化知识，它通过对对象、对象的属性以及对象和主体之间关系的建模，描述了多模态样本的最重要部分。通常， 场景图生成 (SGG) 模型包含三个主要模块：用于定位对象边界框的候选区域生成、用于标记检测到的对象的物体分类以及用于预测成对对象之间关系的关系预测。一些现有的工作 (Xu等人，2017; Yang等人，2018; Zellers等人，2018) 应用RNNs和GCNs来传播图像上下文，以便更好地利用上下文进行对象和关系预测。 VCTree (Tang等人，2019) 通过利用动态树结构捕获局部和全局视觉上下文。 Gu等人 (2019) 和 Chen等人 (2019) 将外部知识整合到SGG模型中，以解决噪声标注的偏差。

作为描述图像和标题详细语义的有益先验知识，场景图已帮助在多个视觉语言任务中取得了优异的性能。例如图像字幕 (Yang等人，2019) 、图像检索 (Wu等人，2019a) 、视觉问答 (Zhang, Chao和Xuan，2019; Wang等人，2022b) 、多模态情感分类 (Huang等人，2022) 、图像生成 (Johnson, Gupta和Fei-Fei，2018) 和视觉语言预训练 (Yu等人，2021) 。

3 方法

Structure-CLIP 的概述如图 2 所示。首先，我们的方法利用场景图通过生成具有相同词语构成但语义细节不同的语义负样本（ 图 2 的左侧部分 ）来增强细粒度结构化表示。其次，我们提出了一种知识增强编码器，它利用场景图作为输入，将结构化知识集成到结构化表示中（ 图 2 的右侧部分 ）。我们将在3.1节介绍通过场景图进行语义负采样，并在3.2节介绍知识增强编码器。

3.1 通过场景图进行语义负采样

Faghri等人 (2018) 提出了一种负采样方法，该方法涉及构建负样本以通过将它们与正样本进行比较来增强表示。我们的目标是构建具有相似一般表示但语义细节不同的样本，从而鼓励模型专注于学习结构化表示。

场景图生成。

包括对象、对象的属性以及对象之间关系在内的详细语义对于理解视觉场景至关重要。它们对于旨在增强视觉和语言联合表示的跨模态学习至关重要。在我们的框架中，采用 (Wu等人 2019b) 提供的场景图解析器将文本解析为场景图。给定文本句子 𝐰 ，我们将其解析为场景图 (Johnson等人 2015) ，表示为 G ( 𝐰 ) = < O ( 𝐰 ) , E ( 𝐰 ) , K ( 𝐰 ) > ，其中 O ⁢ ( 𝐰 ) 是 𝐰 中提到的对象的集合， R ⁢ ( 𝐰 ) 是关系节点的集合，而 E ⁢ ( 𝐰 ) ⊆ O ⁢ ( 𝐰 ) × R ⁢ ( 𝐰 ) × O ⁢ ( 𝐰 ) 是表示对象之间实际关系的超边的集合。 K ⁢ ( 𝐰 ) ⊆ O ⁢ ( 𝐰 ) × A ⁢ ( 𝐰 ) 是属性对的集合，其中 A ⁢ ( 𝐰 ) 是与对象关联的属性节点的集合。

如图 2 所示，我们基于原始标题生成场景图。以图 2 中“黑白奶牛坐在一堆黄色的干草上”的标题为例，在生成的场景图中，对象，例如“奶牛”和“干草”，是基本元素。相关的属性，例如“白色”和“黄色”，描述了物体的颜色或其他属性。诸如“坐在”之类的关系表示物体之间的空间连接。

语义负样本的选择。

对比学习旨在通过将语义上接近的邻居拉近，并将非邻居推开，来学习有效的表示。我们的目标是构建具有相似构成但语义细节不同的语义负样本。因此，负样本的质量在结构化表示学习中起着至关重要的作用。

一个多模态数据集通常由N个图像-文本对组成，其中图像和文本分别用带下标的 I 和 W 表示。给定一个图像-文本对 ( I _ ⁢ i , W _ ⁢ i ) 和一个由 W _ ⁢ i 生成的相关的场景图 G ⁢ ( W _ ⁢ i ) ，一个高质量的语义负样本 W _ ⁢ i − 通过

其中 F 是提出的采样函数， W _ ⁢ i − 表示高质量的语义负样本。具体来说，对于场景图中的三元组 ( o ⁢ b ⁢ j ⁢ e ⁢ c ⁢ t , r ⁢ e ⁢ l ⁢ a ⁢ t ⁢ i ⁢ o ⁢ n , s ⁢ u ⁢ b ⁢ j ⁢ e ⁢ c ⁢ t ) ， W _ ⁢ i − 通过

其中 S ⁢ w ⁢ a ⁢ p 是交换句子中宾语和主语的函数， O _ ⁢ 1 , R , O _ ⁢ 2 表示宾语、关系和主语。对于属性对 ( A ⁢ 1 , O ⁢ 1 ) 和 ( A ⁢ 2 , O ⁢ 2 ) 在场景图中， W _ ⁢ i − 通过

总体而言，我们利用场景图指导来构建高质量的语义负样本，而不是随机交换词语位置。我们的语义负样本保持相同的句子构成，同时改变细节语义。因此，我们的模型能够更有效地学习详细语义的结构化表示。

对比学习目标。

我们的对比学习目标是通过将图像 I _ ⁢ i 和原始标题 W _ ⁢ i 拉近，并将图像 I _ ⁢ i 和负样本 W _ ⁢ i − 推远来学习足够的表示。具体来说，我们引入了一个具有损失函数的多模态对比学习模块：

其中 γ 是边际超参数， d 表示图像 I _ ⁢ i 和原始标题 W _ ⁢ i 之间的距离，而 d ′ 表示图像 I _ ⁢ i 和原始标题 W _ ⁢ i − 之间的距离。引入对比学习目标是为了提高结构化表示的性能。同时，为了保持模型的一般表示能力，我们将原始的小批量图像-文本对比学习损失和提出的损失结合起来进行联合训练。

原始的图像-文本对比学习损失 ℒ _ ⁢ I ⁢ T ⁢ C ⁢ L 包含图像到文本的对比损失 ℒ _ ⁢ i ⁢ 2 ⁢ t 和文本到图像的对比损失 ℒ _ ⁢ t ⁢ 2 ⁢ i ，它们

图像到文本的对比损失 ℒ _ ⁢ i ⁢ 2 ⁢ t 的公式为

其中 τ 是温度超参数。类似地，文本到图像的对比损失 ℒ _ ⁢ t ⁢ 2 ⁢ i 为

因此，最终的损失，它结合了铰链损失和InfoNCE损失，为

表1：结果（ % ）在VG-Relation、VG-Attribution和MSCOCO数据集上比较我们的方法和其他基线。匹配分数分别通过多模态模型中图像嵌入和文本嵌入之间的语义相似性以及大型语言模型中的最大似然概率获得。

Domains	Models	Params	Visual Gnome		MSCOCO
Domains	Models	Params	Attribute	Relation	IR-R@1	TR-R@1
-	Random Chance	-	50.00	50.0	0.02	0.1
Multi-modal Models	VILT (VIT-B/32)	87 M	20.3	39.5	37.3	53.4
	FLAVA	241 M	58.1	28.0	38.5	43.5
	CLIP-Base (ViT-B/32)	151 M	60.1	59.8	30.4	50.1
	CLIP-Large (ViT-L/14)	427M	61.1	61.5	36.5	56.3
	Neg-CLIP	151 M	71.0	81.0	41.0	56.0
Large Language Models	BART	300 M	73.6	81.1	-	-
	FLAN-T5	11 B	76.5	84.4	-	-
	OPT	175 B	79.8	84.7	-	-
Ours	Sturcture-CLIP-Base	220 M	82.3	84.7	41.2	55.6
Ours	Structure-CLIP-Large	496 M	83.5	85.1	48.9	58.2

3.2 知识增强编码器

在本节中，我们提出了一种知识增强编码器，它利用场景图作为文本输入来增强结构化表示。首先，我们使用以下函数对图像 I _ ⁢ i 和文本 W _ ⁢ i 进行编码：

v ~ = C ⁢ L ⁢ I ⁢ P _ ⁢ v ⁢ i ⁢ s ⁢ ( I _ ⁢ i ) ,

(9)

z ~ = C ⁢ L ⁢ I ⁢ P _ ⁢ t ⁢ e ⁢ x ⁢ t ⁢ ( W _ ⁢ i ) ,

(10)

其中 C ⁢ L ⁢ I ⁢ P _ ⁢ v ⁢ i ⁢ s 和 C ⁢ L ⁢ I ⁢ P _ ⁢ t ⁢ e ⁢ x ⁢ t 分别表示CLIP模型的视觉编码器和文本编码器。

然而，CLIP模型以词袋的方式处理文本输入，忽略了文本的详细语义。相反，结合场景图可以捕捉句子中关键的结构信息，从而使模型能够更深入地理解文本的细粒度语义。

因此，该知识增强编码器显式地将详细的知识建模为模型输入，即对象、对象的属性以及成对对象之间的关系。具体来说，我们对两种结构化知识：对和三元组，制定了统一的输入规范。我们将关系连词“is”添加到该对中以统一表示。例如，以这种方式，对 ( w ⁢ h ⁢ i ⁢ t ⁢ e , c ⁢ o ⁢ w ) 将被视为三元组 ( c ⁢ o ⁢ w , i ⁢ s , w ⁢ h ⁢ i ⁢ t ⁢ e ) 。这样就得到了一组三元组 𝒯 _ ⁢ i ⁢ n = { ( h _ ⁢ i , r _ ⁢ i , t _ ⁢ i ) | i ∈ [ 1 , k ] } ，其中 ( h _ ⁢ i , r _ ⁢ i , t _ ⁢ i ) 分别表示头实体、关系实体和尾实体。对于 𝒯 _ ⁢ i ⁢ n 中的每个三元组 ( h _ ⁢ i , r _ ⁢ i , t _ ⁢ i ) ，我们使用 BERT (Devlin 等人 2019) 中的 Tokenizer 和 Word Vocabulary Embeddings 来获取每个实体嵌入 w _ ⁢ h , w _ ⁢ r , w _ ⁢ t ：

w _ ⁢ x = W ⁢ o ⁢ r ⁢ d ⁢ E ⁢ m ⁢ b ⁢ ( x ) , x ∈ [ h , r , t ] ,

(11)

为了获得每个实体嵌入的三重嵌入，我们使用以下编码函数：

e _ ⁢ t ⁢ r ⁢ i ⁢ p ⁢ l ⁢ e _ ⁢ i = E ⁢ N ⁢ C _ ⁢ t ⁢ r ⁢ i ⁢ p ⁢ l ⁢ e ⁢ ( h _ ⁢ i , r _ ⁢ i , t _ ⁢ i ) = w _ ⁢ h , i + w _ ⁢ r , i − w _ ⁢ t , i ,

(12)

其中 E N C _ t r i p l e ( . ) 是三重编码函数。有了这个三重编码器，我们的方法可以更好地解决头尾实体顺序颠倒的问题，详细分析在第2节中进行了说明。 4.4.3.

通过这种方式，K个三元组可以被处理成K个语义嵌入。然后我们将 e _ ⁢ t ⁢ r ⁢ i ⁢ p ⁢ l ⁢ e 输入到多个 Transformer层以获得最终表示。

e _ ⁢ K ⁢ E = T ⁢ R ⁢ M ⁢ s ⁢ ( [ e _ ⁢ t ⁢ r ⁢ i ⁢ p ⁢ l ⁢ e _ ⁢ 1 , … , e _ ⁢ t ⁢ r ⁢ i ⁢ p ⁢ l ⁢ e _ ⁢ K ] ) ,

(13)

知识增强编码器使我们能够从所有输入的三元组中提取足够的结构化知识，这可以作为有效的结构化知识来提高结构化表示的性能。

因此，知识增强编码器可以用来获得文本知识嵌入 s 。然而，仅仅依赖结构化知识可能会导致丢失一般语义的表示。因此，我们整合了文本嵌入 s 和结构化知识嵌入 s ：

	e _ ⁢ t ⁢ e ⁢ x ⁢ t	= z ~ + λ ⁢ e _ ⁢ K ⁢ E		(14)
		= C L I P _ t e x t ( W _ i ) + λ ⋅ T R M s ( [ e _ t r i p l e _ * ] ) ,		(14)

其中 λ 是一个超参数， z ~ 和 e _ ⁢ K ⁢ E 分别表示原始文本嵌入和结构化知识嵌入。

我们的文本表示包含整个句子携带的单词信息以及句子中详细语义组成的结构化知识。同样，我们在训练过程中使用了公式 5 中所示的相同损失策略。

表2： VG-Relation和VG-Attribution数据集上消融研究的结果( % )，用于分析不同的组件。结果表明，每个组件都极大地提高了结构化表示的能力。

Methods	Finetune	Negatives	KEE	VG-Attribution	VG-Relation
CLIP	✗	✗	✗	60.1	59.8
CLIP (fine-tune)	MSCOCO ( ours )	✗	✗	64.0	66.5
Neg-CLIP	MSCOCO ( full )	Random	✗	71.0	81.0
w/ {Random Change}	MSCOCO ( ours )	Random	✗	73.9	77.7
w/ {Semantic Negative}	MSCOCO ( ours )	Semantic	✗	77.8	79.0
w/ {Transformer}	MSCOCO ( ours )	✗	✓	65.7	68.8
Structure-CLIP