专栏名称: 小白学视觉

本公众号主要介绍机器视觉基础知识和新闻，以及在学习机器视觉时遇到的各种纠结和坑的心路历程。

TPAMI 2024 | 基于身份引导协同学习的更换衣物行人再识别

小白学视觉 · 公众号 · · 2024-06-28 10:08

正文

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ”

重磅干货，第一时间送达

题目：Identity-Guided Collaborative Learning for Cloth-Changing Person Reidentification

基于身份引导协同学习的更换衣物行人再识别

作者：Zan Gao; Shengxun Wei; Weili Guan; Lei Zhu; Meng Wang; Shengyong Chen

摘要

更换衣物行人再识别 (ReID) 是一个新兴的研究课题，旨在解决由于更换衣物和行人视角/姿势变化导致的特征变化问题。虽然通过引入额外的信息（例如人类轮廓素描信息、人类身体关键点和3D人类信息）取得了显著进展，但更换衣物行人再识别仍然具有挑战性，因为行人的外观表示随时可能发生变化。此外，人类语义信息和行人身份信息尚未得到充分利用。为了解决这些问题，我们提出了一种新颖的基于身份引导的协同学习方案 (IGCL) 用于更换衣物行人再识别，其中人类语义被有效利用且身份保持不变以引导协同学习。首先，我们设计了一种新的衣物注意力退化流，以合理减少衣物信息带来的干扰，其中使用了衣物注意力和中层协同学习。其次，我们提出了一种人类语义注意力和身体拼图流，以突出人类语义信息并模拟同一身份的不同姿势。这样，提取的特征不仅关注与背景无关的人类语义信息，还适合行人姿势的变化。此外，我们还提出了一种行人身份增强流，以增强身份的重要性并提取更有利的身份鲁棒特征。

最重要的是，所有这些流在端到端的统一框架中共同探索，并利用身份来引导优化。在六个公共衣物更换行人ReID数据集（LaST、LTCC、PRCC、NKUP、Celeb-reID-light和VC-Clothes）上的广泛实验表明，IGCL方法的优越性。它在多个数据集上优于现有方法，并且提取的特征具有更强的表示和区分能力，与衣物的相关性较弱。

关键词

更换衣物行人ReID
协同学习
衣物注意力退化
人类语义注意力
行人身份增强

I. 引言

行人再识别 (ReID) 是计算机视觉和机器学习中的一个活跃研究课题，其目的是在不同摄像头之间匹配相同身份的行人。在过去的十年中，这项任务取得了显著的进展。然而，大多数文献都基于行人衣物不会改变的假设，要求行人的视觉外观具有相同的衣物。在现实条件下，当监控采集周期延长时，通常会发生换衣现象。如果在这种情况下直接应用现有的行人ReID方法，其性能会显著下降且经常失败。一些研究人员更关注研究更换衣物行人ReID任务，即当只给定一个穿着另一件衣服的探测图像时，寻找其他摄像头视角中的相同行人。

一些研究人员在更换衣物行人ReID任务中做出了有益的尝试。之前，为了促进更换衣物行人ReID任务的发展，建立了不同的数据集，例如LTCC、PRCC、Celeb-reID和NKUP。最近，一些研究人员提出了新颖的更换衣物行人ReID方法。例如，Yang等人提出了SPT+ASE模块，其中使用人类轮廓素描解耦图像的颜色信息，并在深度神经网络中引入了空间极化变换 (SPT) 层以变换轮廓素描。Hong等人提出了一种新颖的细粒度形状-外观互学习框架 (FSAM)，在低层特征和高层特征之间进行交互学习，将知识从形状流转移到外观流。这种方法允许外观流独立部署，无需额外的掩码估计算法。

在更换衣物行人ReID任务中，主要有两个挑战：I）穿着不同衣物的行人和II）行人视角/姿势的变化。尽管之前的研究在解决这些问题方面取得了性能提升，但仍存在一些局限性：

表示不足 : 由于人类外观在穿着不同衣物时表现出很大的变化，例如，同一人穿着不同衣物时的差异，以及不同人穿着相似衣物时的相似性。因此，现有方法很难提取具有区分性和鲁棒性的特征表示。因此，减少换衣影响以显著提高其视觉表示的鲁棒性和区分性是一个亟待解决的问题。
语义信息开发不足 : 尽管在许多现有的ReID方法中使用了人类语义信息，但它们主要关注身体形状或轮廓素描，而人类语义信息未得到有效探索（换句话说，往往忽略了人体不同部位的意义）。因此，如何充分利用人类语义信息仍然是一个未被充分探索的问题。
对行人身份的重视不足 : 大多数现有方法不关注行人身份，通常从原始特征中隐式学习身份分类特征，而没有根据行人特征强调与身份强相关的部分。因此，显式引导模型学习身份分类特征并强调身份重要性值得探索。

为了解决上述问题，我们设计了一种新颖的IGCL框架，用于更换衣物行人ReID，以利用鲁棒和信息丰富的行人表示。为了解决表示不足的问题，我们提出了一种统一的端到端协同学习网络架构，其中不同的流共同探索。此外，我们引入了衣物注意力图激活模块，以减少衣物信息带来的干扰。这样可以提取出更鲁棒和具有区分性的特征表示。为了解决语义信息开发不足的问题，我们提出了人类语义注意力和身体拼图模块，以突出人类语义信息并丰富同一身份的不同姿势的样本分布。此外，为了解决对行人身份的重视不足的问题，我们设计了行人身份增强模块，以增强身份的重要性。此外，在每个模块中，行人身份保持不变。六个公共更换衣物行人ReID数据集的实验结果验证了我们框架的优越性。

本文的主要贡献如下：

我们开发了一种新颖的更换衣物行人ReID方案，将四种不同的流集成到一个端到端的统一框架中。此外，人类语义被有效利用，身份保持不变以引导协同学习。这样，提取的特征更鲁棒、具有区分性且与衣物无关。
我们设计了一种新颖的衣物注意力退化流 (CAD)，以减少衣物信息带来的干扰，其中衣物区域的重要性被削弱，并采用了衣物注意力和中层协同学习。此外，我们提出了人类语义注意力和身体拼图流 (SAJ)，以突出人类语义信息并模拟同一身份的不同姿势。我们开发了行人身份增强流 (PIE) 以增强身份的重要性，其中仅使用头部和肩部信息。因此，可以提取到更有利的身份鲁棒特征来识别行人身份。请注意，“中层协同学习”是指在多个尺度上蒸馏衣物区域的低权重特征。
我们系统且全面地评估了所提出的IGCL在六个公共更换衣物行人ReID数据集上的表现，包括LaST、LTCC、PRCC、NKUP、Celeb-reID-light和VC-Clothes。实验结果表明，IGCL获得了更鲁棒且具有区分性的身份相关特征，同时有效减少了衣物干扰。IGCL在多个数据集上显著提高了mAP和Rank-1。

本文余下部分组织如下：第二节介绍相关工作，第三节描述所提出的IGCL方法。第四节描述实验设置、结果及结果分析。第五节呈现消融研究的详细信息，第六节为结论。

III. 方法

如图2所示，IGCL方法包括两个阶段——编码器和解码器。损失函数用于优化编码器和解码器的网络参数。为了获得原始图像的不同和丰富的表示，通过编码器获得衣物掩码、前景图像和屏蔽图像。然后将这些图像输入解码器。解码器由骨干网、CAD流、SAJ流和PIE流组成，它们在端到端的统一框架中协同学习。此外，人类语义和身份信息被有效利用，每个流中的身份保持不变。由于这些流是互补的，它们相互促进，提取的特征更具有区分性和鲁棒性，并且与衣物无关。我们注意到，衣物退化特征（CAD流的输出）、原始特征（骨干网的输出）、语义特征（SAJ流的输出）和身份增强特征（PIE流的输出）是解码器的主要特征表示。此外，通过优化骨干网中的不同特征提取器，可以提取更具有区分性且与衣物无关的特征。实验表明，这种新颖的IGCL方案在多个公共更换衣物行人ReID数据集上的表现优于现有方法。

A. 预处理

为了有效提取与衣物无关的行人特征，首先对原始图像进行预处理。在预处理中，我们通过人体解析模型获得前景图像、衣物掩码和屏蔽图像。具体来说，前景图像表示行人的前景部分，包括头部、躯干、手臂和腿部。衣物掩码表示行人的衣物区域。屏蔽图像是指遮挡行人衣物区域的图像。这样，通过在编码器中引入前景图像、衣物掩码和屏蔽图像，可以在解码器中有效减少衣物信息带来的干扰，从而提取更具有区分性的行人特征。

B. 编码器

编码器的目标是通过输入原始图像生成前景图像、衣物掩码和屏蔽图像。编码器包括三个主要模块：前景提取模块、衣物掩码生成模块和屏蔽图像生成模块。前景提取模块通过人体解析模型从原始图像中提取前景图像。衣物掩码生成模块通过人体解析模型生成行人的衣物掩码。屏蔽图像生成模块利用前景图像和衣物掩码生成屏蔽图像。通过编码器生成前景图像、衣物掩码和屏蔽图像后，这些图像将被输入解码器，以提取更具有区分性的行人特征。

C. 解码器

解码器包括骨干网、CAD流、SAJ流和PIE流。骨干网是解码器的核心模块，用于提取行人特征。CAD流、SAJ流和PIE流是解码器的辅助模块，用于增强行人特征的区分性和鲁棒性。

骨干网 : 骨干网使用ResNet-50作为基础网络，通过多个卷积层提取行人特征。为了提取更具有区分性的行人特征，我们在骨干网的最后一层添加了一个全连接层，并使用ReLU激活函数进行激活。
CAD流 : CAD流用于减少衣物信息带来的干扰，并增强与衣物无关的特征。CAD流包括衣物注意力模块（CAMA）和中层协同学习模块。CAMA通过通道注意力减少衣物区域的注意力，并通过中层协同学习模块在衣物特征图和空间注意力图之间进行协同学习，以提取更具有区分性的行人特征。
SAJ流 : SAJ流用于增强人类语义信息并模拟同一身份的不同姿势。SAJ流包括人类语义注意力模块和身体拼图模块。人类语义注意力模块通过人体解析模型提取前景图像，并通过注意力机制增强前景图像中的语义信息。身体拼图模块通过将前景图像进行拼图操作，模拟同一身份的不同姿势，从而增强行人特征的鲁棒性。
PIE流 : PIE流用于增强行人身份的重要性，并提取更有利的身份鲁棒特征。PIE流包括身份增强模块和全连接层。身份增强模块通过对行人的头部和肩部进行特征提取，增强行人身份的重要性。全连接层用于对提取的特征进行分类，以提高行人再识别的准确性。

D. 损失函数

为了优化IGCL的网络参数，我们设计了判别损失函数。由于行人ReID任务通常被视为行人分类问题，因此计算分类损失。为了进一步提高特征的区分性，加入了三元组损失，以缩小类内距离并增加类间距离。此外，为了减少衣物信息带来的干扰，进行衣物特征图和空间注意力图之间的中层协同学习。为了使提取特征更关注行人身份，并使信息与衣物无关，采用了高层协同学习方案，其中使用距离度量来测量由不同流学习的不同特征的概率分布。因此，总损失函数定义为：

其中是IGCL的总损失函数，，，和分别表示分类损失、三元组损失、中层协同学习损失和高层协同学习损失。，，和是权衡每个项贡献的参数，经验设置为1。

对于分类损失，采用常见的交叉熵损失。为了有效利用身份信息并更好地识别行人，使用原始特征、语义特征和身份增强特征对行人进行分类。注意，退化特征、原始特征、语义特征和身份增强特征必须经过一个全连接层。然后使用Softmax函数计算预测概率，并通过比较预测概率分布与目标类的真实概率分布（一热编码）计算交叉熵损失。分类损失计算公式为：

其中是批量大小。，，和分别是样本属于真实标签的原始特征、语义特征、身份增强特征和退化特征的预测概率。

为了进一步增强提取特征的区分性，对于原始特征和语义特征采用三元组损失。具体来说，我们在批量中随机选择一个图像作为锚点，然后采样一个标签与锚点相同的正样本图像和一个标签与锚点不同的负样本图像。此外，我们希望锚点与正样本图像之间的距离尽可能小，而锚点与负样本图像之间的距离尽可能大。距离定义如下：

其中是三元组损失的边距，用于控制正样本图像对之间的距离与负样本图像对之间的距离之间的差异（在我们的实验中设置为0.3）。和分别表示正样本的原始特征和负样本的原始特征。类似地，和分别表示正样本的语义特征和负样本的语义特征。表示欧氏距离。

在CAD流中，CAMA模块旨在通过使用通道注意力减少对衣物区域的注意力，并通过中层协同学习模块在衣物特征图和空间注意力图之间进行协同学习，以获得更具区分性的特征。中层协同学习损失计算公式为：

其中表示不同尺度的特征图数量。是第个空间注意力图，是第个衣物特征图。和分别是第个特征矩阵的高度和宽度。

IGCL由骨干网、CAD流、SAJ流和PIE流组成，这些流是互补的。因此，使用不同流之间的高层协同学习损失，其中使用这些流的高层特征，并通过最大均值差异（MMD）计算不同域之间概率分布的最大均值差异。MMD定义如下：

其中、和分别是语义特征、原始特征和退化特征。和分别表示均值和方差计算函数。通过这种方式，我们可以利用这些高层语义特征来引导骨干网络，使其更关注行人身体并提取更具区分性的与衣物弱相关的特征。

IV. 实验和讨论

为了评估 IGCL 方法的性能，我们使用了六个公开的换衣行人 ReID 数据集：LaST [42]，PRCC [2]，LTCC [5]，Celeb-reID-light [26]，NKUP [8]，和 VC-Clothes [27]。由于换衣行人 ReID 任务是一个新兴且具有挑战性的研究课题，据我们所知，尚无任何算法在所有六个换衣行人 ReID 数据集上进行全面实验。因此，我们的工作是第一个系统地和全面地评估这些六个数据集的算法性能。本文的剩余部分按如下方式组织：1）介绍六个公开的换衣行人 ReID 数据集，2）列出我们实验中使用的竞争方法，3）描述实现细节，4）基于这六个公开数据集的性能评估和比较。

A. 数据集

我们的实验使用了六个数据集，即 Celeb-reID-light、PRCC、LTCC、NKUP、VC-Clothes 和 LaST。Celeb-reID-light 数据集来自互联网，而 PRCC、LTCC 和 NKUP 数据集是使用真实监控摄像头拍摄的图像组装的。VC-Clothes 数据集是通过高分辨率游戏镜头合成创建的。LaST 数据集是从电影中收集的。此外，PRCC、LTCC、LaST 和 VC-Clothes 数据集包含一致衣物和换衣数据，而 NKUP 和 Celeb-reID-light 数据集仅包含换衣数据。请注意，由于隐私原因，NKUP 数据集中的所有面部都被遮挡。有关这些数据集的更多详细信息，请参阅表 I。

B. 竞争方法

换衣行人 ReID 任务是一个新兴且具有挑战性的课题，在过去的 2-3 年里也引起了相关领域研究人员的兴趣。在我们的实验中，最新和流行的参考方法被用作我们的竞争对手，包括 ReIDCaps (TCSVT2020) [4]，Pixel Sampling (ISPL 2021) [28]，AFD-Net (IJCAI 2021) [29]，3DSL (CVPR 2021) [30]，FSAM (CVPR 2021) [9]，RCSANet (ICCV 2021) [32]，MAC-DIM (TMM 2022) [33]，Syn-Person-Cluster (ISPL 2022) [34]，GI-ReID (CVPR 2022) [35]，CAL (CVPR 2022) [10]，3APF (CVPRW2020) [27]，MVSE (ACM MM 2022) [1]，ViT-VIBE Hybrid (WACV 2022) [36]，SPT+ASE (TPAMI 2021) [2]，Re-Rank+LCVN (PR 2023) [3]，Pos-Neg (TIP 2022) [31] 和 AD-ViT (AVSS 2022) [37]。此外，在换衣行人 ReID 任务中，传统的行人 ReID 算法，如 ResNet50 (CVPR 2016) [43]，Vision Transformer (ICLR 2021) [39]，PCB (ECCV 2018) [18] 和 MGN (ACM MM 2018) [19] 也经常被使用。在我们的实验中，我们也将 IGCL 与它们进行了比较。关于这些竞争对手的更多信息可以在相关工作部分找到。

C. 实现细节

在我们的实验中，视觉变换器（ViT）[13] 包括一个额外的批量归一化瓶颈层，作为所提出的 IGCL 的骨干（它也被认为是基线）。ViT 在 ImageNet 数据集上进行了预训练，然后分别使用 PRCC、LTCC、Celeb-reID-light、NKUP 和 VC-Clothes 数据集的训练样本对 ViT 和 IGCL 模块进行微调。请注意，应用了这些数据集的默认换衣设置和划分 [2]，[5]，[8]，[26]，[27]，[45]。在训练过程中，小批量大小设置为 32。它包含 8 个行人身份，每个身份有张图像，输入的行人图像被调整为。在优化过程中，使用了动量为 0.9 和权重衰减为的随机梯度下降（SGD）优化器，并对模型进行了 60 轮训练。学习率初始化为，并采用余弦学习率衰减。超参数经验设置为 0.1。请注意，CAD 流、SAJ 流和 PIE 流仅在训练阶段使用，以共同优化骨干网络参数。在测试阶段，只使用骨干提取特征表示，骨干专注于提取与衣物无关的更通用的特征。因此，只使用骨干从原始 RGB 图像中提取的原始特征来描述每个人。此外，在优化和推理阶段，始终使用范数归一化的欧氏距离来计算任何两张图像之间的相似度。

评估协议

在行人 ReID 社区中，经常使用累积匹配特性（CMC）曲线、rank-1 和平均精度均值（mAP）作为评估指标 [2]，[11]，[35]。因此，我们也在实验中使用这些指标。

E. 性能评估和比较

在本节中，我们报告了通过评估 IGCL 在六个公开换衣行人 ReID 数据集上的性能，并与上述竞争对手进行比较的结果。对于开源代码算法，使用 ImageNet 对其骨干进行预训练。然后使用 LaST、LTCC、PRCC、Celeb-reID-light、NKUP 和 VC-Clothes 数据集的训练样本进行微调。使用这六个换衣行人 ReID 数据集的测试样本来评估它们的性能。如果比较中使用了相同的数据集，我们直接引用报告的结果。如果源代码已发布但某些数据集未使用，我们遵循原始论文设置，运行源代码在未使用的数据集上，并报告结果。对于 CAL 和 MVSE，原始骨干被其他骨干（如 ResNet、DenseNet 或 VisionTransformer）替换。请注意，对于 GI-ReID [35]，我们选择了其多个基线中最高的结果。PRCC 数据集上的像素采样 [28] 使用原始论文结果，而其他数据集则来自我们的代码复现。CAL* 和 MVSE* 是我们使用 ViT 骨干的代码复制结果。结果如表 II 所示。

从这些结果中，我们得到以下观察：

无论选择哪种方法，IGCL 在 LTCC、Celeb-reID-light 和 NKUP 数据集上都取得了最佳性能，相较于现有算法，在 mAP 和 rank-1 上有显著提高。对于其他数据集，我们提出的 IGCL 仍然取得了可比的性能。例如，IGCL 在 LTCC 数据集上的 mAP 和 rank-1 精度分别为 47.1% 和 77.8%，而基线的 mAP 和 rank-1 精度分别为 28.6% 和 69.5%。最大提升为 18.5%（mAP）和 8.3%（rank-1）。同样，当使用 NKUP 数据集时，IGCL 的 mAP 和 rank-1 分别为 28% 和 28.8%，而基线的相应性能为 11.6% 和 17.3%，其相应的提升分别为 16.4%（mAP）和 11.5%（rank-1）。此外，当使用 LaST 数据集时，IGCL 可以获得可比的性能。因此，IGCL 显著优于基线。通过将 CAD 流、SAJ 流和 PIE 流嵌入到 Vision Transformer 中来对 IGCL 模型进行联合优化，使模型具有强大的区分能力。此外，该模型有效地减弱了衣物区域信息，并突出了鲁棒的行人身份特征。最重要的是，该模型努力挖掘从 RGB 图像中获得的视觉语义信息，以学习不受衣物变化影响的行人身份表示。
与专门设计的换衣行人 ReID 方法相比，ReIDCaps 在 Celeb-reID-light 数据集上取得了第二名，其 mAP 和 rank-1 分别为 19.0% 和 33.5%。与 IGCL 相比，相应的性能提升分别为 6.6%（mAP）和 5.2%（rank-1）。当应用 LTCC 数据集时，ViT-VIBE Hybrid 的 mAP 和 rank-1 分别为 38.3% 和 73.6%，而 IGCL 的相应 mAP 和 rank-1 分别为 47.1% 和 77.8%，分别提升了 8.8% 和 4.2%。当使用 VC-Clothes 数据集时，3APF 和 IGCL 分别达到 mAP/Rank-1 的 82.1%/90.2% 和 83.6%/82%。IGCL 在 mAP 精度上优于 3APF 的方法，但在 rank-1 上较低。当使用 PRCC 数据集时，Pos-Neg 和 IGCL 的 mAP/Rank-1 分别为 65.8%/54.9% 和 63%/64.4%。IGCL 的 Rank-1 精度高于 Pos-Neg 的方法，但 mAP 下降了 2.8%。然而，当使用 LTCC 数据集时，Pos-Neg 和 IGCL 的 mAP/Rank-1 分别为 14.4%/36.2% 和 47.1%/77.8%。IGCL 显然优于 Pos-Neg 的方法。对于 Rerank+LVCN，不同的骨干适用于不同的数据集。当使用 ADB-Net 作为骨干时，Rerank+LVCN 可以在 VC-Clothes 数据集上获得第一名的表现，但在 PRCC 数据集上只能获得第三名的表现。同样，在 PRCC 数据集上，使用 FlipReID 的 Rerank+LVCN 可以获得最佳表现。因此，很难选择适合不同数据集的骨干。这些专门设计的方法主要关注轮廓草图或从多模态信息中建模人体形状，以避免衣物信息引起的干扰。然而，直接使用这些信息会产生较大的语义损失，丢失重要的身份特征，无法有效利用复杂的背景和人体语义信息。
我们还将 IGCL 与 GI-ReID 进行了比较。在后者中，使用了行人的步态信息，并驱动行人 ReID 模型学习与衣物无关的表示。由于人体语义信息未被充分挖掘，且预测的步态结果并不总是完美的，性能受到显著影响。然而，在 IGCL 中，设计了 CAD 和 SAJ 流以引导模型更多关注与衣物无关的特征，并关注人体语义信息，同时额外的 PIE 流迫使模型提取更有利的身份鲁棒生物特征。实验结果表明，IGCL 具有良好的泛化能力，训练的模型在一定程度上减少了背景和衣物变化引起的负面影响。总体而言，IGCL 在五个公共数据集上始终优于所有这些最先进的方法，这证明了 IGCL 的有效性。
在衣物一致的行人 ReID 方法中，无论选择哪个数据集，MGN 都取得了最佳表现。因此，我们在不同数据集上将 MGN 与 IGCL 的 ViT 进行了比较。在 PRCC 数据集上，MGN 和 IGCL 的 rank-1 分别为 25.9% 和 64.4%，提升达 38.5%。同样，当使用 LTCC 数据集时，我们的方法提升达 37.0%（mAP）和 53.6%（rank-1）。我们可以从其他数据集中得出相同的结论。我们观察到，衣物一致的行人 ReID 方法主要从衣物外观中学习特征，但衣物覆盖了人的大部分图像，其视觉外观必须相似。然而，对于具有挑战性的长期 CC-ReID 任务，行人的衣物外观信息通常会发生较大变化。因此，当直接使用这些方法时，它们无法表现良好。在换衣行人识别任务中，核心思想是挖掘与衣物无关但对身份敏感的线索。因此，提出的 IGCL 提取与衣物无关的特征，其性能显著优于衣物一致的行人 ReID 方法。
ResNet50、DenseNet121 和 Vision Transformer 模型在许多深度学习任务中广泛使用，但也经常在行人 ReID 任务中进行评估。尽管这些模型在许多相关任务中表现良好，但当直接应用于换衣行人 ReID 任务时，其表现并不理想。例如，当使用 PRCC 数据集时，ResNet50、DenseNet121、Vision Transformer 和 IGCL 的 rank-1 分别为 19.6%、18.7%、46.3% 和 64.4%。IGCL 分别提高了 44.8%、45.7% 和 18.1%。在 VC-Clothes 数据集上，ResNet50、DenseNet121、Vision Transformer 和 IGCL 的 mAP 分别为 47.4%、66.8%、70.6% 和 85.4%。IGCL 的 mAP 分别提高了 38%、18.6% 和 14.8%。虽然这些网络模型在不同任务中广泛使用，但它们无法解决换衣特征。在 IGCL 中，模型更多关注与衣物无关的特征，从而在一定程度上减少换衣数据的影响。此外，无论使用哪个数据集，Vision Transformer 的表现都明显优于 ResNet50 和 DenseNet121。因此，Vision Transformer 在我们的实验中作为 IGCL 的骨干。从表 II 中，我们可以观察到，当将不同的骨干嵌入 IGCL 时，IGCL 的 Vision Transformer 可以获得最佳性能，无论使用哪个数据集。
我们还将 IGCL 与现有的工作进行了比较，替换了不同的骨干。当使用 ResNet50 或 DenseNet121 作为骨干时，IGCL 的性能在一定程度上有所下降。然而，无论使用哪个数据集，IGCL 的 Vision Transformer 始终获得最佳性能。我们还使用 Vision Transformer 作为骨干复现了 CAL 和 MVSE，生成了 CAL* 和 MVSE*。有趣的是，当 CAL 和 MVSE 使用 Vision Transformer 时，其性能显示出悬崖式下降。其原因在于性能差异可以归因于网络架构与附加算法之间的兼容性水平不同。MVSE 特别优化以处理局部和多尺度信息，而 CAL 依赖于关联局部上下文以鼓励模型惩罚其局部衣物预测能力。在这方面，CNN 骨干的卷积和池化操作与 MVSE 和 CAL 的这些需求很好地匹配。另一方面，IGCL 主要关注捕获全局信息并强调获取全局上下文和远距离依赖性。在这种情况下，ViT 骨干的全局自注意机制可能提供更有利的方法来有效整合这些类型的信息，但它不能很好地匹配 MVSE 和 CAL。因此，IGCL 的 Vision Transformer 可以获得最佳性能。