专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

CLIP-DFGS：一种用于可泛化行人重识别中的CLIP的难样本挖掘方法

FightingCV · 公众号 · · 2024-11-06 09:00

正文

摘要。

近年来，CLIP等预训练视觉语言模型在行人重识别（ReID）应用中展现出巨大潜力。然而，它们在可泛化行人重识别任务中的表现仍然不够理想。 CLIP预训练中使用的海量且多样化的图像-文本对可能导致某些细粒度特征的缺乏或不足。面对这些挑战，我们提出了一种基于深度优先搜索的难样本挖掘方法DFGS（深度优先图采样器），旨在提供足够具有挑战性的样本，以增强CLIP提取细粒度特征的能力。 DFGS可应用于CLIP中的图像编码器和文本编码器。通过利用CLIP强大的跨模态学习能力，我们旨在应用DFGS方法提取具有挑战性的样本并形成具有高判别难度的迷你批次，为图像模型提供更有效和更具有挑战性的样本，这些样本难以区分，从而增强模型区分个人的能力。我们的结果表明，与其他方法相比，DFGS取得了显著改进，证实了DFGS在提供具有挑战性的样本方面是有效的，这些样本可以增强CLIP在可泛化行人重识别中的性能。

视觉语言模型，可泛化行人重识别，深度优先搜索

1. 介绍

为了满足对跨越未知领域进行准确人员匹配的日益增长的需求，可泛化的人员重新识别 (DG-ReID) 已成为一个特别突出的研究课题 (Liao 和 Shao，2020a; Shengcai 和 Ling，2021; He 等人，2021a; Zhang 等人，2022a; Xu 等人，2022; Liao 和 Shao，2022) 。该研究领域拥有广阔且有前景的实际应用空间，可以解决各种现实场景中的关键需求 (Shengcai 和 Ling，2021; Zhang 等人，2022b; Yan 等人，2021; Yang 等人，2020; Liu 等人，2022; Qi 等人，2021) 。近年来，由于其在公共安全和人员追踪系统中的广泛应用和重要性，该领域受到了广泛关注 (Zheng 等人，2016; Ye 等人，2021; Leng 等人，2019; Ye 和 Yuen，2020) 。

图 1 . 三种不同的采样方法：(a) PK 采样器；(b) 图采样器 (GS)；(c) 深度优先图采样器 (DFGS)。每个形状代表一个不同的类别，每种颜色代表一个不同的批次。

预训练的视觉语言模型（如 CLIP (对比语言-图像预训练) (Radford 等人，2021) ）的最新进展在增强 ReID 应用方面显示出巨大的潜力 (Chen 等人，2018; Farooq 等人，2020; Li 等人，2023b) 。 CLIP 通过跨模态学习理解视觉和文本数据的能力使其成为此目的的强大工具。这种独特的功能使 CLIP 成为提高 ReID 性能的强有力候选者。尽管 CLIP 具有潜力，但其在可泛化 ReID 任务中的表现并不理想。一个重要的影响因素是细粒度特征的表示不足，这阻碍了模型有效区分具有挑战性的实例的能力 (Yan 等人，2023; Radford 等人，2021) 。在经过大量数据集预训练后，原始 CLIP 模型在细粒度任务上的表现低于 ResNet50，并且在更复杂的任务上表现不佳。人员重新识别需要进行细粒度特征提取，这体现了这种困难 (Yan et al., 2023) 。

传统的采样方法，例如常用的 PK 采样器 (Hermans et al., 2017) ，涉及随机选择 P 个类别，每个类别随机选择 K 个样本，形成图 1(a) 所示的小批量。虽然这种方法提供了多样化的样本集，但它无法持续提供足够具有挑战性的样本，这些样本可以增强模型的学习能力 (Liao and Shao, 2022) 。这种限制阻碍了模型对未见实例的泛化能力，而这对于可泛化的行人重新识别性能至关重要。 PK 采样器无法专注于困难样本，导致训练过程可能无法充分发挥模型的潜力。虽然 Liao 等人 (Liao and Shao, 2022) 提出了 GS 方法，该方法从整个训练集中为每个类别挖掘困难样本，用于可泛化的行人重新识别（如图 1(b) 所示），但 GS 是专门为与他们的度量网络一起使用而设计的 (Liao and Shao, 2020a; Shengcai and Ling, 2021) 。

鉴于这些挑战，我们提出了一种称为深度优先图采样器 (DFGS) 的高效小批量采样方法，以增强 CLIP 提取细粒度特征的能力。该方法利用深度优先搜索算法在构建的图上形成由困难样本组成的小批量，如图 1(c) 所示，图 2 中提供了更多详细信息。通过这样做，它可以提供信息丰富且具有挑战性的样本，从而增强模型的学习过程。虽然 GS 方法为每个节点选择相邻节点来创建批次，但它不能从本质上保证批次将密集地填充有具有挑战性的样本。通过 DFGS，我们可以更有效地为模型的训练提供有价值的样本。此外，通过利用 CLIP 的跨模态学习能力，我们的 DFGS 方法提取了具有挑战性的样本，并以高度判别性的难度形成了小批量。此外，DFGS 可以应用于 CLIP 中的图像编码器和文本编码器，从而为困难样本挖掘提供更全面的方法。通过专注于困难样本，我们的方法确保模型在最具挑战性的样本上进行训练，从而在 DG-ReID 任务中实现更好的泛化和改进的性能。该方法确保图像模型使用难以区分的样本进行训练，从而增强其区分个人的能力。

在本文中，我们将深入探讨 DFGS 方法的细节，它在 CLIP 框架中的实现，以及对其有效性的经验验证。我们旨在对 DFGS 方法及其在 CLIP 框架中的实现提供全面的理解。详细方法和全面的实验分析将在以下部分提供。总结而言，我们的主要贡献总结如下：

∙

我们提出了一种名为深度优先图采样器 (DFGS) 的新型采样方法，并令人信服地证明了其在度量学习中的显著效力。
∙

基于 CLIP 的特点，我们分别针对图像编码器和文本编码器提出了特定的 DFGS 采样方法。
∙

在多个标准基准数据集上进行的广泛实验表明，我们的方法可以在可泛化的行人重识别方面取得显著的改进。

图 2 。一方面，由不同摄像头拍摄的同一个体可能由于角度、背景、分辨率等方面的差异而表现出显著的差异。等。因此，我们将由不同摄像头拍摄的个体定义为类内困难样本。另一方面，在训练数据集中，可能存在非常相似但并不属于同一个体的样本，因此我们将这些样本定义为类间困难样本。

2. 相关工作

在本节中，我们对一些最相关的作品进行了广泛的调查，旨在提供详细的概述并总结最相关的作品。

2.1. 可泛化的行人重识别

可泛化的行人重识别的目标是在源域学习一个模型，该模型可以在目标域中直接执行良好，而无需额外的训练。可泛化的行人重识别需要学习具有高判别力的特征，以准确识别不同环境中的个体。然而，传统的域泛化方法可能不足以开发专门针对行人重识别定制的特征表示。现有方法主要包括网络归一化 (Eom 和 Ham，2019；Jia 等人，2019；Kale 等人，2023；Jin 等人，2020；Luo 等人，2019；Xu 等人，2022) 、元学习 (Lin 等人，2020；Song 等人，2019；Zhao 等人，2021a；Dai 等人，2021a) 和域对齐 (Chen 等人，2021；Luo 等人，2020；Yuan 等人，2020；Zhuang 等人，2020；Liao 和 Shao，2020b；Zhu 等人，2017；Li 等人，2020；Qi 等人，2024b；Fang 等人，2023) 。这是因为行人重识别提出了独特的挑战，例如光照、姿势和遮挡的变化，这些变化需要专门的解决方案 (Lejbolle 等人，2019) 。

结果，研究人员通常需要创建针对行人重识别任务的特定特征的定制方法和技术。这些定制方法增强了模型在各种监控场景中准确识别个人的能力，从而提高了现实应用中的性能。

例如，META 框架 (Xu 等人，2022) 通过归一化统计信息考虑了目标样本和源域的相关性。它包含一个聚合模块，用于动态组合多个专家 (Dai 等人，2021b) ，使模型能够有效地适应未见目标域的特征。同样，ACL 框架 (Zhang 等人，2022a) 增强了跨域嵌入块 (CODE-Block)。此组件确保了一个共享特征空间，该空间捕获了域不变特征和域特定特征。 CODE-Block 还动态探索跨不同域的关系，促进更强大的学习过程。

这些创新方法证明了在可泛化行人重识别中开发专门技术的必要性，突出了需要持续研究和开发来解决该领域不断发展的挑战。

2.2. 行人重识别中的视觉语言模型

行人重识别中的视觉语言模型已显示出巨大的潜力，其中 CLIP-ReID (Li 等人，2023b) 是利用 CLIP 框架做出的一个重要贡献。 CLIP-ReID 采用两阶段策略来增强视觉表示。核心概念涉及利用一组可训练文本标记来最大限度地提高 CLIP 中固有的跨模态描述能力，每个标识符对应一个。这种创新方法允许模型有效地弥合视觉和文本模态之间的差距，从而实现更准确和更可泛化的行人重识别。

视觉语言模型 (VLMs) 在文本到图像行人重识别 (Yan 等人，2023；Jiang 和 Ye，2023) 中的应用尤其广泛。这种方法侧重于将文本描述与对应图像关联起来，以进行个体识别。文本到图像人物重识别从先进的预训练技术中获益匪浅，其灵感来自视觉语言模型的成功应用。这些模型在广泛的跨模态数据集上训练，在学习图像和文本之间错综复杂的关联方面表现出非凡的能力，使它们即使在描述和视觉外观差异很大的复杂现实世界场景中也能表现出色。

研究人员越来越多地探索将这些模型应用于具有文本描述的 ReID 任务的特定适应方法 (Li 等人，2023b；Jiang 和 Ye，2023；Li 等人，2017；Zhu 等人，2021；Ding 等人，2021；Wang 等人，2022) 。这些努力包括开发方法来微调预训练的视觉语言模型，使其适应人物重识别数据集，从而改善文本特征和视觉特征之间的对齐。此外，人们正在不断努力增强这些模型对光照、姿态和遮挡变化的鲁棒性，这些都是人物重识别任务中的常见挑战。

通过整合文本描述，视觉语言模型可以利用纯粹的视觉模型可能忽略的额外上下文信息。这种多模态方法 (Zheng 等人，2022) 不仅提高了识别精度，而且提供了对数据的更全面理解。因此，视觉语言模型代表了人物重识别未来研究和发展的有希望的方向，有潜力显着推动该领域的发展，并提高监控和安全系统的性能。

2.3. 人物重识别中的难样本挖掘

在人物重识别中，采样器在训练有效模型方面起着至关重要的作用 (Hermans 等人，2017；Zhang 等人，2021) 。最常用的方法是 PK 采样器 (Hermans 等人，2017) 。该方法随机选择 P 个类别，然后从每个类别中采样 K 个图像，形成大小为 B = P × K 的小批量。虽然 PK 采样器简单直观且被广泛采用，但其完全随机的执行方式可能并不总是提供人物重识别中有效度量学习所需的最具信息量和挑战性的样本。

为了解决这一局限性，人们探索了更复杂的采样方法。一种值得注意的最新方法是图采样器 (GS) (Liao 和 Shao，2022) 。该方法已在模型中使用，例如 QAconv ₅₀ (Liao 和 Shao，2020a) 和 TransMatcher (Shengcai 和 Ling，2021) . GS 采用二元交叉熵损失来衡量成对样本距离，旨在构建每个训练周期的开始时所有类别的最近邻关系图。 GS 的主要目标是通过确保每个小批量包含一个随机选择的类别及其前 k 个最近邻类别来进行策略性采样。该方法有效地将更多具有挑战性和信息性的样本引入训练过程。通过关注最近邻，GS 可以为模型提供更有可能更难的样本，从而增强学习特征表示的判别能力。

GS 方法证明了策略性采样会显着影响人员重新识别模型的训练效率和性能。通过仔细选择具有更高难度级别的样本，这些先进的采样方法可以促进更好的度量学习，最终导致更准确和可靠的人员重新识别系统。这突出了在开发强大的重新识别模型中对创新采样策略的持续需求。

3. 方法

在本节中，我们将介绍所提方法的详细信息。如图 3 所示，我们首先使用图像编码器来学习文本提示，遵循 CLIP-ReID (Li 等人，2023b) . 然后，我们保留文本提示的特征之间具有不同 pid 的成对距离矩阵，以便在后续采样中使用。随后，我们在采样阶段提出深度优先图采样器 (DFGS)，以促进将具有挑战性的样本包含在一个批次中。

图 3 . 我们方法的概述。首先，对于每个人员 ID，都会学习特定的文本描述。然后，基于获得的文本描述，提取特征并计算和保存成对距离相似度矩阵。随后，在采样和学习阶段，使用成对距离相似度矩阵构建样本图。通过对该样本图进行深度优先搜索，获得训练样本迭代，从而提供包含挑战性样本的微批次，用于微调图像编码器。在这里，我们使用有向图来表示结构，虚线表示图的有向边，而实线表示深度优先搜索的遍历序列。

3.1. 预备知识

剪辑。对比语言-图像预训练（CLIP） (Radford 等人，2021) 是由 OpenAI 开发的一个模型，它从自然语言描述中学习视觉概念。 CLIP 由一个图像编码器（例如，Vision Transformer 或 ResNet）和一个文本编码器（基于 Transformer）组成，它们将图像和文本映射到共享的嵌入空间。该模型使用对比学习目标进行训练，该目标最大化匹配图像-文本对之间的余弦相似度，并最小化不匹配对之间的余弦相似度。训练目标定义为：

其中 s ⁢ ( x , y ) 表示 x 和 y 之间的余弦相似度，而 τ 是一个温度参数。

CLIP-ReID。为了解决人物或车辆重新识别中文本信息方面的局限性，提出了 CLIP-ReID。此方法建立在预训练的 CLIP 模型之上，并包含两个训练阶段，与基线相比，性能得到了显著提高。

在第一个训练阶段，引入了 ID 特定的可学习标记，以独立地捕获每个 ID 的模糊文本描述。文本描述结构为“一张 [ X ] 1 [ X ] 2 [ X ] 3 … [ X ] M 人物/车辆的照片”，其中每个 [ X ] M 是与词嵌入相同维度的可学习标记，而 M 是标记的数量。在此阶段，图像编码器 I ⁢ ( ⋅ ) 和文本编码器 T ⁢ ( ⋅ ) 的参数保持固定，仅优化标记 [X]m。损失函数 ℒ i ⁢ 2 ⁢ t 和 ℒ t ⁢ 2 ⁢ i 被调整以用 text y i 替换 text i ，因为每个 ID 共享相同的描述。具体而言， ℒ t ⁢ 2 ⁢ i 被修改为：

其中 P ⁢ ( y i ) 是批次中 T y i 所有正例索引的集合， | ⋅ | 是其基数。 s ⁢ ( x , y ) 表示两个向量 x 和 y 之间的相似度分数，通常为余弦相似度。通过最小化 ℒ i ⁢ 2 ⁢ t 和 ℒ t ⁢ 2 ⁢ i ，梯度通过固定的 T ⁢ ( ⋅ ) 反向传播以优化标记，充分利用 T ⁢ ( ⋅ ) 。此阶段的总损失为：

为了提高效率，所有图像特征都在此阶段开始时提取，并且所有 ID 的不同 T y i 被保存以用于下一阶段。

在第二阶段的训练中，仅优化 I ⁢ ( ⋅ ) 的参数。使用三重态损失 ℒ tri 和带标签平滑的 ID 损失 ℒ id 遵循一个强大的 ReID 管道，定义为：

其中 q k 是类 k 的平滑标签， p k 是类 k 的预测概率， d p 和 d n 分别是正负对特征之间的距离， α 是三重态损失的边距。此外，在第一阶段获得的文本特征用于计算带有标签平滑的图像到文本交叉熵 ℒ i ⁢ 2 ⁢ t ⁢ c ⁢ e ：

整个训练过程利用可学习提示来有效地捕获和存储预训练编码器的隐藏状态，从而保留 CLIP 的固有优势。这些可学习提示充当桥梁，维护预训练模型中嵌入的丰富信息。在第二阶段的训练中，这些提示在正则化图像编码器中发挥着至关重要的作用。此正则化过程不仅稳定了训练，而且显著增强了模型的泛化能力，确保其在各种未见数据中都能表现良好。

3.2. 成对距离计算阶段

提示学习。首先，我们参考 CLIP-ReID (Li et al., 2023b) 引入特定于 ID 的可学习符元，以学习独立于每个 ID 的文本描述。在开始学习提示之前，我们使用 ID 损失和三重损失更新 I ⁢ ( ⋅ ) ，以确保学习到的提示更准确：

输入到 T ⁢ ( ⋅ ) 的文本描述被设计为“一张 [ X ] 1 [ X ] 2 [ X ] 3 … [ X ] M 人的照片”。 M 代表可学习文本符元的数量，我们根据 CLIP-ReID 的配置将其设置为 4。与 CLIP-ReID 类似，我们固定 I ⁢ ( ⋅ ) 和 T ⁢ ( ⋅ ) 的参数，只优化符元 [ X ] m ( m ∈ 1 , … , M ) 并使用 ℒ i ⁢ 2 ⁢ t 和 ℒ t ⁢ 2 ⁢ i ，提示学习的训练损失表示为：

成对距离计算。在进行采样和训练之前，我们从学习到的文本编码器或图像编码器中提取特征，并计算每一对之间的欧几里得距离：

其中 F n ⁢ ( n ∈ 1 , 2 , … , N ) 表示从文本编码器 T ⁢ ( ⋅ ) 或图像编码器 I ⁢ ( ⋅ ) 中提取的特征。这里， N 表示 ID 的数量（人员数量）。 s ⁢ ( ⋅ ) 表示距离计算方法，本文中，我们使用欧几里得距离。此外，将对角线设置为 ∞ 的理由是为了防止采样阶段收集自身样本。这是因为我们将距离值较小的实例归类为难样本，而难样本必须属于不同的 ID。

3.3. 图构建和训练阶段

图的构建与深度优先采样。众所周知的 PK 采样器 (Hermans 等人，2017) ，由于其完全随机的执行方式，可能不足以提供用于行人再识别度量学习的informative 和高效样本 (Liao 和 Shao，2022) 。为了解决这个问题，GS (Liao 和 Shao，2022) 为每个节点选择相邻节点以创建批次，如图 3 所示。但是，这种方法无法从本质上保证批次将密集填充具有挑战性的样本。因此，我们提出了一种高效的小批量采样方法，称为深度优先图采样器 (DFGS)。首先，重要的是要注意，我们的方法不同于像 GS (Liao 和 Shao，2022) 这样的采样器，这些采样器只考虑图像特征进行难样本挖掘。为了增强模型对细粒度特征的判别能力，区分相似但不同的个体，我们考虑将具有相似特征的不同样本组合成小批量。

与 GS 类似，我们为所有类别构建一个图，其出度和入度均设置为 K ，这有助于高效的深度优先采样，如 Alg. 1 所示。随后，我们为所有类别构建一个图，其出度和入度均设置为 K ，这有助于高效的深度优先采样，如 Alg. 1 所示。接下来，对于每个类别 p ，我们可以使用成对距离度量 D pair ( 10 ) 来获取其 top-K 最近类别，表示为：

(11)

G ⁢ [ p ] = { x p i | i = 1 , 2 , … , K } ,

其中 K 代表图的入度和出度。利用这些信息，我们可以有效地构建一个图 G = ( V , E ) 结构，其中 V = { p | p = 1 , 2 , … , N } 表示顶点， E = { ( p 1 , p 2 ) | p 2 ∈ G ⁢ [ p 1 ] } 表示图结构中的边。

此外，为了控制难样本的难度级别，我们并不简单地选择 top-k 作为当前样本的难样本。相反，我们引入了一个难度系数 m 和难样本的数量 k 。因此，Eq. ( 11 ) 的方程可以修改为：

(12)

G ⁢ [ p ] = { x p i | i = m + 1 , m + 2 , … , m + k } ,

其中 m 和 k 作为超参数，有效地控制了采样过程中的难度级别和样本数量。对超参数的进一步研究将在 Sec. 4 中讨论。

此外，在算法 1 中，我们对图节点执行了一个shuffle操作，记为“shuffle(G[p])”。这是因为我们认为，随着训练变得更加熟练，如果没有引入一些随机性，每个epoch内的每次迭代都可能变得高度相似。具体而言，相同的具有挑战性的样本对会经常出现在同一个mini-batch中，这显然会阻碍模型的泛化能力。因此，我们像公式（ 12 ）中所示的那样对图的节点进行shuffle。通过这种方式，后续深度优先采样过程使用的栈表现出显著的随机性，从而提高了迭代的多样性。本研究在第 4.3 节中讨论。

对于随机选择的类 p ，我们使用一个栈对样本图 G 进行深度优先搜索，这构成了最终的采样方法。应该注意的是，在一个batch中，类 p 的样本数量只能是 n 。因此，我们检查当前batch中是否已经存在 n 个类 p 的样本。如果是，我们通过弹出栈中的下一个 p 来继续while循环。最后，对于类中的难样本，我们选择 n 个来自尽可能多的不同摄像机的样本，这些样本属于类 p 。这不仅导致了mini-batch中跨类具有挑战性的样本的加入，而且确保了构成一个类的 n 个样本是类内具有挑战性的，因为不同摄像机视图之间存在视角和样式的巨大差异。因此，我们可以根据深度优先搜索获得一个迭代。

I ⁢ ( ⋅ ) 的微调。通过上述过程，我们可以通过在构建的图上进行深度优先搜索，获得具有挑战性的样本的mini-batch。我们采用triplet loss来约束度量学习，减少相同身份样本之间的距离，同时拉开不同身份样本之间的距离。此外，我们从CLIP-ReID中引入 ℒ i ⁢ 2 ⁢ t ⁢ c ⁢ e 函数，用于联合构成损失函数，用于微调图像编码器：

(13)

ℒ dfgs = ℒ t ⁢ r ⁢ i + ℒ i ⁢ 2 ⁢ t ⁢ c ⁢ e .

备注 1： PK (Hermans 等人，2017) 随机选择类别以形成一个批次，而不考虑它们与整个训练集中其他类别的关系。 GS (Liao 和 Shao，2022) 仅为每个类别从整个训练集中选择前 k 个最近邻类别以形成一个独立的批次，导致所选的前 k 个最近邻类别相似。相反，我们的方法利用深度优先搜索算法来填充一个批次，尽可能多地包含相邻的具有挑战性的三元组，从而优化整体性能。此外，我们发现将 ID 损失与三元组损失结合起来用于提取特征并不会在我们的任务中带来显著的改进。因此，我们在微调图像编码器阶段仅对提取的特征应用三元组损失，因为我们设计的 DFGS 方法专门针对三元组损失。

备注 2：虽然 DFGS 可以应用于图像编码器和文本编码器，但每种方法都有其优势。当应用于图像编码器时，DFGS _I(⋅) 采样器可以充分利用当前 epoch 中的难样本，使每一轮训练尽可能有针对性。当 DFGS 应用于文本编码器（DFGS _T(⋅) ）时，它利用文本特征来提供全面的语义理解，从而避免了选择哪个图像作为类别代表的困境。此外，由于对成对距离矩阵的预计算和存储，随后的采样和训练显着提高了时间效率。

4. 实验

4.1. 实验设置

数据集。我们在九个广泛认可的公共人物再识别 (ReID) 数据集上进行了广泛的实验，即 Market1501 (Zheng 等人，2015) 、MSMT17 (Wei 等人，2018) 、CUHK02 (Li 和 Wang，2013) 、CUHK03 (Li 等人，2014) 、CUHK-SYSU (Xiao 等人，2016) 、PRID (Hirzer 等人，2011) 、GRID (Loy 等人，2010) 、VIPeR (Gray 和 Tao，2008) 和 iLIDs (Zheng 等人，2009) 。这些数据集在图像数量、身份数量和捕获条件的复杂性方面各不相同，为评估 ReID 模型提供了全面的测试平台。我们使用累计匹配特征 (CMC) 和平均精度均值 (mAP) 指标评估我们的方法，这些指标是行人再识别中标准的评估协议。这些指标提供了对模型在不同数据集上的排名性能和精度的详细理解。为了简化我们的讨论，我们使用缩写来表示数据集：Market1501 作为 M，MSMT17 作为 MS，CUHK02 作为 C2，CUHK03 作为 C3，CUHK-SYSU 作为 CS。

实验协议。我们遵循三种不同的协议来评估模型在多个领域的泛化能力。在协议 1 中，模型在 Market1501、CUHK02、CUHK03 和 CUHK-SYSU 数据集（M+C2+C3+CS）的组合上进行训练。然后，在四个独立的数据集（PRID、GRID、VIPeR 和 iLIDs）上测试训练后的模型，以评估其对未知领域的泛化能力。协议 2 涉及单领域测试方法，其中一个数据集（M、MS、CS 或 C3）保留用于测试，而其余数据集用于训练。这种方法有助于了解在多个来源上训练的模型在单个未知领域上测试时的表现。协议 3 与协议 2 非常相似，主要区别在于是否使用来自源域的训练和测试数据来训练模型。这些标准化协议提供了一个框架，用于评估模型在各种领域的泛化能力。重要的是要注意，所有消融研究都在协议 1 下进行。

实现细节。我们所有的实验都在 NVIDIA GeForce RTX 3090 GPU 上进行。 ViT-B/16 用作我们的骨干网络，“B”表示基本 ViT 架构，“16”指定模型中使用的补丁大小。图像编码器的训练总共进行了 60 个 epoch，批次大小为 128。所有参数均来自 CLIP-ReID (Li 等人，2023b) ，而我们方法特有的特定参数将在第 4 节中进一步分析。

表 1 。与最先进方法在协议 1 下的比较。 “ ∗ ” 表示根据开源代码实现获得的结果。红色粗体表示最佳结果，蓝色表示第二好结果。

Method	Reference	PRID		GRID		VIPeR		iLIDs		Average
Method	Reference	mAP	R1	mAP	R1	mAP	R1	mAP	R1	mAP	R1
CNN-based
QAConv ₅₀	ECCV ₂₀₂₀	62.2	52.3	57.4	48.6	66.3	57.0	81.9	75.0	67.0	58.2
M ³ L	CVPR ₂₀₂₁	65.3	55.0	50.5	40.0	68.2	60.8	74.3	65.0	64.6	55.2
MetaBIN	CVPR ₂₀₂₁	70.8	61.2	57.9	50.2	64.3	55.9	82.7	74.7	68.9	60.5
META	ECCV ₂₀₂₂	71.7	61.9	60.1	52.4	68.4	61.5	83.5	79.2	70.9	63.8
ACL	ECCV ₂₀₂₂	73.4	63.0	65.7	55.2	75.1	66.4	86.5	81.8	75.2	66.6
GMN	TCSVT ₂₀₂₄	75.4	66.0	64.8	54.4	77.7	69.0	-	-	-	-
ReFID	TOMM ₂₀₂₄	71.3	63.2	59.8	56.1	68.7	60.9	84.6	81.0	71.1	65.3
ViT-based
ViT-B ^∗	ICLR ₂₀₂₁	63.8	52.0	56.0	44.8	74.8	65.8	76.2	65.0	67.7	56.9
TransReID ^∗	ICCV ₂₀₂₁	68.1	59.0	60.8	49.6	69.5	60.1	79.8	68.3	69.6	59.3
CLIP-ReID ^∗	AAAI ₂₀₂₃	68.3	57.0	58.2	48.8	69.3	60.1	83.4	75.0	69.8	60.2
PAT ^∗	ICCV ₂₀₂₃	57.9	46.0	54.5	45.6	67.8	60.1	78.1	66.7	64.6	54.6
DSM+SHS	MM ₂₀₂₃	78.1	69.7	62.1	53.4	71.2	62.8	84.8	77.8	74.1	66.0
DFGS _T(⋅)	This paper	78.8	69.0	73.6	66.4	84.6	78.8	92.4	88.3	82.4	75.6
DFGS _I(⋅)	This paper	78.6	72.0	78.4	69.6	81.3	74.4	93.5	90.0	83.0	76.5

4.2. 与最先进方法的比较

我们将我们的方法与可泛化人物再识别的最先进 (SOTA) 方法进行比较，包括 SNR (Jin 等人，2020) 、QAConv ₅₀ (Liao 和 Shao，2020a) 、M ³ L (Zhao 等人，2021b) 、MetaBIN (Choi 等人，2021) 、META (Xu 等人，2022) 、ACL (Zhang 等人，2022a) 和 IL (Tan 等人，2023) 。除了上面提到的基于 CNN 的架构之外，我们积极探索了与使用 ViT 作为主干的模型的比较，包括 ViT (Dosovitskiy 等人，2020) 、TransReID (He 等人，2021b) 、CLIP-ReID (Li 等人，2023b) 、PAT (Ni 等人，2023) 、DSM+SHS (Li 等人，2023a) 、ReFID (Peng 等人，2024) 、GMN (Qi 等人，2024a) 等等。由于 DukeMTMC 已被撤回，我们没有展示 DukeMTMC 的评估结果。值得注意的是，像 PAT (Ni 等人，2023) 这样的方法遵循涉及 DukeMTMC 数据集的协议，因此我们使用基于第 4.1 节中提到的新协议的开源代码进行了实验。如表 1 和表 2 所示，我们的方法在所有三个协议中始终优于其他方法，如更高的平均 mAP 和 R1 结果所示。这证明了我们的方法在增强模型对看不见域的泛化能力方面的有效性。

值得注意的是，ACL 和 META 都使用四个 GPU 来训练他们的模型，而我们的方法只需要一个 GPU。在这种设置下，我们的方法表现出优于 ACL 的性能。在协议 1 中，我们的方法在 mAP 上比 ACL 提高了 +7.8% （83.0% 对 75.2%）。同样，在协议 2 中，我们的方法在 mAP 上比 ACL 提高了 +8.3% （53.6% 对 45.3%）。此外，在协议 3 中，我们的方法获得了 55.3% 的 mAP，比 ACL 高出 +6.0% 。

将我们的方法与协议 1 中其他 SOTA 方法进行比较，很明显我们的模型表现出优越的性能。 ReFID 是此比较中表现最好的方法之一，它实现了 71.1% 的 mAP 和 65.3% 的 R1，而 DSM+SHS 则是另一种具有竞争力的方法，它实现了 74.1% 的 mAP 和 66.0% 的 R1。在 mAP 和 R1 中，我们的方法均优于这些模型，mAP 为 83.0% ，R1 为 76.5% 。

在协议 2 和协议 3 的背景下，我们的方法在平均 mAP 和平均 R1 方面优于其他 SOTA 方法。尤其是在协议 2 下，我们的方法展现出其他方法无法比拟的结果。它实现了令人印象深刻的 53.6% 平均 mAP 和显著的 67.1% R1，证明了其卓越的有效性。相比之下，以前的 state-of-the-art 模型，例如平均 mAP 为 46.6%、R1 为 60.0% 的 GMN ，表现出显著但相对较低的性能。此外，在协议 3 下的实验中，虽然没有展示在协议 2 中观察到的全面优越性，但我们的方法在平均 mAP 和平均 R1 方面仍然取得了最高评价。在协议 3 中，结果突出了我们的方法在各种场景中的有效性，实现了令人印象深刻的 55.3% 平均 mAP 和显著的 68.3% R1。与 TOMM2024 的 SOTA 方法 ReFID 相比，后者在 mAP 和 R1 中分别实现了 46.2% 和 58.5%，我们的方法表现出显著的改进。

总体而言，实验结果突出了我们方法的卓越性能，证明了它优于其他 SOTA 方法。无论是应用于 DFGS _I(⋅) 的图像编码器，还是应用于 DFGS _T(⋅) 的文本编码器，我们的方法在多个数据集上始终表现出高 mAP 和 R1 值，进一步强调了其有效性。

表 2 。与协议 2 和协议 3 下的 state-of-the-art 方法进行比较。 “ ∗ ” 表示根据开源代码的实现获得的结果，波浪线表示该方法基于 ViT 主干。血红色表示最佳结果，蓝色表示第二好结果。

Setting						Method	Reference	M+MS+CS → C3		M+CS+C3 → MS	MS+CS+C3 → M	Average
			mAP	R1	mAP	R1	mAP	R1	mAP	R1
P-2	QAConv ₅₀	ECCV ₂₀₂₀	25.4	24.8	16.4	45.3	63.1	83.7	35.0	51.3
	M3L	CVPR ₂₀₂₁	34.2	34.4	16.7	37.5	61.5	82.3	37.5	51.4
	MetaBIN	CVPR ₂₀₂₁	28.8	28.1	17.8	40.2	57.9	80.1	34.8	49.5
	ViT-B ^∗	ICLR ₂₀₂₁	36.5	35.8	20.5	42.7	59.2	78.3	38.7	52.3
	TranReID ^∗	ICCV ₂₀₂₁	36.5	36.1	23.2	46.3	59.9	79.8	39.9	54.1
	META	ECCV ₂₀₂₂	36.3	35.1	22.5	49.9	67.5	86.1	42.1	57.0
	ACL	ECCV ₂₀₂₂	41.2	41.8	20.4	45.9	74.3	89.3	45.3	59.0
	CLIP-ReID ^∗	AAAI ₂₀₂₃	42.1	41.9	26.6	53.1	68.8	84.4	45.8	59.8
	ReFID	TOMM ₂₀₂₄	33.3	34.8	18.3	39.8	67.6	85.3	39.7	53.3
	GMN	TCSVT ₂₀₂₄	43.2	42.1	24.4	50.9	72.3	87.1	46.6	60.0
	DFGS _T(⋅)	This paper	45.5	43.7	30.6	59.4	77.0	89.6	51.0	64.2
	DFGS _I(⋅)	This paper	50.4	51.1	31.5	59.7	79.0	90.5	53.6	67.1
P-3	QAConv ₅₀	ECCV ₂₀₂₀	32.9	33.3	17.6	46.6	66.5	85.0	39.0	55.0
	M ³ L	CVPR ₂₀₂₁	35.7	36.5	17.4	38.6	62.4	82.7	38.5	52.6
	MetaBIN	CVPR ₂₀₂₁	43.0	43.1	18.8	41.2	67.2	84.5	43.0	56.3
	ViT-B ^∗	ICLR ₂₀₂₁	39.4	39.4	20.9	43.1	63.4	81.6	41.2	54.7
	TranReID ^∗	ICCV ₂₀₂₁	44.0	45.2	23.4	46.9	63.6	82.5	43.7	58.2
	META	ECCV ₂₀₂₂	47.1	46.2	24.4	52.1	76.5	90.5	49.3	62.9
	ACL	ECCV ₂₀₂₂	49.4	50.1	21.7	47.3	76.8	90.6	49.3	62.7
	META+IL	TMM ₂₀₂₃	48.9	48.8	26.9	54.8	78.9	91.2	51.6	64.9
	CLIP-ReID ^∗	AAAI ₂₀₂₃	44.9	45.8	26.8	52.6	67.5	83.4	46.4	60.6
	ReFID	TOMM ₂₀₂₄	45.5	44.2	20.6	43.3	72.5	87.9	46.2	58.5
	GMN	TCSVT ₂₀₂₄	49.5	50.1	24.8	51.0	75.9	89.0	50.1	63.4
	DFGS _T(⋅)	This paper	50.0	49.6	32.0	60.9	79.3	91.3	53.8	67.3
	DFGS _I(⋅)	This paper	51.6	51.3	33.4	62.0	81.0	91.6	55.3	68.3

4.3. 消融研究

为了全面探讨我们方法的影响，我们进行了一系列消融实验，专门设计用于全面评估其效果。这些实验的详细结果在 Tab. 3 中给出。

采样前 shuffle 操作的有效性。表中的实验数据表明，与基线相比，应用我们的方法取得了显著的改进。具体来说，“s.” 表示在采样之前，对图节点执行 shuffle 操作，如 Alg. 1 中所述。 shuffle 操作的存在或缺失会导致明显的差异。由于我们维护了一个成对距离矩阵，它封装了样本之间的相似性，因此该矩阵在后续图像编码器训练过程中保持不变。如果我们根据从该矩阵生成的图结构对节点进行 shuffle，这会导致图像编码器训练迭代之间的显著相似性（相同的困难样本对将经常被分组到同一个 mini-batch 中）。这将降低度量学习的多样性。然而，结合 shuffle 操作不仅不会增加训练时间，而且还可以增强样本对的多样性，从而提高模型的判别能力。

表 3 。我们方法的消融研究。 “s.” 表示每个 epoch 之前对距离矩阵进行的 shuffle 操作。所有实验都在 protocol-1 设置下进行。

Method						s.	ℒ i ⁢ d	Average	Training time
			mAP	R1	(min)	s.	ℒ i ⁢ d
Baseline	-	✓	69.8	60.2	490
Baseline	-	×	68.2	59.5	482
+ DFGS _T(⋅)	×	✓	78.6	69.2	470
+ DFGS _T(⋅)	×	×	79.8	71.3	463
+ DFGS _T(⋅)	✓	✓	80.8	71.2	466
+ DFGS _T(⋅)	✓	×	82.4	75.6	459
+ DFGS _I(⋅)	×	✓	81.3	74.8	537
+ DFGS _I(⋅)	×	×	82.8	75.6	529
+ DFGS _I(⋅)	✓	✓	82.2	74.9	539
+ DFGS _I(⋅)	✓	×	83.0	76.5	530

DFGS _T(⋅) 和 DFGS _I(⋅) 的有效性。 DFGS _I(⋅) 的距离度量矩阵源自图像编码器。一方面，这种方法允许在每次训练轮次之前获得当前模型的具有挑战性的样本，从而逐步增强模型的判别能力。然而，这种方法会增加总训练时间，因为在每次训练轮次之前获取距离矩阵会产生时间开销。有趣的是，当距离度量是从文本编码器获得的特征计算出来时，我们观察到最低的总训练时间，同时仍然取得了极具竞争力的结果。这一发现突出了效率和性能之间的关键平衡。它不仅验证了 DFGS 在提高模型准确性方面的有效性，而且还强调了将 DFGS 应用于文本特征的效率，这可以显着降低计算开销，而不会影响结果的质量。总体而言，将 DFGS 应用于图像和文本编码器都体现了一种强大的策略，可以增强模型性能。

备注 3: 目前，大多数行人再识别方法将三重损失和 ID 损失结合起来用于提取特征。然而，我们设计的 DFGS 方法专门针对三重损失，这意味着在采样期间，我们的目标是用难以区分的三元组填充一个小批量。这种方法最大限度地发挥了难样本增强模型判别能力的潜力。当三重损失和 ID 损失同时使用时，可能会限制难样本的全部潜力。

4.4. 进一步分析

不同的采样器。我们使用三个采样器进行实验，即 PK、GS (Liao and Shao, 2022) 和 DFGS，在遵循 Protocol-1 设置的相同配置下。值得注意的是，为了公平比较，我们努力使三种采样器的每个 epoch 的迭代次数保持一致。此外，GS 和 DFGS 的更新频率保持一致，从而保证了实验的公平性。我们使用 ResNet、ViT 和 CLIP 作为主干网络进行实验，分别研究三种不同采样器的影响。实验结果如表 4 所示。可以观察到，我们的方法与 PK 和 GS 相比表现出优越性。在基于 ResNet 作为主干网络的实验中，GS 的 mAP 比 PK 高 1.4%，R1 高 0.8%。令人印象深刻的是，我们的 DFGS 在 mAP 上比 GS 高出 3.3%，在 R1 上高出 3.3%。在基于 ViT 作为主干网络的实验中，使用 GS 采样的 mAP 结果比 PK 高 3.9%，我们的 DFGS 比 GS 额外提高了 1.8%。在基于 CLIP 的实验中，使用 GS 采样的 mAP 结果比 PK 高 8.9%，我们的 DFGS 比 GS 额外提高了 4.3%。应该注意的是，由于 PK 采样器不涉及图构建过程，因此它的运行时间低于 GS 和 DFGS，同时保持相似的迭代次数。然而，显而易见的是，DFGS 在文本编码器上运行时，在确保一定性能水平的同时实现了具有竞争力的运行时间，这是我们方法的主要优势之一。总之，我们的采样方法优于 GS，在行人重识别方面尤其比 PK 更有效。

表 4 。三种不同采样器的结果分别在 ViT 和 CNN 上获得。 “ ⋆ ” 表示基于开源代码实现的结果。红色粗体表示最佳结果，蓝色表示第二好结果。

Backbone					Method	Source domain: M+C2+C3+CS							Training
		Target: PRID		Target: GRID		Target: VIPeR		Target: iLIDs		Average		Time
		mAP	R1	mAP	Method	R1	mAP	R1	mAP	R1	mAP	R1	(min)
ResNet ₅₀	PK	45.5	33.0	54.4	44.8	64.5	53.5	78.5	70.0	60.7	50.3	205
	GS ^⋆	51.3	38.0	56.8	45.6	62.9	52.5	77.3	68.3	62.1	51.1	263
	DFGS _I(⋅)	56.9	46.0	58.9	48.8	67.2	56.0	78.6	66.7	65.4	54.4	267
ViT-B	PK	63.8	52.0	56.0	44.8	74.8	65.8	76.2	65.0	67.7	56.9	312
	GS ^⋆	68.8	58.0	58.7	50.4	76.8	68.4	81.9	73.3	71.6	62.5	421
	DFGS _I(⋅)	73.4	63.0	61.1	52.8	78.2	70.9	80.8	71.7	73.4	64.6	405
CLIP	PK	68.3	57.0	58.2	48.8	69.3	60.1	83.4	75.0	69.8	60.2	490
	GS ^⋆	79.0	71.0	69.5	58.4	79.2	71.2	87.2	80.0	78.7	70.2	525
	DFGS _T(⋅)	78.8	69.0	73.6	66.4	84.6	78.8	92.4	88.3	82.4	75.6	459
	DFGS _I(⋅)	78.6	72.0	78.4	69.6	81.3	74.4	93.5	90.0	83.0	76.5	530

参数分析。实验针对等式 ( 12 ) 中的超参数 m 和 k 进行。如图 4 所示，我们研究了 k 的三组不同参数，分别为 5、10 和 15。对于每组，我们进一步划分了 m 的不同初始值，分别为 0、2、4、6 和 8。

三个图的横轴代表不同的参数 m ，而图 4(a) 、图 4(b) 和图 4(c) 分别对应于 k 为 5、10 和 15 的情况。可以观察到，这三个图总体上呈现出一种模式：它们最初从 0 开始增加，在 m = 2 附近达到峰值，然后随着 m 的继续增加而下降。我们分析了训练数据中存在高度相似或几乎相同的样本。挖掘这些类型的样本可能对模型的区分能力构成重大挑战，导致模型性能下降。避免这些最困难的样本实际上可以提高模型的区分能力。此外，通过对三个图的比较分析，我们发现当 k = 10 时，结果最高。我们认为，当 k 很小时，样本都是困难样本，缺乏泛化性；当 k 极大时，困难样本在整个数据集中的比例可能很低。这两种情况都可能导致模型性能下降。通过将 k 控制在 10 左右，我们可以充分利用困难样本来提高区分能力，同时也能保持模型性能，因为有足够数量的普通样本。

图 4 . 参数分析：(a)(b)(c) 分别代表 k 为 5、10 和 15 的情况。

在 BLIP 上的实验。为了进一步验证有效性，我们尝试将我们提出的方法应用于 BLIP。将我们的方法应用于 BLIP 很简单，我们只需要使用从 BLIP 的文本编码器获得的特征计算采样过程中所需的距离度量矩阵。从表 5 可以看出，将我们的方法应用于 BLIP 可以有效地提高性能。我们的方法使平均 mAP 提高了 5.2%，R1 提高了 6.8%。这表明我们的方法有可能应用于除 CLIP 之外的其他 VLM，并增强模型的判别能力。

表 5 . 将我们的方法应用于 BLIP 模型的实验。

Source domain					Method	Target domain
		PRID		GRID		VIPeR		iLIDs		Average
		mAP	R1	mAP	Method	R1	mAP	R1	mAP	R1	mAP	R1
M+C2+C3+CS	BLIP	64.4	51.0	66.4	56.0	76.4	67.7	83.9	76.7	72.8	62.8
	+ DFGS _T(⋅)	73.4	63.0	74.6	67.2	76.6	68.7	84.2	76.7	77.2 ^↑4.4	68.9 ^↑6.1
	+ DFGS _I(⋅)	73.9	63.0	73.6	66.4	78.2	69.9	86.3	79.2	78.0 ^↑5.2	69.6 ^↑6.8

单源域行人 ReID 任务的性能以下实验中涉及的数据集包括：Market1501、MSMT17、CUHK02、CUHK03 和 CUHK-SYSU。我们在一个数据集上训练模型：Market1501、MSMT17、CUHK02、CUHK03，并在剩余的数据集上分别进行测试。从表 6 可以看出，与基线相比，我们的方法在单源域行人重新识别方面取得了显著的改进。值得注意的是，在 MSMT17 上训练时，我们的方法将 Market1501 测试集的 mAP 从 53.0% 提高到 55.2%，R1 从 80.0% 提高到 80.9%。例如，在 CUHK02 测试集上，在 CUHK03 上训练导致 mAP 从 55.2% 提高到 55.4%，R1 从 77.0% 提高到 77.7%。在 CUHK-SYSU 上训练并在 CUHK03 上测试时，mAP 从 71.6% 提高到 73.5%，R1 从 87.1% 提高到 88.3%。这种全面的改进突出了我们的方法在各种单源域场景中的鲁棒性和有效性。

表 6 。我们方法在单源域行人重识别中的结果。蓝色 _↓ 表示与基线相比性能下降，而红色 ^↑