一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜! |
|
哔哩哔哩 · 高中生随便出手,做了个折叠手机? · 3 天前 |
|
哔哩哔哩 · 五毛特效拍哪吒,我的笑点和泪点在打架 · 3 天前 |
|
哔哩哔哩 · B站最倒霉的UP主,40万人笑她“反向李子柒” · 3 天前 |
|
哔哩哔哩 · 30岁母单和25岁早婚,婚恋观差别有多大? · 3 天前 |
|
哔哩哔哩 · 被章子怡轰下台,他犯了哪些面试大忌 · 4 天前 |
近年来,CLIP等预训练视觉语言模型在行人重识别(ReID)应用中展现出巨大潜力。 然而,它们在可泛化行人重识别任务中的表现仍然不够理想。 CLIP预训练中使用的海量且多样化的图像-文本对可能导致某些细粒度特征的缺乏或不足。 面对这些挑战,我们提出了一种基于深度优先搜索的难样本挖掘方法DFGS(深度优先图采样器),旨在提供足够具有挑战性的样本,以增强CLIP提取细粒度特征的能力。 DFGS可应用于CLIP中的图像编码器和文本编码器。 通过利用CLIP强大的跨模态学习能力,我们旨在应用DFGS方法提取具有挑战性的样本并形成具有高判别难度的迷你批次,为图像模型提供更有效和更具有挑战性的样本,这些样本难以区分,从而增强模型区分个人的能力。 我们的结果表明,与其他方法相比,DFGS取得了显著改进,证实了DFGS在提供具有挑战性的样本方面是有效的,这些样本可以增强CLIP在可泛化行人重识别中的性能。
视觉语言模型,可泛化行人重识别,深度优先搜索
为了满足对跨越未知领域进行准确人员匹配的日益增长的需求,可泛化的人员重新识别 (DG-ReID) 已成为一个特别突出的研究课题 (Liao 和 Shao,2020a; Shengcai 和 Ling,2021; He 等人,2021a; Zhang 等人,2022a; Xu 等人,2022; Liao 和 Shao,2022) 。 该研究领域拥有广阔且有前景的实际应用空间,可以解决各种现实场景中的关键需求 (Shengcai 和 Ling,2021; Zhang 等人,2022b; Yan 等人,2021; Yang 等人,2020; Liu 等人,2022; Qi 等人,2021) 。 近年来,由于其在公共安全和人员追踪系统中的广泛应用和重要性,该领域受到了广泛关注 (Zheng 等人,2016; Ye 等人,2021; Leng 等人,2019; Ye 和 Yuen,2020) 。
预训练的视觉语言模型(如 CLIP (对比语言-图像预训练) (Radford 等人,2021) )的最新进展在增强 ReID 应用方面显示出巨大的潜力 (Chen 等人,2018; Farooq 等人,2020; Li 等人,2023b) 。 CLIP 通过跨模态学习理解视觉和文本数据的能力使其成为此目的的强大工具。 这种独特的功能使 CLIP 成为提高 ReID 性能的强有力候选者。 尽管 CLIP 具有潜力,但其在可泛化 ReID 任务中的表现并不理想。 一个重要的影响因素是细粒度特征的表示不足,这阻碍了模型有效区分具有挑战性的实例的能力 (Yan 等人,2023; Radford 等人,2021) 。 在经过大量数据集预训练后,原始 CLIP 模型在细粒度任务上的表现低于 ResNet50,并且在更复杂的任务上表现不佳。 人员重新识别需要进行细粒度特征提取,这体现了这种困难 (Yan et al., 2023) 。
传统的采样方法,例如常用的 PK 采样器
(Hermans et al., 2017)
,涉及随机选择
鉴于这些挑战,我们提出了一种称为深度优先图采样器 (DFGS) 的高效小批量采样方法,以增强 CLIP 提取细粒度特征的能力。 该方法利用深度优先搜索算法在构建的图上形成由困难样本组成的小批量,如图 1(c) 所示,图 2 中提供了更多详细信息。 通过这样做,它可以提供信息丰富且具有挑战性的样本,从而增强模型的学习过程。 虽然 GS 方法为每个节点选择相邻节点来创建批次,但它不能从本质上保证批次将密集地填充有具有挑战性的样本。 通过 DFGS,我们可以更有效地为模型的训练提供有价值的样本。 此外,通过利用 CLIP 的跨模态学习能力,我们的 DFGS 方法提取了具有挑战性的样本,并以高度判别性的难度形成了小批量。 此外,DFGS 可以应用于 CLIP 中的图像编码器和文本编码器,从而为困难样本挖掘提供更全面的方法。 通过专注于困难样本,我们的方法确保模型在最具挑战性的样本上进行训练,从而在 DG-ReID 任务中实现更好的泛化和改进的性能。 该方法确保图像模型使用难以区分的样本进行训练,从而增强其区分个人的能力。
在本文中,我们将深入探讨 DFGS 方法的细节,它在 CLIP 框架中的实现,以及对其有效性的经验验证。 我们旨在对 DFGS 方法及其在 CLIP 框架中的实现提供全面的理解。 详细方法和全面的实验分析将在以下部分提供。 总结而言,我们的主要贡献总结如下:
我们提出了一种名为深度优先图采样器 (DFGS) 的新型采样方法,并令人信服地证明了其在度量学习中的显著效力。
基于 CLIP 的特点,我们分别针对图像编码器和文本编码器提出了特定的 DFGS 采样方法。
在多个标准基准数据集上进行的广泛实验表明,我们的方法可以在可泛化的行人重识别方面取得显著的改进。
在本节中,我们对一些最相关的作品进行了广泛的调查,旨在提供详细的概述并总结最相关的作品。
可泛化的行人重识别的目标是在源域学习一个模型,该模型可以在目标域中直接执行良好,而无需额外的训练。 可泛化的行人重识别需要学习具有高判别力的特征,以准确识别不同环境中的个体。 然而,传统的域泛化方法可能不足以开发专门针对行人重识别定制的特征表示。 现有方法主要包括网络归一化 (Eom 和 Ham,2019;Jia 等人,2019;Kale 等人,2023;Jin 等人,2020;Luo 等人,2019;Xu 等人,2022) 、元学习 (Lin 等人,2020;Song 等人,2019;Zhao 等人,2021a;Dai 等人,2021a) 和域对齐 (Chen 等人,2021;Luo 等人,2020;Yuan 等人,2020;Zhuang 等人,2020;Liao 和 Shao,2020b;Zhu 等人,2017;Li 等人,2020;Qi 等人,2024b;Fang 等人,2023) 。 这是因为行人重识别提出了独特的挑战,例如光照、姿势和遮挡的变化,这些变化需要专门的解决方案 (Lejbolle 等人,2019) 。
结果,研究人员通常需要创建针对行人重识别任务的特定特征的定制方法和技术。 这些定制方法增强了模型在各种监控场景中准确识别个人的能力,从而提高了现实应用中的性能。
例如,META 框架 (Xu 等人,2022) 通过归一化统计信息考虑了目标样本和源域的相关性。 它包含一个聚合模块,用于动态组合多个专家 (Dai 等人,2021b) ,使模型能够有效地适应未见目标域的特征。 同样,ACL 框架 (Zhang 等人,2022a) 增强了跨域嵌入块 (CODE-Block)。 此组件确保了一个共享特征空间,该空间捕获了域不变特征和域特定特征。 CODE-Block 还动态探索跨不同域的关系,促进更强大的学习过程。
这些创新方法证明了在可泛化行人重识别中开发专门技术的必要性,突出了需要持续研究和开发来解决该领域不断发展的挑战。
行人重识别中的视觉语言模型已显示出巨大的潜力,其中 CLIP-ReID (Li 等人,2023b) 是利用 CLIP 框架做出的一个重要贡献。 CLIP-ReID 采用两阶段策略来增强视觉表示。 核心概念涉及利用一组可训练文本标记来最大限度地提高 CLIP 中固有的跨模态描述能力,每个标识符对应一个。 这种创新方法允许模型有效地弥合视觉和文本模态之间的差距,从而实现更准确和更可泛化的行人重识别。
视觉语言模型 (VLMs) 在文本到图像行人重识别 (Yan 等人,2023;Jiang 和 Ye,2023) 中的应用尤其广泛。 这种方法侧重于将文本描述与对应图像关联起来,以进行个体识别。 文本到图像人物重识别从先进的预训练技术中获益匪浅,其灵感来自视觉语言模型的成功应用。 这些模型在广泛的跨模态数据集上训练,在学习图像和文本之间错综复杂的关联方面表现出非凡的能力,使它们即使在描述和视觉外观差异很大的复杂现实世界场景中也能表现出色。
研究人员越来越多地探索将这些模型应用于具有文本描述的 ReID 任务的特定适应方法 (Li 等人,2023b;Jiang 和 Ye,2023;Li 等人,2017;Zhu 等人,2021;Ding 等人,2021;Wang 等人,2022) 。 这些努力包括开发方法来微调预训练的视觉语言模型,使其适应人物重识别数据集,从而改善文本特征和视觉特征之间的对齐。 此外,人们正在不断努力增强这些模型对光照、姿态和遮挡变化的鲁棒性,这些都是人物重识别任务中的常见挑战。
通过整合文本描述,视觉语言模型可以利用纯粹的视觉模型可能忽略的额外上下文信息。 这种多模态方法 (Zheng 等人,2022) 不仅提高了识别精度,而且提供了对数据的更全面理解。 因此,视觉语言模型代表了人物重识别未来研究和发展的有希望的方向,有潜力显着推动该领域的发展,并提高监控和安全系统的性能。
在人物重识别中,采样器在训练有效模型方面起着至关重要的作用
(Hermans 等人,2017;Zhang 等人,2021)
。 最常用的方法是 PK 采样器
(Hermans 等人,2017)
。 该方法随机选择
为了解决这一局限性,人们探索了更复杂的采样方法。 一种值得注意的最新方法是图采样器 (GS) (Liao 和 Shao,2022) 。 该方法已在模型中使用,例如 QAconv 50 (Liao 和 Shao,2020a) 和 TransMatcher (Shengcai 和 Ling,2021) . GS 采用二元交叉熵损失来衡量成对样本距离,旨在构建每个训练周期的开始时所有类别的最近邻关系图。 GS 的主要目标是通过确保每个小批量包含一个随机选择的类别及其前 k 个最近邻类别来进行策略性采样。 该方法有效地将更多具有挑战性和信息性的样本引入训练过程。 通过关注最近邻,GS 可以为模型提供更有可能更难的样本,从而增强学习特征表示的判别能力。
GS 方法证明了策略性采样会显着影响人员重新识别模型的训练效率和性能。 通过仔细选择具有更高难度级别的样本,这些先进的采样方法可以促进更好的度量学习,最终导致更准确和可靠的人员重新识别系统。 这突出了在开发强大的重新识别模型中对创新采样策略的持续需求。
在本节中,我们将介绍所提方法的详细信息。 如图 3 所示,我们首先使用图像编码器来学习文本提示,遵循 CLIP-ReID (Li 等人,2023b) . 然后,我们保留文本提示的特征之间具有不同 pid 的成对距离矩阵,以便在后续采样中使用。 随后,我们在采样阶段提出深度优先图采样器 (DFGS),以促进将具有挑战性的样本包含在一个批次中。
剪辑。 对比语言-图像预训练(CLIP) (Radford 等人,2021) 是由 OpenAI 开发的一个模型,它从自然语言描述中学习视觉概念。 CLIP 由一个图像编码器(例如,Vision Transformer 或 ResNet)和一个文本编码器(基于 Transformer)组成,它们将图像和文本映射到共享的嵌入空间。 该模型使用对比学习目标进行训练,该目标最大化匹配图像-文本对之间的余弦相似度,并最小化不匹配对之间的余弦相似度。 训练目标定义为:
其中
CLIP-ReID。 为了解决人物或车辆重新识别中文本信息方面的局限性,提出了 CLIP-ReID。 此方法建立在预训练的 CLIP 模型之上,并包含两个训练阶段,与基线相比,性能得到了显著提高。
在第一个训练阶段,引入了 ID 特定的可学习标记,以独立地捕获每个 ID 的模糊文本描述。 文本描述结构为“一张
其中
为了提高效率,所有图像特征都在此阶段开始时提取,并且所有 ID 的不同
在第二阶段的训练中,仅优化
其中
整个训练过程利用可学习提示来有效地捕获和存储预训练编码器的隐藏状态,从而保留 CLIP 的固有优势。 这些可学习提示充当桥梁,维护预训练模型中嵌入的丰富信息。 在第二阶段的训练中,这些提示在正则化图像编码器中发挥着至关重要的作用。 此正则化过程不仅稳定了训练,而且显著增强了模型的泛化能力,确保其在各种未见数据中都能表现良好。
提示学习。
首先,我们参考 CLIP-ReID
(Li et al., 2023b)
引入特定于 ID 的可学习符元,以学习独立于每个 ID 的文本描述。 在开始学习提示之前,我们使用 ID 损失和三重损失更新
输入到
成对距离计算。 在进行采样和训练之前,我们从学习到的文本编码器或图像编码器中提取特征,并计算每一对之间的欧几里得距离:
其中
图的构建与深度优先采样。 众所周知的 PK 采样器 (Hermans 等人,2017) ,由于其完全随机的执行方式,可能不足以提供用于行人再识别度量学习的informative 和高效样本 (Liao 和 Shao,2022) 。 为了解决这个问题,GS (Liao 和 Shao,2022) 为每个节点选择相邻节点以创建批次,如图 3 所示。 但是,这种方法无法从本质上保证批次将密集填充具有挑战性的样本。 因此,我们提出了一种高效的小批量采样方法,称为深度优先图采样器 (DFGS)。 首先,重要的是要注意,我们的方法不同于像 GS (Liao 和 Shao,2022) 这样的采样器,这些采样器只考虑图像特征进行难样本挖掘。 为了增强模型对细粒度特征的判别能力,区分相似但不同的个体,我们考虑将具有相似特征的不同样本组合成小批量。
与 GS 类似,我们为所有类别构建一个图,其出度和入度均设置为
(11) |
|
|
|
其中
此外,为了控制难样本的难度级别,我们并不简单地选择 top-k 作为当前样本的难样本。 相反,我们引入了一个难度系数
(12) |
|
|
|
其中
此外,在算法 1 中,我们对图节点执行了一个shuffle操作,记为“shuffle(G[p])”。 这是因为我们认为,随着训练变得更加熟练,如果没有引入一些随机性,每个epoch内的每次迭代都可能变得高度相似。 具体而言,相同的具有挑战性的样本对会经常出现在同一个mini-batch中,这显然会阻碍模型的泛化能力。 因此,我们像公式( 12 )中所示的那样对图的节点进行shuffle。 通过这种方式,后续深度优先采样过程使用的栈表现出显著的随机性,从而提高了迭代的多样性。 本研究在第 4.3 节中讨论。
对于随机选择的类
(13) |
|
|
|
备注 1: PK (Hermans 等人,2017) 随机选择类别以形成一个批次,而不考虑它们与整个训练集中其他类别的关系。 GS (Liao 和 Shao,2022) 仅为每个类别从整个训练集中选择前 k 个最近邻类别以形成一个独立的批次,导致所选的前 k 个最近邻类别相似。 相反,我们的方法利用深度优先搜索算法来填充一个批次,尽可能多地包含相邻的具有挑战性的三元组,从而优化整体性能。 此外,我们发现将 ID 损失与三元组损失结合起来用于提取特征并不会在我们的任务中带来显著的改进。 因此,我们在微调图像编码器阶段仅对提取的特征应用三元组损失,因为我们设计的 DFGS 方法专门针对三元组损失。
备注 2: 虽然 DFGS 可以应用于图像编码器和文本编码器,但每种方法都有其优势。 当应用于图像编码器时,DFGS I(⋅) 采样器可以充分利用当前 epoch 中的难样本,使每一轮训练尽可能有针对性。 当 DFGS 应用于文本编码器(DFGS T(⋅) )时,它利用文本特征来提供全面的语义理解,从而避免了选择哪个图像作为类别代表的困境。 此外,由于对成对距离矩阵的预计算和存储,随后的采样和训练显着提高了时间效率。
数据集。 我们在九个广泛认可的公共人物再识别 (ReID) 数据集上进行了广泛的实验,即 Market1501 (Zheng 等人,2015) 、MSMT17 (Wei 等人,2018) 、CUHK02 (Li 和 Wang,2013) 、CUHK03 (Li 等人,2014) 、CUHK-SYSU (Xiao 等人,2016) 、PRID (Hirzer 等人,2011) 、GRID (Loy 等人,2010) 、VIPeR (Gray 和 Tao,2008) 和 iLIDs (Zheng 等人,2009) 。 这些数据集在图像数量、身份数量和捕获条件的复杂性方面各不相同,为评估 ReID 模型提供了全面的测试平台。 我们使用累计匹配特征 (CMC) 和平均精度均值 (mAP) 指标评估我们的方法,这些指标是行人再识别中标准的评估协议。 这些指标提供了对模型在不同数据集上的排名性能和精度的详细理解。 为了简化我们的讨论,我们使用缩写来表示数据集:Market1501 作为 M,MSMT17 作为 MS,CUHK02 作为 C2,CUHK03 作为 C3,CUHK-SYSU 作为 CS。
实验协议。 我们遵循三种不同的协议来评估模型在多个领域的泛化能力。 在协议 1 中,模型在 Market1501、CUHK02、CUHK03 和 CUHK-SYSU 数据集(M+C2+C3+CS)的组合上进行训练。 然后,在四个独立的数据集(PRID、GRID、VIPeR 和 iLIDs)上测试训练后的模型,以评估其对未知领域的泛化能力。 协议 2 涉及单领域测试方法,其中一个数据集(M、MS、CS 或 C3)保留用于测试,而其余数据集用于训练。 这种方法有助于了解在多个来源上训练的模型在单个未知领域上测试时的表现。 协议 3 与协议 2 非常相似,主要区别在于是否使用来自源域的训练和测试数据来训练模型。 这些标准化协议提供了一个框架,用于评估模型在各种领域的泛化能力。 重要的是要注意,所有消融研究都在协议 1 下进行。
实现细节。 我们所有的实验都在 NVIDIA GeForce RTX 3090 GPU 上进行。 ViT-B/16 用作我们的骨干网络,“B”表示基本 ViT 架构,“16”指定模型中使用的补丁大小。 图像编码器的训练总共进行了 60 个 epoch,批次大小为 128。 所有参数均来自 CLIP-ReID (Li 等人,2023b) ,而我们方法特有的特定参数将在第 4 节中进一步分析。
Method | Reference | PRID | GRID | VIPeR | iLIDs | Average | |||||
mAP | R1 | mAP | R1 | mAP | R1 | mAP | R1 | mAP | R1 | ||
CNN-based | |||||||||||
QAConv 50 | ECCV 2020 | 62.2 | 52.3 | 57.4 | 48.6 | 66.3 | 57.0 | 81.9 | 75.0 | 67.0 | 58.2 |
M 3 L | CVPR 2021 | 65.3 | 55.0 | 50.5 | 40.0 | 68.2 | 60.8 | 74.3 | 65.0 | 64.6 | 55.2 |
MetaBIN | CVPR 2021 | 70.8 | 61.2 | 57.9 | 50.2 | 64.3 | 55.9 | 82.7 | 74.7 | 68.9 | 60.5 |
META | ECCV 2022 | 71.7 | 61.9 | 60.1 | 52.4 | 68.4 | 61.5 | 83.5 | 79.2 | 70.9 | 63.8 |
ACL | ECCV 2022 | 73.4 | 63.0 | 65.7 | 55.2 | 75.1 | 66.4 | 86.5 | 81.8 | 75.2 | 66.6 |
GMN | TCSVT 2024 | 75.4 | 66.0 | 64.8 | 54.4 | 77.7 | 69.0 | - | - | - | - |
ReFID | TOMM 2024 | 71.3 | 63.2 | 59.8 | 56.1 | 68.7 | 60.9 | 84.6 | 81.0 | 71.1 | 65.3 |
ViT-based | |||||||||||
ViT-B ∗ | ICLR 2021 | 63.8 | 52.0 | 56.0 | 44.8 | 74.8 | 65.8 | 76.2 | 65.0 | 67.7 | 56.9 |
TransReID ∗ | ICCV 2021 | 68.1 | 59.0 | 60.8 | 49.6 | 69.5 | 60.1 | 79.8 | 68.3 | 69.6 | 59.3 |
CLIP-ReID ∗ | AAAI 2023 | 68.3 | 57.0 | 58.2 | 48.8 | 69.3 | 60.1 | 83.4 | 75.0 | 69.8 | 60.2 |
PAT ∗ | ICCV 2023 | 57.9 | 46.0 | 54.5 | 45.6 | 67.8 | 60.1 | 78.1 | 66.7 | 64.6 | 54.6 |
DSM+SHS | MM 2023 | 78.1 | 69.7 | 62.1 | 53.4 | 71.2 | 62.8 | 84.8 | 77.8 | 74.1 | 66.0 |
DFGS T(⋅) | This paper | 78.8 | 69.0 | 73.6 | 66.4 | 84.6 | 78.8 | 92.4 | 88.3 | 82.4 | 75.6 |
DFGS I(⋅) | This paper | 78.6 | 72.0 | 78.4 | 69.6 | 81.3 | 74.4 | 93.5 | 90.0 | 83.0 | 76.5 |
|
|
|
|
|
|
|
|
|
|
|
|
我们将我们的方法与可泛化人物再识别的最先进 (SOTA) 方法进行比较,包括 SNR (Jin 等人,2020) 、QAConv 50 (Liao 和 Shao,2020a) 、M 3 L (Zhao 等人,2021b) 、MetaBIN (Choi 等人,2021) 、META (Xu 等人,2022) 、ACL (Zhang 等人,2022a) 和 IL (Tan 等人,2023) 。 除了上面提到的基于 CNN 的架构之外,我们积极探索了与使用 ViT 作为主干的模型的比较,包括 ViT (Dosovitskiy 等人,2020) 、TransReID (He 等人,2021b) 、CLIP-ReID (Li 等人,2023b) 、PAT (Ni 等人,2023) 、DSM+SHS (Li 等人,2023a) 、ReFID (Peng 等人,2024) 、GMN (Qi 等人,2024a) 等等。 由于 DukeMTMC 已被撤回,我们没有展示 DukeMTMC 的评估结果。 值得注意的是,像 PAT (Ni 等人,2023) 这样的方法遵循涉及 DukeMTMC 数据集的协议,因此我们使用基于第 4.1 节中提到的新协议的开源代码进行了实验。 如表 1 和表 2 所示,我们的方法在所有三个协议中始终优于其他方法,如更高的平均 mAP 和 R1 结果所示。 这证明了我们的方法在增强模型对看不见域的泛化能力方面的有效性。
值得注意的是,ACL 和 META 都使用四个 GPU 来训练他们的模型,而我们的方法只需要一个 GPU。 在这种设置下,我们的方法表现出优于 ACL 的性能。 在协议 1 中,我们的方法在 mAP 上比 ACL 提高了 +7.8% (83.0% 对 75.2%)。 同样,在协议 2 中,我们的方法在 mAP 上比 ACL 提高了 +8.3% (53.6% 对 45.3%)。 此外,在协议 3 中,我们的方法获得了 55.3% 的 mAP,比 ACL 高出 +6.0% 。
将我们的方法与协议 1 中其他 SOTA 方法进行比较,很明显我们的模型表现出优越的性能。 ReFID 是此比较中表现最好的方法之一,它实现了 71.1% 的 mAP 和 65.3% 的 R1,而 DSM+SHS 则是另一种具有竞争力的方法,它实现了 74.1% 的 mAP 和 66.0% 的 R1。 在 mAP 和 R1 中,我们的方法均优于这些模型,mAP 为 83.0% ,R1 为 76.5% 。
在协议 2 和协议 3 的背景下,我们的方法在平均 mAP 和平均 R1 方面优于其他 SOTA 方法。 尤其是在协议 2 下,我们的方法展现出其他方法无法比拟的结果。 它实现了令人印象深刻的 53.6% 平均 mAP 和显著的 67.1% R1,证明了其卓越的有效性。 相比之下,以前的 state-of-the-art 模型,例如平均 mAP 为 46.6%、R1 为 60.0% 的 GMN ,表现出显著但相对较低的性能。 此外,在协议 3 下的实验中,虽然没有展示在协议 2 中观察到的全面优越性,但我们的方法在平均 mAP 和平均 R1 方面仍然取得了最高评价。 在协议 3 中,结果突出了我们的方法在各种场景中的有效性,实现了令人印象深刻的 55.3% 平均 mAP 和显著的 68.3% R1。 与 TOMM2024 的 SOTA 方法 ReFID 相比,后者在 mAP 和 R1 中分别实现了 46.2% 和 58.5%,我们的方法表现出显著的改进。
总体而言,实验结果突出了我们方法的卓越性能,证明了它优于其他 SOTA 方法。 无论是应用于 DFGS I(⋅) 的图像编码器,还是应用于 DFGS T(⋅) 的文本编码器,我们的方法在多个数据集上始终表现出高 mAP 和 R1 值,进一步强调了其有效性。
Setting | Method | Reference |
M+MS+CS
|
M+CS+C3
|
MS+CS+C3
|
Average | ||||||
|
|
|
mAP | R1 | mAP | R1 | mAP | R1 | mAP | R1 |
|
|
P-2 | QAConv 50 | ECCV 2020 | 25.4 | 24.8 | 16.4 | 45.3 | 63.1 | 83.7 | 35.0 | 51.3 |
|
|
M3L | CVPR 2021 | 34.2 | 34.4 | 16.7 | 37.5 | 61.5 | 82.3 | 37.5 | 51.4 |
|
|
|
MetaBIN | CVPR 2021 | 28.8 | 28.1 | 17.8 | 40.2 | 57.9 | 80.1 | 34.8 | 49.5 |
|
|
|
ViT-B ∗ | ICLR 2021 | 36.5 | 35.8 | 20.5 | 42.7 | 59.2 | 78.3 | 38.7 | 52.3 |
|
|
|
TranReID ∗ | ICCV 2021 | 36.5 | 36.1 | 23.2 | 46.3 | 59.9 | 79.8 | 39.9 | 54.1 |
|
|
|
META | ECCV 2022 | 36.3 | 35.1 | 22.5 | 49.9 | 67.5 | 86.1 | 42.1 | 57.0 |
|
|
|
ACL | ECCV 2022 | 41.2 | 41.8 | 20.4 | 45.9 | 74.3 | 89.3 | 45.3 | 59.0 |
|
|
|
CLIP-ReID ∗ | AAAI 2023 | 42.1 | 41.9 | 26.6 | 53.1 | 68.8 | 84.4 | 45.8 | 59.8 |
|
|
|
ReFID | TOMM 2024 | 33.3 | 34.8 | 18.3 | 39.8 | 67.6 | 85.3 | 39.7 | 53.3 |
|
|
|
GMN | TCSVT 2024 | 43.2 | 42.1 | 24.4 | 50.9 | 72.3 | 87.1 | 46.6 | 60.0 |
|
|
|
DFGS T(⋅) | This paper | 45.5 | 43.7 | 30.6 | 59.4 | 77.0 | 89.6 | 51.0 | 64.2 |
|
|
|
DFGS I(⋅) | This paper | 50.4 | 51.1 | 31.5 | 59.7 | 79.0 | 90.5 | 53.6 | 67.1 |
|
|
|
P-3 | QAConv 50 | ECCV 2020 | 32.9 | 33.3 | 17.6 | 46.6 | 66.5 | 85.0 | 39.0 | 55.0 |
|
|
M 3 L | CVPR 2021 | 35.7 | 36.5 | 17.4 | 38.6 | 62.4 | 82.7 | 38.5 | 52.6 |
|
|
|
MetaBIN | CVPR 2021 | 43.0 | 43.1 | 18.8 | 41.2 | 67.2 | 84.5 | 43.0 | 56.3 |
|
|
|
ViT-B ∗ | ICLR 2021 | 39.4 | 39.4 | 20.9 | 43.1 | 63.4 | 81.6 | 41.2 | 54.7 |
|
|
|
TranReID ∗ | ICCV 2021 | 44.0 | 45.2 | 23.4 | 46.9 | 63.6 | 82.5 | 43.7 | 58.2 |
|
|
|
META | ECCV 2022 | 47.1 | 46.2 | 24.4 | 52.1 | 76.5 | 90.5 | 49.3 | 62.9 |
|
|
|
ACL | ECCV 2022 | 49.4 | 50.1 | 21.7 | 47.3 | 76.8 | 90.6 | 49.3 | 62.7 |
|
|
|
META+IL | TMM 2023 | 48.9 | 48.8 | 26.9 | 54.8 | 78.9 | 91.2 | 51.6 | 64.9 |
|
|
|
CLIP-ReID ∗ | AAAI 2023 | 44.9 | 45.8 | 26.8 | 52.6 | 67.5 | 83.4 | 46.4 | 60.6 |
|
|
|
ReFID | TOMM 2024 | 45.5 | 44.2 | 20.6 | 43.3 | 72.5 | 87.9 | 46.2 | 58.5 |
|
|
|
GMN | TCSVT 2024 | 49.5 | 50.1 | 24.8 | 51.0 | 75.9 | 89.0 | 50.1 | 63.4 |
|
|
|
DFGS T(⋅) | This paper | 50.0 | 49.6 | 32.0 | 60.9 | 79.3 | 91.3 | 53.8 | 67.3 |
|
|
|
DFGS I(⋅) | This paper | 51.6 | 51.3 | 33.4 | 62.0 | 81.0 | 91.6 | 55.3 | 68.3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
为了全面探讨我们方法的影响,我们进行了一系列消融实验,专门设计用于全面评估其效果。 这些实验的详细结果在 Tab. 3 中给出。
采样前 shuffle 操作的有效性。 表中的实验数据表明,与基线相比,应用我们的方法取得了显著的改进。 具体来说,“s.” 表示在采样之前,对图节点执行 shuffle 操作,如 Alg. 1 中所述。 shuffle 操作的存在或缺失会导致明显的差异。 由于我们维护了一个成对距离矩阵,它封装了样本之间的相似性,因此该矩阵在后续图像编码器训练过程中保持不变。 如果我们根据从该矩阵生成的图结构对节点进行 shuffle,这会导致图像编码器训练迭代之间的显著相似性(相同的困难样本对将经常被分组到同一个 mini-batch 中)。 这将降低度量学习的多样性。 然而,结合 shuffle 操作不仅不会增加训练时间,而且还可以增强样本对的多样性,从而提高模型的判别能力。
Method | s. |
|
Average | Training time | |||||
|
|
|
mAP | R1 | (min) |
|
|
||
Baseline | - |
|
69.8 | 60.2 | 490 |
|
|
|
|
|
68.2 | 59.5 | 482 |
|
|
|
|
||
+ DFGS T(⋅) |
|
|
78.6 | 69.2 | 470 |
|
|
|
|
|
79.8 | 71.3 | 463 |
|
|
|
|
||
+ DFGS T(⋅) |
|
|
80.8 | 71.2 | 466 |
|
|
|
|
|
82.4 | 75.6 | 459 |
|
|
|
|
||
+ DFGS I(⋅) |
|
|
81.3 | 74.8 | 537 |
|
|
|
|
|
82.8 | 75.6 | 529 |
|
|
|
|
||
+ DFGS I(⋅) |
|
|
82.2 | 74.9 | 539 |
|
|
|
|
|
83.0 | 76.5 | 530 |
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
DFGS T(⋅) 和 DFGS I(⋅) 的有效性。 DFGS I(⋅) 的距离度量矩阵源自图像编码器。 一方面,这种方法允许在每次训练轮次之前获得当前模型的具有挑战性的样本,从而逐步增强模型的判别能力。 然而,这种方法会增加总训练时间,因为在每次训练轮次之前获取距离矩阵会产生时间开销。 有趣的是,当距离度量是从文本编码器获得的特征计算出来时,我们观察到最低的总训练时间,同时仍然取得了极具竞争力的结果。 这一发现突出了效率和性能之间的关键平衡。 它不仅验证了 DFGS 在提高模型准确性方面的 有效性 ,而且还强调了将 DFGS 应用于文本特征的 效率 ,这可以显着降低计算开销,而不会影响结果的质量。 总体而言,将 DFGS 应用于图像和文本编码器都体现了一种强大的策略,可以增强模型性能。
备注 3: 目前,大多数行人再识别方法将三重损失和 ID 损失结合起来用于提取特征。 然而,我们设计的 DFGS 方法专门针对三重损失,这意味着在采样期间,我们的目标是用难以区分的三元组填充一个小批量。 这种方法最大限度地发挥了难样本增强模型判别能力的潜力。 当三重损失和 ID 损失同时使用时,可能会限制难样本的全部潜力。
不同的采样器。 我们使用三个采样器进行实验,即 PK、GS (Liao and Shao, 2022) 和 DFGS,在遵循 Protocol-1 设置的相同配置下。 值得注意的是,为了公平比较,我们努力使三种采样器的每个 epoch 的迭代次数保持一致。 此外,GS 和 DFGS 的更新频率保持一致,从而保证了实验的公平性。 我们使用 ResNet、ViT 和 CLIP 作为主干网络进行实验,分别研究三种不同采样器的影响。 实验结果如表 4 所示。 可以观察到,我们的方法与 PK 和 GS 相比表现出优越性。 在基于 ResNet 作为主干网络的实验中,GS 的 mAP 比 PK 高 1.4%,R1 高 0.8%。 令人印象深刻的是,我们的 DFGS 在 mAP 上比 GS 高出 3.3%,在 R1 上高出 3.3%。 在基于 ViT 作为主干网络的实验中,使用 GS 采样的 mAP 结果比 PK 高 3.9%,我们的 DFGS 比 GS 额外提高了 1.8%。 在基于 CLIP 的实验中,使用 GS 采样的 mAP 结果比 PK 高 8.9%,我们的 DFGS 比 GS 额外提高了 4.3%。 应该注意的是,由于 PK 采样器不涉及图构建过程,因此它的运行时间低于 GS 和 DFGS,同时保持相似的迭代次数。 然而,显而易见的是,DFGS 在文本编码器上运行时,在确保一定性能水平的同时实现了具有竞争力的运行时间,这是我们方法的主要优势之一。 总之,我们的采样方法优于 GS,在行人重识别方面尤其比 PK 更有效。
Backbone | Method | Source domain: M+C2+C3+CS | Training |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||
|
|
Target: PRID | Target: GRID | Target: VIPeR | Target: iLIDs | Average | Time |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
mAP | R1 | mAP | R1 | mAP | R1 | mAP | R1 | mAP | R1 | (min) |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ResNet 50 | PK | 45.5 | 33.0 | 54.4 | 44.8 | 64.5 | 53.5 | 78.5 | 70.0 | 60.7 | 50.3 | 205 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
GS ⋆ | 51.3 | 38.0 | 56.8 | 45.6 | 62.9 | 52.5 | 77.3 | 68.3 | 62.1 | 51.1 | 263 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
DFGS I(⋅) | 56.9 | 46.0 | 58.9 | 48.8 | 67.2 | 56.0 | 78.6 | 66.7 | 65.4 | 54.4 | 267 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ViT-B | PK | 63.8 | 52.0 | 56.0 | 44.8 | 74.8 | 65.8 | 76.2 | 65.0 | 67.7 | 56.9 | 312 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
GS ⋆ | 68.8 | 58.0 | 58.7 | 50.4 | 76.8 | 68.4 | 81.9 | 73.3 | 71.6 | 62.5 | 421 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
DFGS I(⋅) | 73.4 | 63.0 | 61.1 | 52.8 | 78.2 | 70.9 | 80.8 | 71.7 | 73.4 | 64.6 | 405 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
CLIP | PK | 68.3 | 57.0 | 58.2 | 48.8 | 69.3 | 60.1 | 83.4 | 75.0 | 69.8 | 60.2 | 490 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
GS ⋆ | 79.0 | 71.0 | 69.5 | 58.4 | 79.2 | 71.2 | 87.2 | 80.0 | 78.7 | 70.2 | 525 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
DFGS T(⋅) | 78.8 | 69.0 | 73.6 | 66.4 | 84.6 | 78.8 | 92.4 | 88.3 | 82.4 | 75.6 | 459 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
DFGS I(⋅) | 78.6 | 72.0 | 78.4 | 69.6 | 81.3 | 74.4 | 93.5 | 90.0 | 83.0 | 76.5 | 530 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
参数分析。
实验针对等式 (
12
) 中的超参数
三个图的横轴代表不同的参数
在 BLIP 上的实验。 为了进一步验证有效性,我们尝试将我们提出的方法应用于 BLIP。 将我们的方法应用于 BLIP 很简单,我们只需要使用从 BLIP 的文本编码器获得的特征计算采样过程中所需的距离度量矩阵。 从表 5 可以看出,将我们的方法应用于 BLIP 可以有效地提高性能。 我们的方法使平均 mAP 提高了 5.2%,R1 提高了 6.8%。 这表明我们的方法有可能应用于除 CLIP 之外的其他 VLM,并增强模型的判别能力。
Source domain | Method | Target domain |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||||||
|
|
PRID | GRID | VIPeR | iLIDs | Average |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
mAP | R1 | mAP | R1 | mAP | R1 | mAP | R1 | mAP | R1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
M+C2+C3+CS | BLIP | 64.4 | 51.0 | 66.4 | 56.0 | 76.4 | 67.7 | 83.9 | 76.7 | 72.8 | 62.8 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
+ DFGS T(⋅) | 73.4 | 63.0 | 74.6 | 67.2 | 76.6 | 68.7 | 84.2 | 76.7 | 77.2 ↑4.4 | 68.9 ↑6.1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
+ DFGS I(⋅) | 73.9 | 63.0 | 73.6 | 66.4 | 78.2 | 69.9 | 86.3 | 79.2 | 78.0 ↑5.2 | 69.6 ↑6.8 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
单源域行人 ReID 任务的性能 以下实验中涉及的数据集包括:Market1501、MSMT17、CUHK02、CUHK03 和 CUHK-SYSU。 我们在一个数据集上训练模型:Market1501、MSMT17、CUHK02、CUHK03,并在剩余的数据集上分别进行测试。 从表 6 可以看出,与基线相比,我们的方法在单源域行人重新识别方面取得了显著的改进。 值得注意的是,在 MSMT17 上训练时,我们的方法将 Market1501 测试集的 mAP 从 53.0% 提高到 55.2%,R1 从 80.0% 提高到 80.9%。 例如,在 CUHK02 测试集上,在 CUHK03 上训练导致 mAP 从 55.2% 提高到 55.4%,R1 从 77.0% 提高到 77.7%。 在 CUHK-SYSU 上训练并在 CUHK03 上测试时,mAP 从 71.6% 提高到 73.5%,R1 从 87.1% 提高到 88.3%。 这种全面的改进突出了我们的方法在各种单源域场景中的鲁棒性和有效性。
|
哔哩哔哩 · 高中生随便出手,做了个折叠手机? 3 天前 |
|
哔哩哔哩 · 五毛特效拍哪吒,我的笑点和泪点在打架 3 天前 |
|
哔哩哔哩 · B站最倒霉的UP主,40万人笑她“反向李子柒” 3 天前 |
|
哔哩哔哩 · 30岁母单和25岁早婚,婚恋观差别有多大? 3 天前 |
|
哔哩哔哩 · 被章子怡轰下台,他犯了哪些面试大忌 4 天前 |
|
THLDL领导力 · 首先您必须是企业创始人或创始合伙人!免费参加培训! 8 年前 |
|
算法与数学之美 · 若人们不相信数学简单,只因他们未意识到生命之复杂——冯·诺依曼 8 年前 |
|
FXWS · 一则寓言故事揭示交易者亏损的原因 7 年前 |
|
蓝点网 · NVIDIA发布新版显卡驱动解决经常出现的蓝屏问题 7 年前 |
|
电脑报 · 够狠!一大批《王者荣耀》帐号因为这个原因被封10年! 7 年前 |