专栏名称: 集智书童

书童带你领略视觉前沿之美，精选科研前沿、工业实用的知识供你我进步与学习！

零样本新突破！CLIP-SENet 端到端语义增强网络登顶车辆 Re-ID 三大数据集SOTA

集智书童 · 公众号 · · 2025-03-01 09:00

正文

点击下方卡片，关注「集智书童」公众号

点击加入👉 「集智书童」交流群

导读

车辆再识别（Re-ID）是智能交通系统（ITS）中的一个关键任务，旨在跨不同监控摄像头检索和匹配同一辆车。众多研究探索了通过关注语义增强来提升车辆Re-ID的方法。然而，这些方法通常依赖于额外的标注信息，以便模型提取有效的语义特征，这带来了许多限制。在本工作中，作者提出了一种基于CLIP的语义增强网络（CLIP-SENet），这是一个端到端框架，旨在自主提取和细化车辆语义属性，从而促进更鲁棒的语义特征表示的生成。受大型视觉-语言模型提出的下游任务的零样本解决方案的启发，作者利用CLIP图像编码器的强大跨模态描述能力，最初提取一般语义信息。而不是使用文本编码器进行语义对齐，作者设计了一个自适应细粒度增强模块（AFEM），以自适应地细化这一般语义信息，从而获得鲁棒的语义特征表示。然后，将这些特征与常见的Re-ID外观特征融合，以进一步细化车辆之间的区别。作者在三个基准数据集上的全面评估展示了CLIP-SENet的有效性。CLIP-SENet实现了新的最先进性能，在VeRi-776数据集上达到92.9%的mAP和98.7%的Rank-1，在VehicleID数据集上达到90.4%的Rank-1和98.7%的Rank-5，在更具挑战性的VeRi-Wild数据集上达到89.1%的mAP和97.9%的Rank-1。

1. 引言

车辆再识别（Re-ID）是交通监控和安全系统中的关键任务，旨在准确检索和匹配由不同监控摄像头捕获的车辆图像。深度卷积神经网络（CNNs）的快速发展导致了车辆Re-ID领域的重要突破[1]、[2]、[3]、[4]。尽管取得了这些进展，车辆Re-ID仍然面临挑战。由于摄像头角度和光照条件的变化，同一车辆的图像存在显著的外观差异，这导致了较大的类内差异。因此，建模车辆外观的视角不变特征已成为车辆Re-ID的关键策略。

在考虑不变特征时，车辆属性如类型、颜色和品牌很容易被想到。这些属性可以作为车辆识别的稳健 Token ，为在多变条件下进行重识别提供稳定的基石。先前在重识别领域中的属性增强方法[5]、[6]、[7]、[8]、[9]主要关注通过利用数据集的标注信息来突出不同的车辆属性，以提取外观特征。然而，这种依赖于通过交叉熵损失函数学习到的属性特征的方法存在两个主要缺点。首先，并非所有数据集都为每辆车提供标注的属性信息，使得这种属性提取方法本质上效率低下，缺乏泛化能力，受限于标注信息的可用性和质量。其次，这些方法往往无法有效地平衡属性特征和外观特征在最终特征表示中的权重。它们突出了一些外观特征中的属性信息，导致属性分类偏向，并忽略了外观中的重要细粒度细节。这为具有小类间差异的车辆ID分类带来了重大挑战。

大规模视觉语言模型的出现为语义特征的提取提供了新的视角。在这些模型中，对比语言-图像预训练（CLIP [1o]）框架因其创新的跨模态表示学习方法而脱颖而出。通过在广泛的图像-文本对上进行训练，CLIP有效地将图像和文本嵌入到一个统一的语义空间中，使得视觉特征与文本描述对齐，从而丰富了提取的特征的语义内容。这些特征具有可迁移性和适应性，适用于多种不同的任务。CLIP的影响推动了Re-ID研究社区的一系列研究努力[11]，[12]，[13]，旨在通过将语义图像特征与相应的文本描述对齐来增强目标的独特表示。值得注意的是，CLIPReID [11]采用两阶段训练方法将CLIP范式应用于Re-ID任务，在领域内取得了重大进展。在第一阶段，该方法为每个车辆ID学习独特的语言描述。随后，在第二阶段，它微调图像编码器，以语义对齐图像特征与这些学习到的语言描述。尽管CLIP-ReID取得了令人印象深刻的实验结果，但它仍存在某些局限性。首先，虽然CLIP-ReID没有使用数据集中的标注属性信息，而是使用NLP方法生成句子描述，但最终的表示高度依赖于生成的句子质量，并显著增加了模型的训练时间。其次，两阶段学习过程在大型模型的训练和微调过程中引入了参数调整和模型收敛的复杂性。

本文提出了一种基于CLIP的语义增强网络（CLIP-SENet），该网络能够高效地提取车辆语义属性并增强车辆特征的独特表示。与图1中详细说明的先前基于CNN和CLIP的方法不同，CLIP-SENet在提取语义特征时不需要任何额外的文本标注信息进行训练。CLIP-SENet不仅丢弃了CLIP中的文本编码器，还使用通过知识蒸馏获得的轻量级CLIP模型，即TinyCLIP [14]，以消除对文本标注的依赖并降低调整大型模型的复杂性。作者利用TinyCLIP的图像编码器来高效地捕获图像的原始语义特征。然而，由于缺乏文本-语义对齐，提取的特征包含了一些影响ReID过程的噪声。为了解决这个问题，作者提出了自适应细粒度增强模块（AFEM），该模块采用自适应加权来过滤原始语义信息，减少噪声并强调有助于区分不同车辆的属性。最终，作者将细化后的特征与由CNN Baseline 提取的外观特征相结合，以增强最终特征表示，从而实现更鲁棒和准确的车辆Re-ID性能。

总结而言，本文的贡献可以从以下方面概述：

• 作者提出了基于CLIP的语义增强网络（CLIP-SENet），以高效地以无监督方式提取车辆语义信息，为车辆重识别中的基于属性的增强方法提供了一种新的视角。
• 作者研究了仅使用CLIP图像编码器进行语义提取在下游任务中的性能，进一步展示了CLIP模型强大的跨模态语义表示能力。
• 作者提出了自适应细粒度增强模块（AFEM），用于细化TinyCLIP图像编码器提取的原始语义信息。AFEM通过自适应加权强调关键语义细节，同时最小化无关语义信息的影响。
• 在车辆重识别领域的三个基准数据集上进行的广泛实验表明，CLIP-SENet实现了最先进的性能，超越了之前的最领先方法。

2. 相关工作

A. 基于属性的增强方法。

重识别任务的目的在于匹配图库中的物体，但不同物体（例如，车辆和人）的匹配存在差异。由于行人图像中丰富的属性信息，一些基于属性的特性增强最初在行人重识别[15]、[16]、[17]、[18]、[19]中得到了普及。近期的研究[20]、[8]、[21]、[22]、[9]展示了基于属性增强在车辆重识别中的有效性。Quispe等人[20]提出了属性网络（ANet）来细化重识别中的有价值属性特征，并将它们与通用ReID特征结合以增强区分能力。Li等人[8]设计了属性和状态引导的结构嵌入网络（ASSEN），通过减轻光照和视角的负面影响，同时利用颜色和类型等积极属性来增强区分特征。Yu等人[22]使用Transformer[23]进行属性提取，并利用多属性自适应聚合网络来突出关键属性的重要性。然而，这些基于属性的增强工作无一例外地需要额外的标注信息以进行监督训练。事实上，大多数重识别数据集缺乏属性标签，而手动标注属性信息是一项极其昂贵且耗时的任务。

B.细粒度增强方法

重识别任务可以被视为一种细粒度识别，主要关注区分同类之间的差异，同时区分不同的目标类别。注意力机制，如自注意力，在细粒度识别中起着关键作用。基于注意力的细粒度增强在许多重识别研究中已被证明是有效的[24]、[25]、[26]、[27]。Rao等人[24]提出了一种反事实注意力学习方法，该方法利用因果推理来增强细粒度特征的有效学习。Hong等人[25]设计了形状-外观互学习框架（FSAM），其中形状流和外观流相互补充，以基于身份提取细粒度身体形状特征。Yin等人[26]使用注意力模块关注行人姿态特征，这些特征更独特，有助于区分人们之间相似的外观。与先前的研究相比，CLIP-SENet利用全连接层分组来学习不同语义属性权重，达到类似注意力机制的效果，但避免了与注意力模块相关的计算复杂性。

C. 大规模视觉语言学习

近年来，大规模视觉语言模型[28]、[29]、[30]、[10]得到了广泛的应用，其中CLIP[10]是一个突出的例子，并成为众多衍生作品的基础。CLIP是基于对比文本-图像对预训练的模型，能够理解图像中的内容并将其与文本描述关联起来。它在下游任务中表现出强大的泛化能力，并实现了令人印象深刻的零样本性能。然而，CLIP对更大模型容量的依赖带来了计算效率的挑战，这成为其实际部署的一个显著障碍。值得注意的是，直接训练较小的模型通常会导致次优性能，需要压缩技术来生成更紧凑、更快的模型，同时不牺牲其有效性。为了解决这个问题，Wu等人[14]引入了TinyCLIP，这是一种使用知识蒸馏来压缩CLIP模型的新方法。TinyCLIP通过亲和力模拟和权重继承有效地压缩了CLIP模型的参数，保持了轻量级的尺寸，同时在ImageNet上以最少的参数展示了显著的零样本准确率，并表现出强大的迁移能力到下游任务。考虑到作者提出的模型的综合方面，作者选择TinyCLIP中的图像编码器进行实验，以减轻模型参数的负担。

基于CLIP的Re-ID方法

随着CLIP框架的流行，Re-ID领域进行了众多研究[11]、[12]、[13]，探讨将CLIP框架应用于Re-ID任务。开创性的CLIPReID首次将CLIP范式应用于Re-ID任务，采用两阶段训练方法，取得了极具竞争力的成果。鉴于Re-ID数据集中针对目标ID缺乏具体的文本描述，传统的文本-图像对比学习难以实施。CLIP-ReID[11]通过CoOp[31]方法，在第一阶段为每个目标生成文本 Prompt ，在第二阶段微调图像编码器以适应Re-ID任务。CLIP范式的成功应用显著推动了Re-ID领域的发展。Yan等人[13]探讨了使用CLIP模型从行人重识别中提取细粒度信息，旨在利用CLIP的鲁棒能力进行跨模态细粒度对齐，以提升Re-ID模型的表现。从上述方法中可以看出，将CLIP范式应用于Re-ID任务涉及使用额外的文本 Prompt 进行训练。然而，这些训练好的文本 Prompt 可能不稳定，显著增加了模型训练的复杂性。

3. 研究方法

车辆重识别任务负责匹配来自非重叠监控摄像头的车辆图像，识别那些与 Query 车辆身份匹配的图像库中的车辆。传统方法在提取属性时难以高效地不依赖标注标签，而基于CLIP的方法需要额外步骤为每辆车训练文本描述。

针对这一问题，作者引入了基于CLIP的语义增强网络（CLIP-SENet），如图2所示，该网络有效地提高了从车辆图像中提取语义属性特征。CLIP-SENet集成了三个关键组件：CNN Backbone 网络用于初始图像处理，TinyCLIP中的图像编码器作为语义提取模块（SEM）用于提取原始语义属性，以及自适应细粒度增强模块（AFEM）用于将这些属性精炼为具有判别性的特征。为了在训练过程中在车辆身份准确性和特征表示相似性之间取得平衡，作者采用了在重识别方法中常见的双损失策略。该策略结合了平滑交叉熵（CE）损失以实现精确的身份分类，以及监督对比（SupCon）损失以增强不同车辆身份之间的区分度。

A. 卷积神经网络主干网络

作者将实例批量归一化（Instance Batch Normalization，IBN）网络家族[33]集成到作者的CNN Backbone 网络中，以提升其性能。将IBN集成到ResNet[34]、ResNeXt[35]和SE-Net[36]等CNN模型中已被证明可以有效改善外观相关特征的建模。这是通过在实例归一化和批量归一化之间提供平衡来实现的，从而提高在不同条件下特征泛化的能力。作者使用不带最终线性分类层的ResNeXt with IBN网络作为作者的CNN Backbone 网络，以提取车辆外观特征。对于一个输入批次数据，网络编码的张量表示为：

表示全局平均池化，和分别表示批大小和张量的维度。

B.语义提取模块

与以往依赖数据集标注来开发语义提取能力的方法不同，作者的SEM直接使用TinyCLIP预训练的图像编码器，记作，来提取目标数据集的语义属性。这种方法显著消除了对任何先前标注信息的需要。

在CLIP范式下，当将CLIP模型拟合到特定任务数据集时，图像编码器和文本编码器需要协同工作。该数据集的额外文本标注被输入到文本编码器中，以提取语义向量，这些向量随后在高维空间中与视觉特征对齐。与其他视觉任务不同，车辆重识别（Re-ID）数据集通常缺乏明确的语义标注。先前的工作，如CLIP-ReID，通过使用自然语言处理（NLP）技术生成可学习的文本 Prompt 来应对数据集中属性文本信息的缺失。相比之下，作者采取了一种完全相反的方法，即完全丢弃文本编码器，仅依靠预训练的图像编码器从图像中提取原始语义属性。然后，使用后续的属性细粒度增强网络来自适应地加权特定的语义特征，从而获得更精细的语义特征。这种设置将CLIP模型的参数数量减少了半，作者还采用了从CLIP知识蒸馏中衍生出的紧凑模型TinyCLIP，以进一步降低大规模视觉语言模型的实际参数使用量。

在语义分割（SEM）中，TinyCLIP的图像编码器作为提取语义属性的关键组件，与CNN主干网络协同工作，捕捉车辆的大量特征集。同时，图像编码器处理视觉输入，将图像转换为高维语义空间，其中语义属性被编码为向量，表示为：

此双重过程确保了有效捕捉车辆局部外观特征和内在语义差异。为了有效融合语义和外观特征，作者将这两种不同类型的特征连接起来，然后应用一个全连接（FC）层。这个过程产生了一个2048维的复合特征表示，它保留了车辆外观的细微细节和完整的语义信息。融合的目的在于更好地在反向传播过程中更新参数和。它可以表示为：

代表1批车辆图像，而‘ ’表示拼接操作。

C.自适应细粒度增强模块

尽管拥有原始语义信息，但由于缺乏通过文本编码器的对齐，它被大量的噪声语义信息和通用车辆描述所混合，这阻碍了区分外观相似但ID不同的车辆的能力。为了解决这个问题，作者提出了自适应细粒度增强模块（AFEM），旨在分离细粒度语义信息并抑制中的噪声信息。对于细粒度识别任务，一种常见的方法是使用注意力机制来关注图像中的关键目标或区域，从而增强网络性能和区分能力。然而，这通常会导致参数数量庞大。为了解决这个问题，作者将原始语义特征分为组，并通过引入自适应参数学习，评估不同语义特征对车辆重识别的重要性，从而细化特征。整个过程在 FC 层上执行，减少了计算开销。

具体来说，作者将输入到一组线性映射层、批量归一化（BN）层和修正线性单元（ReLU）层，生成个向量。这些向量随后分为两个分支：一个分支包含个分组向量，形成一个具有分组 Aware 的表示，允许一组可学习的权重参数独立优化每个分组内的信息。这些可学习参数按照标准正态分布初始化，并在反向传播过程中持续更新。另一个分支保留了原始特征的参数信息。最后，将聚合的加权分组特征逐元素加到原始特征上，得到最终的特征表示。整个过程可以表示为：

其中包含线性映射、BN和ReLU处理，表示组数，“ ” 表示逐元素乘积，表示一组自适应学习参数，“