专栏名称: 新机器视觉
最前沿的机器视觉与计算机视觉技术
目录
相关文章推荐
新疆949交通广播  ·  期待!今晚八点 ·  昨天  
新疆949交通广播  ·  就在今天,21时53分! ·  昨天  
新疆949交通广播  ·  突发公告:集体下架! ·  2 天前  
新疆949交通广播  ·  免费开放! ·  2 天前  
新疆949交通广播  ·  暴涨108%!突破2000万人! ·  3 天前  
51好读  ›  专栏  ›  新机器视觉

走向通用行人重识别:预训练大模型技术在行人重识别的应用综述

新机器视觉  · 公众号  ·  · 2024-09-04 15:30

正文

作者:冯展祥,赖剑煌,袁藏等

来源:《中国图象图形学报》

编辑:陈萍萍的公主@一点人工一点智能

原文:http://www.cjig.cn/thesisDetails#10.11834/jig.240426&lang=zh


摘要: 行人重识别旨在对没有视野重叠覆盖的视域拍摄的行人目标进行身份匹配,是计算机视觉的研究热点,在安防监控场景有重要的研究意义和广阔的应用前景。受限于标注成本过高,行人数据集规模较小,当前行人重识别模型性能还达不到应用的水平,通用行人重识别技术还任重道远。

近年来,预训练大模型引发了广泛的关注,获得了快速的发展,其核心技术在行人重识别领域获得了越来越多的应用。本文对预训练大模型技术在行人重识别的应用进行了全面的梳理回顾。

首先介绍本领域的研究背景,从行人重识别的研究现状和面对的困难出发,简要阐述了预训练技术和预训练大模型的相关技术,分析预训练大模型技术在行人重识别的研究意义和应用前景。

在此基础上,对基于预训练大模型的行人重识别研究进行了详细的介绍,将已有研究分为大规模自监督预训练行人重识别、预训练大模型引导的行人重识别和基于提示学习的行人重识别三类,并在多个数据集对前沿算法的效果和性能进行对比。

最后,对该任务进行了总结,分析当前研究的局限,并展望未来研究的方向。整体而言,预训练大模型技术是实现通用行人重识别不可或缺的技术,当前研究还处于探索阶段,行人重识别与预训练大模型技术的结合还不够紧密,如何结合行人先验和预训练大模型技术实现通用行人重识别需要学术界和工业界共同思考和推动。

引言

行人重识别是对不同的、没有视野重叠覆盖的摄像机视域拍摄的行人目标进行身份匹配的技术,在城市安防、智慧城市、智能交通管理、视频大数据处理等具备广阔的应用前景。行人重识别是人工智能领域计算机视觉的研究热点之一(Ye等,2021),过去十几年吸引了广泛的研究关注,相关技术得到了长足的发展,识别性能迅速增长,在公开数据库超过了人眼的识别准确率。尽管相关研究非常火热,当前行人重识别技术仍然面临着巨大的瓶颈(罗浩等,2020),其性能远远未达到通用行人重识别的要求。

行人重识别迟迟未能落地应用有以下两方面原因:

首先,当前行人重识别研究主要集中在场景单一、标签充足的封闭数据集。而在实际应用中存在场景复杂、跨域成像环境差异大、无法大量标注等问题,导致现有的方法缺乏鲁棒性、迁移性与泛化性,无法满足真实监控场景的需求。

其次,行人重识别任务的标注数据规模要远远小于其他主流视觉任务。如表1所示,人脸识别开源数据集Glint360K(An等,2022)类别数量达到了36万,训练标签样本数达到了1700万,WebFace 260M(Zhu等,2021)的训练数据更是多达400万类2.6亿张,图像分类数据集ImageNet(Deng等,2009)的标签分类数据达到了1400万,目标检测数据集Objects365(Shao等,2019)标签样本超过1000万,目标分割数据集SA-1B(Kirillov等,2023)规模更是达到了10亿。

相比之下,行人重识别的主流数据集类别数不超过1万,主流的CUHK03(Li等,2014)和Market1501(Zheng等,2015)都只有1500类行人左右,标签样本规模在10万以下。当前最大规模的标注行人数据集之一MSMT17(Wei等,2018)的数据规模远远不如2014年发布的Casia-WebFace(Yi等,2014)的数据规模。标签行人类别数最多的数据集是Airport(Srikrishna等,2019)数据集,该数据集的标签行人数量达到了9651,但是样本数只有39902,每个行人的平均样本数只有4张。

标注数据不足是限制行人重识别模型应用的主要原因。对行人进行标注需要跨场景找到关联的行人,成本太高,因此学术界和业界缺少大规模标注行人数据库。受限于标注数据有限,已有技术泛化能力不足,距离应用还有较大的差距。行人重识别技术要落地应用,形成通用模型,关键在于如何通过有限的标签数据提高特征表达能力和泛化能力。

表1 主流计算机视觉任务标注数据集对比

尽管无法获得大规模标注行人数据,但是可以从监控视频获取大规模无标签行人数据,因此可以利用大规模自监督预训练技术训练通用行人重识别模型,提升行人重识别模型的泛化性能。大规模自监督预训练技术已经在自然语言处理(natural language processing, NLP)领域取得了巨大的成功,基于自监督技术的预训练大模型是当前人工智能最引入注目的技术,被认为是推动第三代人工智能技术发展的一项重要技术(林俊安等,2024)。
自监督预训练大模型技术出现在2018年前后,GPT(Radford等,2018)和BERT(Devlin等,2018)模型成功激活了深度网络对大规模无标注数据的自监督学习能力,在GPU多机多卡算力和海量无标注文本数据的双重支持下,预训练模型成为人工智能和深度学习领域的革命性突破,将模型规模和性能不断推向新的高度。在过去几年预训练大模型取得了显著的进步,特别是OPENAI公司在22年11月推出的ChatGPT在短短几个月内积累了1亿用户,标志着大模型技术有了大规模商用的基础。
与经典的机器学习流程相比,大规模预训练模型具有以下三方面优势:
①由于复杂的预训练目标和巨大的模型参数,大规模预训练模型可以有效地从大量标记和未标记的数据中获取知识。通过将知识存储到巨大的参数中并对特定任务进行微调,巨大参数中隐式编码的丰富知识可以使各种下游任务受益。
②大规模预训练模型是应对AI领域应用碎片化的有效方式,能够极大的降低下游任务训练、成本和门槛。大规模自监督预训练提供了更好的模型初始化,相当于一种正则化,能避免训练时候过拟合,带来更好的泛化性能,并加速对目标任务的收敛。模型只需要对少量特定任务的有标注数据进行微调即可完成下游任务学习,有标注数据的利用率高。
③大模型和海量无监督训练数据可以学习泛用性极强的模型,从而获得一个统一的通用模型,不需要针对每个任务、场景和数据集专门研制模型。

尽管预训练大模型技术在自然语言处理领域已经取得了很大的成功,但是,视觉预训练大模型的研究进展明显滞后于自然语言处理,面向生物特征提取和识别的大模型研究进展很慢,尤其是行人重识别大模型研究仍然在摸索阶段,还有许多科学问题需要解决,如何合理有效地将预训练大模型相关技术应用到行人重识别任务仍然是一个很有研究意义的开放性课题。
本文将从行人重识别技术和预训练大模型的研究现状出发,结合大规模自监督预训练技术、提示学习等大模型相关技术,阐述预训练大模型技术在行人重识别任务的研究进展,分析其面临的困难和未来的发展趋势。

行人重识别技术的发展现状

自2005年确定行人重识别的概念以来,行人重识别吸引了大量的研究注意,并逐渐成为了计算机视觉的研究热点,在过去10多年得到了飞速的发展,出现了许多基于机器学习和模式识别理论的行人重识别方法,其性能逐年提升。当前行人重识别方法主要分为基于手工描述子的行人重识别方法(Liu等,2014),基于度量学习的行人重识别方法(Chen等,2016)和基于深度学习的行人重识别方法(Feng等,2018)。
早期的行人重识别研究(Zheng等,2013)以手工描述子方法为主,以度量学习为辅,设计手工描述子使得特征足够鲁棒以应对拍摄视角、光照、行人姿态的变化,并通过度量学习将特征投影到判别的距离空间,从而使得行人特征具有分辨能力。
随着深度网络的理论体系和结构的发展与成熟,基于深度学习的行人重识别方法已经成为了行人重识别主流方法(Zahra等,2023),并且深度行人重识别网络取得了很大的突破,多尺度深度网络结构(Qian等,2017)、深度度量学习(Li等,2022)和Transformer网络结构(Ni等,2023)等方法推动了行人重识别理论的发展和进步,使行人重识别模型的性能得到了显著的提升,在主流公开数据集譬如CUHK03和Market-1501的测试结果已经超过了人类(Zhang等,2017)。
随着主流数据集行人重识别算法研究的深入,非可控应用环境跨模态与光照变化、遮挡、低分辨率、航拍视角等挑战越发突出,严重影响了行人重识别算法的应用(冯展祥等,2020),越来越多的研究人员的试图解决实际应用环境面临的挑战,实现能应对各种场景和任务的通用行人重识别模型。

1.1 可见光-红外行人重识别

红外摄像头能为克服行人光照变化问题提供可靠的支持,对全天候的监控系统至关重要。跨模态行人重识别任务带来表观特征剧变、光照变化等问题,是一个极具挑战性的研究问题(吴岸聪等,2022)。Wu等人(2017)构建了第一个大规模可见光-红外行人重识别数据库SYSU-MM01,并提出了基于多模态输入结构的跨模态行人重识别算法,把不同模态的输入图像嵌入到模态特定的结构实现模态融合,学习模态鲁棒特征。
Feng等人(2019)提出基于模态相关特征学习的可见光-红外行人重识别算法,通过构建模态相关网络、提取模态关联的低级特征,在深层共享网络参数、学习模态共享信息,并通过度量损失提高特征的判别能力,显著提高了跨模态行人重识别算法的识别准确率。Yang等人(2022)提出一种基于双重噪声标签的双重鲁棒训练方法,采用了一种双重鲁棒损失,包括软识别损失和自适应四元组损失,以实现对噪声注释和噪声对应的鲁棒性。
Zhang等人(2022)提出特征级模态特定信息补偿框架,从已有模态的图像中生成缺失模态的图像,然后从配对图像中提取判别行人特征进行匹配。Fang等人(2023)提出语义对齐和关联推断框架,利用像素级特征与可学习的原型之间的相似性来聚合潜在的语义部分特征,并设计了一个关联推断模块,通过行人关系优化推断结果,提升模型性能。
Yu(2023)等人提出模态统一网络结构,引入辅助模态模拟特定模态和模态共享表征减轻跨模态和模态内的变化,并引入身份对齐损失和模态对齐损失,缩小可见光和红外图像的分布距离,学习辨别表征。Ren等人(2024)提出一种隐式判别知识学习网络挖掘和利用隐式模态判别信息,使用双流网络结构提取特定模态和模态共享特征,然后对特定模态特征提出对齐损失减少模态风格差异,同时保留身份识别的判别知识。多个公共数据集的广泛实验证明其方法的优越性。

1.2 遮挡行人重识别

在监控场景,尤其是拥挤的公共场所,行人可能被建筑物、行李以及其他行人遮挡,导致局部行人图像和关键区域信息丢失,很难从遮挡图像提取鲁棒行人特征,给识别任务带来不利的影响。Zheng等人(2013)构造了第一个遮挡行人数据库Partial REID,包含60个行人身份600张局部遮挡的行人图像,并提出了一种基于局部稀疏表示匹配和全局空间对齐匹配的模型,采用局部分块联合高斯计算相似性得分,提升了遮挡行人重识别的性能。
Zhuo等人(2018)构建了Occluded-REID数据集并提出了一种基于联合显著性学习的遮挡行人重识别方法,通过遮挡模拟器生成多种类型遮挡,同时添加遮挡与非遮挡分类损失实现遮挡行人与完整行人之间的显著性关注机制,降低了遮挡区域的影响。遮挡行人数据库的出现推动了相关研究的发展,Hou等人(2019)提出了一个特征补完的框架,该框架包含空间模块和时间模块,利用视频帧之间的时空关联恢复特征空间中遮挡区域的语义,显著提升了遮挡行人特征的鲁棒性。
Wang等人(2020)学习判别特征和人体拓扑信息的高阶关系解决行人遮挡问题,将局部特征表示为图的节点,利用图匹配策略学习节点之间的对应关系,然后将对应关系视为邻接矩阵来传递信息,抑制噪声特征的信息。Wang等人(2022)提出遮挡行人特征擦除和扩散网络,通过非行人遮挡增强生成精确的遮挡掩膜,随后通过特征扩散模块合成目标行人特征,提高对遮挡行人的感知能力。
Xu等人(2022)提出特征恢复转换器结构,挖掘两幅图像的可见区域计算相似度,并设计恢复转换器来恢复完整的行人特征,解决噪声干扰和遮挡带来的行人信息丢失等问题。Huang等人(2023)提出基于注意力图神经网络的响应和挖掘方法,利用上下文语义区分遮挡区域和可视区域,并以可视得分引导网络忽视遮挡区域,学习全局判别特征,实现可视区域响应和遮挡特征补全。
Wang等人(2024)提出FCFormer结构,提出遮挡实例增广方法模拟真实多样的遮挡情况,然后通过共享编码器从输入对中学习配对的鉴别特征,并通过特征补全解码器从自动生成的遮挡特征中汇总可能的信息,补全特征空间遮挡区域的语义特征。FCFormer在五个数据集上进行了大量实验证明其在遮挡数据集的卓越性能和显著优势。

1.3 低分辨率行人重识别

由于监控摄像头被布置在不同的区域,因此视频行人的成像质量和成像条件差异很大,导致不同的行人图像分辨率差异很大,低分辨率图像很难提取判别特征,识别精确明显降低(杨露露等,2023)。当前,针对低分辨率行人重识别研究主要有行人图像归一化预处理以及跨分辨率鲁棒行人特征提取两种。
Wang等人(2018)通过使用级联的生成对抗网络结构进行行人图像超分辨率,实现从粗到细的低分辨率行人图像增强,获得细节更加逼真的高分辨率行人图像,然后用超分辨率后的图像学习行人分类器。Li等人(2018)对高低分辨率图像构建不同的字典并学习分辨率特定的投影矩阵,从而把高低分辨率图像的特征投影到一个公共的特征子空间。
Cheng等人(2020)提出一种正则化方法,平衡超分辨率和行人特征提取获取对网络参数更新的权重,对深度特征进行度量学习找到对分辨率变化鲁棒的子空间,学习判别特征。Zhang等人(2021)提出一种深度高分辨率学习框架,设计通道注意力结构,通过利用特征图的不同通道信息恢复低分辨率图像的特征,并设计孪生网络结构减少不同分辨率之间的特征分布差异。
Wu等人(2023)提出一种自适应动态度量的分辨率无关框架RAP,将来自不同分辨率的行人图像编码到特定的子空间,然后学习分辨率自适应掩码提取分辨率相关的特征,结合回归学习策略获得对分辨率鲁棒的行人特征空间,显著提升了跨分辨率行人重识别模型性能。

1.4 无人机航拍行人重识别

随着无人机技术的发展,无人机普及程度越来越高,研究人员开始将注意力放到无人机航拍的行人重识别。早期研究以数据集构建为主,Zhang等人(2020)构建了第一个无人机航拍行人数据集PRAI-1581,共有接近4万张无人机拍摄的行人图像,拍摄高度为20到60米之间,行人数量是1581类,大部分图像由鸟瞰视角拍摄。
Li等人(2021)构建了一个面向航拍行为识别、车辆重识别和行人重识别的大规模多源多模态航空数据集UAV-Human,通过可见光、红外等多种摄像机获取多源多模态的航拍行人图像及动作,并标注了行人属性和行为动作模式,包含67,428个多模态视频序列、119 个动作识别的类别以及包含1144个行人身份的41290张图像。
Zhang(2023)等人构建了一个大规模的地面-航空行人搜索数据集G2APS,包含2644个行人共31770张图像,检测出26万个行人框。Nguyen等人(2024)构建了一个航空-地面的行人重识别数据集AG-ReID,该数据集包含388个行人共21983张图像,每个人有15个属性标签,航拍高度从15米到45米不等,该工作提出一种结合特征和属性的行人重识别框架,通过知识蒸馏将属性知识传递到身份提取网络。
无人机拍摄的行人图像距离更远,大部分躯干被遮挡,有效信息很少,导致传统行人重识别算法的识别准确率不高。为了解决上述挑战,当前已经出现了一些探索性的无人机航拍行人重识别研究。Chen等人(2022)提出了面向无人机航拍行人的旋转不变Transformer结构,考虑地面和航空拍摄的不同视角对特征层面进行对应的旋转增强,获得更多的视角变化,并通过视角不变约束降低视角变化对特征的影响,提升了行人重识别模型对不同视角的鲁棒性。
Huang等人(2024)提出一种多分辨率特征感知网络结构,通过在低分辨率图像和高分辨率图像之间建立自注意力和互注意力模块学习对不同的分辨率鲁棒的行人特征。

1.5 行人重识别技术性能和瓶颈

尽管行人重识别研究涉猎的范围很广,几乎覆盖了生活中可能遇到的所有情况,当前提出的技术仍然没有彻底解决非可控环境行人重识别的难题。随着行人重识别技术的发展,在各个领域的行人重识别模型的性能增长速度明显变低,逐渐触摸到了性能的瓶颈。
总体而言,当前行人重识别模型的识别准确率还很难让人满意,主流算法在不同方向和场景的行人重识别数据集的识别性能如表2所示,包括可见光行人数据集Market1501和MSMT17、可见光-红外行人数据集SYSUMM01、遮挡行人数据集Occluded-REID、低分辨率行人数据集MLR-Market、换衣行人数据集PRCC(Yang等,2019)、无人机行人数据集PRAI-1581,测试的算法都是近期发表在国际顶刊和顶会的算法,包括SOLIDER(Chen等,2023)、IDKL(Ren等,2024)、FCFormer(Wang等,2024)、RAP(Wu等,2023)、AIM(Yang等,2023) 和RotTran(Chen等,2022)。
由表可见,面向非可控环境闭集测试主流算法的识别准确率基本在80%到90%之间,一些困难的任务识别率更低,如换衣和无人机的识别率只有57.9%和70.8%,距离实际应用的要求还有很大的距离。一个最主要的原因是收集行人标签数据的难度和成本很高,需要挖掘出现在不同视角监控摄像头的同一个行人,导致当前行人重识别的数据集规模较少,并且未来几年也很难出现大规模的标注行人数据集。
因此,如何通过有限的标签数据提升行人重识别模型的泛化能力,获得识别能力更强的通用行人重识别模型,是当前行人重识别研究面临的亟待解决的瓶颈问题,自监督学习和大模型技术能为行人重识别技术破冰提供借鉴和参考。

表2 不同任务主流行人重识别算法的识别性能

大规模预训练技术国内外研究现状

算法、数据和算力是人工智能的三驾马车。随着算法和算力的发展,数据的限制越发突出,高昂的标注代价限制了人工智能的应用。随着深度网络的发展,对于参数量规模庞大的神经网络,用少量标签数据训练容易产生过拟合的问题,导致模型的泛化能力较差。
但是,数据标注的成本差异很大,部分任务需要专业知识进行数据标注,成本非常高,比如视觉识别任务和机器翻任务可能需要数百万标注样本的数据集,要在所有碎片化场景建立大规模标注数据集是不可能的。
上述困难限制了人工智能模型的大规模应用,如何通过有限的人工标注数据构建泛化能力较强的深度模型成了落地应用的关键,预训练大模型技术就是解决上述挑战的核心。

2.1 预训练大模型技术在自然语言处理的研究

近年来,学者们关注到无标注数据的重要性,开始研究如何从大规模数据抽取信息,大规模自监督学习脱颖而出。自监督学习技术通过输入数据本身作为监督信号从无标签数据中提取领域通用知识,从而提升模型在下游应用的泛化能力,使得利用大规模无监督数据获取预训练模型成为可能,在自然语言处理任务取得了显著的进展。研究者通过在大规模无标注语料上进行自监督训练学习得到通用的语言表征,获得用于解决下游任务的泛用模型。

自监督学习和Transformer是预训练模型在NLP取得成功的关键。Transformer(Vaswani等人,2017)是一种基于自注意力机制的编码器-解码器结构,能并行地建模输入序列中所有单词之间的相关性。由于其突出的性质,Transformer逐渐成为预训练大模型的标准神经结构,形成了两个里程碑式预训练模型:GPT 和 BERT。
GPT是第一个结合Transformer和自监督预训练的大规模预训练模型,以单向Transformer解码器为骨干,采用生成式预训练和判别式微调两步训练。在预训练阶段,GPT采用无监督学习策略基于庞大的无监督语料训练一个生成式语言模型,对每个单词计算概率分布学习神经网络的预训练初始参数;在微调阶段,使用下游标注数据微调模型解决应用任务。GPT模型刷新了NLP领域的 9 项典型任务,效果十分惊艳。BERT是应用最广泛的预训练模型结构,采用双向深层Transformer作为主要结构。
在预训练阶段,BERT设计了目标掩码语言建模,对词语进行随机掩蔽并预测掩蔽位置上的单词,从而学习双向上下文语义信息。BERT横扫了11项NLP任务,对预训练大模型产生了深远的影响。2020年,OPENAI发布GPT-3网络(Brown等,2020),是NLP大规模预训练模型的一个重要里程碑,展示了海量模型参数蕴含的潜在力量,尤其是强大的小样本学习能力。GPT-3继承了GPT的主体框架,突破了当时最大的神经网络的参数规模,参数量达到了1750亿,使用了45T数据进行训练。
GPT-3显示出了极强的泛化能力,在零样本、少样本学习任务表现出了很强的泛化能力,在文本生成、自然语言推理、常识推理等任务取得了实质性进展,将NLP应用扩展到缺乏足够训练数据的领域。GPT-3在下游任务不需要精调取得了接近全微调的效果,部分任务甚至超过最好的主流监督算法,展示了大模型实现通用人工智能任务的可能性。
2022年11月,OPENAI发布了ChatGPT,可以跟踪上下文对话流程生成类似人类的响应,能完成写作、编程、问答等多项任务,两个月內全球用户量超过了1亿,已经有了大规模商用的雏形。

2.2 多模态预训练大模型技术的研究

受自监督学习技术和大模型结构在NLP任务成功的激励,部分学者尝试探索自监督学习和大模型技术在视觉任务的应用(田永林等,2022)。最早的视觉大模型研究是关于多模态大模型的,不仅仅使用文本模态,还使用视觉模态等一起进行模型的预训练。
ViLBERT模型(Lu等,2019)设计了一种多模态双流模型分别预处理文本和视觉信息,并且基于共注意力层学习不同模态的联系,在下游视觉问答、视觉常识推理、指示表述任务都获得了2-10个百分点的精度提升。VisualBERT(Li等,2019)扩展了 BERT 架构,Transformer层隐式对齐输入文本和图像区域中的元素,在四个下游任务上进行测试并取得了很好的泛化性能。
Chen等人(2020)提出UniT多任务多模态统一Transformer模型,能够同时解决视觉、多模态、语言等领域中的一系列任务,包括目标检测、视觉-文本推理、自然语言理解等,在7个任务上都有较强的性能。DALLE(Ramesh等,2021)是第一个文本到图像的零样本预训练模型,参数规模达到百亿,通过离散自编码模型来建模图片信息特征,使用自回归Transformer建模文本特征和图像特征之间的联合分布,最大化共现概率,展示了多模态预训练模型在弥合文本描述和图像生成不同模态信息之间差距的出色能力。
DALLE2(Ramesh等,2022)首先利用先验知识从文本提取图像嵌入特征,然后通过嵌入特征利用扩散模型解码产生目标图像,展现了强大的零样本学习以及语义理解和融合能力,生成的图像逼真、细节丰富。OpenAI开发CLIP多模态大模型(Radford等,2021),是多模态大模型研究的里程碑工作之一。CLIP提出双塔模型结构在预训练阶段学习通用视觉语义概念,包含文本编码器和图像编码器,在互联网收集了4亿对关联的图像文本数据,并提出基于对比学习的图文预训练方法,通过判断图像和文本是否匹配进行联合训练,在下游任务取得了非常好的泛化效果。
CLIP多模态预训练模型具有良好的零样本迁移性能,在20多个下游任务,包括细粒度物体分类、光学字符识别、行为识别等任务的测试性能超过了全监督主流方法的性能。多模态预训练大模型证明了可以通过视觉图象和语言文本之间的关联学习可迁移的特征,并在多个场景和任务验证了其泛化能力,形成了一批落地应用。

2.3 预训练大模型技术在计算机视觉的研究

多模态大模型需要文本提示进行辅助,并不适用于所有视觉任务,因此部分学者开展视觉预训练大模型研究。BEiT(Bao等,2021)是最早的视觉大规模预训练模型,将图像通过离散自编码器编解码学习隐含层特征,然后通过遮挡图象建模的方式随机遮挡40%的图像块,预测其原始视觉特征。
在图像分类和语义分割等视觉任务的实验结果表明BEiT取得了优异的泛化效果。MAE(He等,2021)采用图像掩码重建的方式,对输入图像块大比例随机遮挡(75%)并对遗失像素进行重建,提出非对称编解码架构,编码器基于ViT(Dosovitskiy等,2020),解码器通过遮挡信息和隐特征进行重建,仅用于预训练阶段,采用轻量化结构,在下游分类任务带来了显著的提升。
SimMIM(Xie等,2022)通过遮挡图像建模来学习预训练模型的参数,对输入图像信号的一部分进行遮挡,并预测被遮挡区域的原始图像输出。对输入图像进行随机掩码(10%-70%);编码器采用ViT提取图像块特征,解码器采用一层线性层的轻量化设计,预测目标采用损失L1函数直接回归预测原始像素RGB值。通过比以前少40倍的数据训练30亿参数的SwinV2-G模型,在ImageNet、CoCo检测分割创造新记录。
SAM模型(Kirillov等,2023)引入了提示学习策略,提示可以是前景/背景、粗框或掩模、自由文本,使用11亿分割掩码进行训练,展示了视觉通用大模型的潜力,学会了物体的一般概念,对未知的物体和不熟悉的场景也有不错的效果。SAM模型展示了强大的泛化能力,在视觉目标分割、医学图像分割、工业缺陷检测等多个场景得到了快速的落地应用。
FastSAM(Zhao等,2023)提出轻量级模型实现快速语义分割的框架,将语义分割任务分解为实例分割和提示引导两个部分,在提高模型处理速度和效率的同时保持较高的识别精度,多个分割和检测数据集上取得了优异的性能和突出的实时性能。
尽管视觉大模型的研究热火朝天,目前还存在许多问题需要解决。一方面,当前模型结构不能高效学习视觉结构和语义信息,导致视觉大模型规模远远不如语言大模型。另一方面,大多数视觉大模型技术仍然停留在预训练-微调范式,在下游任务应用仍然需要收集标注数据,距离通用人工智能的要求还非常遥远。

2.4 预训练大模型与行人重识别

回顾预训练大模型的发展历程,以下几个方面能给行人重识别的发展提供思路上的启发和技术上的支持。
首先,参考语言大模型的成功经验,可以通过大规模自监督预训练技术训练预训练行人重识别模型,通过大规模的无监督行人样本提升行人重识别模型在下游的泛化能力。
其次,借鉴多模态大模型的经验,可以挖掘文本信息和文本提示在行人重识别任务的应用,通过文本-视觉信息之间的关联性学习判别能力和泛化能力更强的模型。
最后,考虑视觉大模型研究面临的困难和窘境,不能直接将已有的预训练大模型结构套用到行人重识别任务,而是需要结合行人先验设计模型结构,将行人重识别面临的各种挑战整合到一个统一的模型框架,从而学习一个通才的模型,获得通用行人重识别模型。

自监督预训练行人重识别发展现状

行人标注数据采集成本高,数据规模小是限制行人重识别模型性能和泛化能力的主要原因,随着自监督预训练大模型在自然语言处理和多模态交叉处理获得成功,部分学者开始探索自监督预训练技术在行人重识别的应用,从自然语言处理预训练的经验出发,以视觉自监督预训练框架为基础研究大规模预训练行人重识别方法。

受到自监督预训练技术在NLP领域的启发,部分研究者进行了视觉自监督预训练技术的开发,基于对比学习的框架进行自监督训练,以MoCo(He等,2020)、SimCLR(Chen等,2020)、MAE、SimMIM等为代表,显著提升视觉模型在下游任务的泛化能力,也为自监督预训练技术在行人重识别的应用打下了基础。何恺明等人提出了基于动量对比的无监督学习方法MoCo,通过对比损失从大规模无标签数据建立大型、一致的词典,使用对比损失将查询编码与字典进行匹配来训练视觉表示编码器。
MoCo在分类、检测、分割、关键点检测等主流的视觉任务超越有监督预训练模型,证明了自监督学习技术在计算机视觉领域也能取得很好的效果。Hinton提出一种简单的视觉表征对比学习框架SimCLR,在对比学习框架中使用了多种数据增强的组合,在视觉特征和对比损失之间引入非线性变换提高特征质量,并提出使用更大的批数量和迭代次数进行对比学习。SimCLR在很多数据集上的实验表现了出色的性能,自监督线性分类器精度接近监督学习的ResNet-50模型。

3.1 大规模无监督行人数据集

模型预训练在行人重识别中起着重要的作用,在视觉自监督预训练技术的支持下,部分学者开始挖掘自监督预训练技术在行人重识别的应用。与其他视觉任务相比,行人重识别数据的收集和标注是非常困难的,当前公开的行人数据集在图片数量,

行人数量和捕获环境等方面都非常局限。主流的标注行人数据集如表3所示,VIPeR数据集(Gray等,2007)只有1264行人,每个人只有2张图像,最大的数据集MSMT17只有12.6万图像,类别数最多的Airport有9651人,每个人只有4张图像。已有的主流预训练方法往往使用ImageNet进行预训练然后再进行微调。但是,ImageNet和行人数据差异是很大的,导致预训练的效果不佳,为了解决上述问题,部分研究人员开始创建大规模弱监督/无监督行人数据集,如图1所示。
Wang等人(2020)创建了大规模弱监督行人数据集SYSU-30K,通过网络下载1000 个电视节目视频,利用弱标注方式进行标注,将数据集切成8.5万个切片,然后标注人员记录每个切片的行人身份,获得了约3000万的行人图像和超过3万个标注的身份,SYSU-30K数据集包含光照变化、遮挡、低像素、俯视拍摄的摄像机和复杂背景等挑战,支持通用的、弱监督和自监督学习模式,满足不同研究和应用需求。
Fu等人(2021)构建了第一个大规模无监督行人数据集LUPerson,以此解决ImageNet预训练模型的数据和实际行人数据差异过大的问题,推动行人重识别技术的边界,通过无监督预训练的方法,在没有人工标注的情况下也能实现高效学习和准确的识别。该数据集共包含420万无监督行人图像,来自46000多个场景,行人数量超过20万,涵盖了光照变化、低分辨率、遮挡等挑战,首次将大规模无监督预训练用到行人重识别,以MoCo为基准进行无监督预训练,以提高学习到的特征的泛化能力,并系统地研究了数据增强和对比损失在行人重识别预训练中的作用,验证了大规模预训练对行人重识别模型的提升效果,显著提升主流模型性能,小样本、非监督迁移任务提升更加明显。
Fu等人(2022)还将多目标跟踪系统应用于LUPerson的原始视频,并建立带噪声标签预训练数据集LUPerson-NL。该数据集通过多目标跟踪系统建立大规模噪声标签,为跟踪算法检测的每一个行人附上身份标签,并由此制作了一个数据规模达到千万,类别数量达到43万的噪声行人数据集。在此基础上,Fu等人提出了基于噪声标签的大规模预训练框架,该框架包含三个模块:分类监督学习模块、原型对比学习模块和标签引导的对比学习模块。
通过多个数据集的实验表明,使用该数据集进行预训练的提升效果与LUPerson更加显著,尤其在小规模数据集优势明显。表3对比了基于监督标注的行人数据集和大规模无标签行人数据集,可以看出,弱监督/无监督获得的行人数据集数据规模和行人数量要远远超过有监督的行人数据集。
此外,主流的监督行人数据集只考虑单一的场景,摄像机视角数量不多,因此基于这些数据训练的模型泛化能力较差,大规模行人数据集覆盖多种场景,没有明显的数据倾向,有利于提高预训练模型泛化能力。

表3 主流行人数据集/大规模行人数据集对比

图1 弱监督/无监督行人数据集展示
3.2 基于自监督预训练的行人重识别研究

数据库的出现推动了大规模预训练行人重识别研究的发展,当前自监督预训练行人重识别方法的研究可以分为两类,一类是基于传统对比学习框架的研究,一类是基于行人先验的自监督预训练框架的研究,如图2所示。早期的探索性研究往往使用面向通用视觉物体分类的自监督学习框架进行,Fu等人在LUPerson和LUPerson-NL的探索性研究就是采用了MoCo框架,以ResNet50为基准网络。
Luo等人(2021)首次探索了ViT等Transformer结构在大规模数据集的自监督预训练学习,通过引⼊实例正则化和快正则化来学习具有视角、姿态和光照不变性的特征。在此基础上,Luo等人还提出了灾难性遗忘分数来评估预训练和微调数据之间的差距,通过对下游ReID数据进行采样并从预训练数据集中过滤不相关数据来选择一个更接近的相关数据⼦集,从而减少训练需要的时间和资源,只使用一半数据集进行训练而没有造成性能损失。
Wan等人(2023)聚焦于解决多模态视频监控场景下行人重识别任务的模态偏差预训练问题,针对预训练可见光数据和实际应用的红外数据场景的差异提出了一种自监督预训练模态感知多粒度学习方法MMGL,在多模态数据集上直接开展预训练,提出排列恢复模块学习全局模态不变表示和部分感知循环对比学习模块提升局部特征的区分能力,无须依赖外部数据集和复杂的精调技巧,训练速度更快、数据效率更高,并且表现出优秀泛化性能和跨数据集迁移性能,具有推广到更多多模态图像检索任务的潜力。
Zhang等人(2024)研究从合成数据到真实数据之间的跨场景⾏⼈重识别任务,通过合成生成的方法产生大量虚拟行人图像,提出了⼀个领域不变特征学习模块和均值教师⽹络训练⽅案,通过已有的模型提取特征,设计三个维度的⾃监督辅助任务:帧级别,视频级别,特征拼接级别这三个维度来预测特征分布;将基础⽹络训练得到的模型作为学生网络,然后通过指数移动平均⽅法得到教师⽹络,设计身份⼀致性损失和身份相似性损失两个自监督损失来训练学生网络。
Ye等人(2022)提出基于灾难遗忘分数的(catastrophic forgetting score,CFS)方法在LUPerson数据集得到预训练模型参数,并提出通道级自注意力模块减少特征计算开销,提出双重原型对比学习方法,聚类对比方法学习方法和难样本对比学习方法提高模型对困难样本的识别能力,在域适应任务不使用标签数据获得与主流监督算法相当的性能,通过大规模自监督学习提升无监督域适应行人重识别模型的性能。

图2 基于大模型技术的行人重识别研究

Zhu等人(2022)提出了一种基于局部特征的大规模预训练行人重识别方法PASS。此前的自监督方法直接使用图像分类的模型,没有进行框架上的调整,导致同时将局部和全局视图进⾏匹配,丢失⼤量细节信息。PASS以ViT为基准,通过生成局部特征以提供细粒度信息,将图像划分为多个局部区域,从每个区域随机裁剪得到的视图分配一个可学习的局部标记,这些标记会被添加到全局视图中。
然后设计了一个知识蒸馏的框架,所有的视图通过学生网络,只有全局视图通过教师网络,通过知识蒸馏约束教师网络和学生网络的输出,学生网络滑动平均更新教师网络的参数,并分别对全局-全局,全局-局部和身份特征之间进行对比学习,最终在多个数据集的识别实验和跨数据集迁移实验取得最好的效果,显著提升了行人模型的泛化能力。
Yang等人(2022)发现对比学习框架中的数据增强会破坏人物图像中的判别线索,忽略行人的局部特征,提出基于类内正则化的大规模预训练框架UP-REID,引入内部身份的正则化,提高模型对于数据增强的鲁棒性,并利用人体水平对称性的先验知识提出新的困难样本挖掘策略筛选正负样本,解决了无监督预训练中的增强可能会扭曲人物图像中的判别线索的问题。 UP-REID方法采用MoCo框架和一致性对比损失,相比其他预训练学习方法对基准网络带来了更显著的提升。
Yang等人(2022)研究了自监督预训练技术在地铁站行人重识别任务的应用,针对地铁站等复杂场景对行人重识别的挑战,提出一种自监督预训练方法SPLT,首先通过一种定向标记模块模拟实际场景中的相机风格变换和交叉分辨率问题,并引入面向行人图像的可学习特征编码器,设计了两个投影层,一个用于恢复被遮挡的嵌⼊表⽰,另一个用于提取判别性行人身体部位特征,并通过知识蒸馏的方法进行参数优化:教师网络使用三元组损失进行前向传播提供指导,学生网络使用对比损失函数进行优化,学习特征,实现知识蒸馏。
Huang等人(2023)探索自监督预训练技术在换衣行人重识别的应用,针对现实场景的行人重识别任务受到粗粒度、衣服颜色干扰和预定义区域的阻碍,引入更多的语义信息来学习鲁棒的换衣行人重识别模型。具体地,受交互式语义模型启发,提出局部语义提取模块捕获细粒度、特定的语义和生物识别相关的局部语义,提升行人重识别性能。
在此基础上,提出自监督预训练学习方法SemReID,通过教师学生网络、多裁剪策略,多头自注意等结构,利用局部语义提取以人为中心的语义信息,避免衣服等干扰信息,显著提升了换衣行人重识别模型的性能。

3.3 自监督预训练行人重识别技术的意义和局限

自监督预训练行人重识别模型的实验结果如表4所示,使用大规模无标签数据预训练的模型进行微调识别准确率明显更高,Market-1501和MSMT数据集识别率最好的算法都经过LUPerson预训练。
对比同一个算法,使用无监督行人数据预训练的效果比用ImageNet数据效果要强,在目标数据集微调结果明显提升,譬如MGN网络结构,经过LUPerson预训练之后,在Market-1501数据集的R1/mAP从87.5%/95.1%提升到了91%/96.4%,分别提升了3.5%和1.3%。
此外,许多模型不需要使用目标场景的数据进行微调就可以取得媲美监督微调的效果,譬如使用MoCov2框架预训练的ResNet网络的识别性能和MGN框架使用标签数据微调的网络性能非常接近,SPLT,VersReID训练的VIT模型更是无需目标数据微调就超过了主流的监督学习算法。

表4 行人重识别大规模预训练实验结果

总体而言,当前已有一些自监督预训练行人重识别研究,并且已经证明自监督预训练技术对于提升行人重识别模型的性能和泛化能力是非常重要的。但是,目前基于自监督预训练技术的行人重识别研究还处于探索阶段,仍然有许多问题需要解决。
首先,现在的学术界开源的大规模行人数据集很少,目前能找到的开源数据集只有SYSU-30K和LUPerson两个大规模的数据集,数据很难覆盖所有场景,譬如涉及夜间红外监控和空中航拍视角监控的行人数据就会比较少,预训练得到的模型泛用性有限。
其次,当前使用的自监督预训练技术以MoCo,SimCLR等面向一般视觉任务的预训练为主,网络结构也是以ResNet和ViT等通用框架比较多,如何融合行人先验知识,如何设计适合行人结构的神经网络仍然是一个很值得探索的课题。
最后,受限于应用场景行人数据较少,当前的预训练行人重识别模型只使用到了大规模数据,而没有设计大规模模型,怎样发挥大模型的规模优势,利用海量参数学习通用的行人重识别模型,也是有待开发的问题。

基于大模型技术的行人重识别研究

由于标注行人图像收集成本高,难度大,测试场景往往是没有标注数据的,因此对行人重识别模型的泛用性提出了很高的要求,需要尽可能提高模型泛化能力,减少对标签数据的依赖,形成通用的行人重识别模型,从而在未知的场景做到即插即用。
大模型通过海量的数据挖掘通用的知识,其参数蕴含了丰富的先验知识,此外,多模态大模型学习了可靠的文本-视觉特征关联,因此基于大模型学到的文本提示可以辅助视觉模型挖掘更通用的特征。由于预训练大模型的上述性质,越来越多的学者研究如何使用预训练大模型技术来提高行人重识别模型的泛化能力,学习通用的模型。
当前,利用大模型的行人重识别研究主要有两种,一种是基于大模型参数的方法,另外一种是基于提示学习的方法。

4.1 预训练大模型引导的行人重识别方法

基于大模型参数的方法以大模型的参数作为初始化去提取更鲁棒的特征,由于预训练学习的参数蕴含丰富而鲁棒的知识,在下游往往能获得更好的效果。由于CLIP模型在各种下游任务(包括图像分类和分割)上表现出了优越的性能和泛化能力(Zhou等,2022),因此被用来提升行人重识别模型的性能和泛化能力,简单地微调CLIP中图像编码器初始化的视觉模型,已经在各种行人重识别任务中获得了具有竞争力的性能。
但是,在行人重识别任务中,标签是索引,缺乏具体的文本描述,因此无法使用预训练CLIP模型的文本-视觉先验知识。为了解决上述问题,更好地利用CLIP的先验知识,Li等人(2023)提出了一个两阶段的CLIP-REID框架来促进更好的视觉表示。
首先,为每个行人设置一个可学习的模板,并将它们提供给文本编码器以形成模糊的描述,以此利用CLIP的跨模态描述能力。第一阶段利用可学习模板来挖掘但又不破坏CLIP原有的特性,而在第二阶段,再根据学好的模板和文本特征来优化图像特征以此获取更好的泛化能力。
具体地,在第一阶段将来自CLIP的图像和文本编码器保持固定,通过对比损失从头开始优化模板学习过程。在第二阶段,将特定于身份的模板及其文本编码器设为静态,利用学习好的模板微调图像编码器。在下游任务中,通过设计的损失函数,图像编码器能够将数据准确地表示为特征嵌入向量。CLIP-REID在多个行人和车辆的重识别数据集中证明了能显著提高模型的识别准确率和泛化性能,并开启了利用多模态大模型参数优化行人重识别模型泛化能力的先河,在此之后出现了更多的研究。
Yan等人(2023)提出CLIP驱动的细粒度文本-图像行人重识别方法,利用CLIP模型的文本-视觉先验减少文本描述和行人图像的巨大鸿沟,实现图像特征嵌入和文本空间的跨模态对齐。具体地,提出CLIP驱动的细粒度信息挖掘框架CFine,利用CLIP在多模态预训练过程中学到的文本和视觉知识及其联系。
首先,设计了一个多粒度的全局特征学习模块,利用细粒度信息挖掘模态内判别特征和模块间的对应关系,通过增强全局信息和局部信息之间的相互作用,充分挖掘每个模态内的判别局部信息,从而强调与身份相关的判别线索。
然后,提出跨模态特征细化和细粒度对应模块来建立模态之间细粒度特征的关系,过滤不重要和非模态共享特征,并从粗到细挖掘跨模态对应关系。在多个基准上的广泛实验表明,CFine方法能挖掘并利用文本蕴含的信息,显著提升文本-图像行人重识别的性能,超过了其他主流方法。
Yu等人(2024)探讨了CLIP在跨模态行人重识别的应用,发现可见光行人和红外行人图像尽管在外观上存在模态差距,但是行人外观的高层次语义信息(如性别、形状和穿衣风格)在不同模态之间仍然保持一致,因此提出了一个CLIP驱动的语义发现网络CSDN,通过注入高层次语义的视觉特征来弥合模态差距。该网络由模态特定提示学习器、语义信息整合和高层次语义嵌入等模块组成。
考虑到语言描述中的模态差异带来的多样性,设计了双模态可学习模板,即为一个行人在不同模态上设计不同的模板以分别捕获可见光和红外图像的模态语义信息。此外,鉴于不同模态语义细节的互补性,该网络整合了来自双模态语言描述的文本特征以实现全面的语义。最后,建立了整合的文本特征与跨模态视觉特征之间的联系,将丰富的高层次语义信息嵌入到视觉表示中,从而促进视觉表示的模态不变性。通过在多个广泛使用的基准数据集上的实验评估证实了CSDN结构在现有方法中的有效性和优越性。
Li等人(2024)同样将CLIP模型用于文本行人重识别任务,引入了提示微调策略来实现域适应,在训练阶段解耦CLIP模型微调的过程,并提出了一种两阶段训练方法,将域适应从任务适应中分离出来。在第一阶段,冻结了CLIP中的两个编码器,只专注于优化可学习的提示,以缓解CLIP和下游任务的原始训练数据之间的域差距。在第二阶段,保持固定的提示并微调CLIP模型,以优先捕获细粒度信息,提取更适合文本行人重识别的特征。最后,在三个广泛使用的数据集上证明了方法的有效性。与直接微调的方法相比,取得了显着的改进。
Yu等人(2024)研究如何将多模态模型学到的知识应用到基于视频的行人重识别,提出了一种基于 CLIP的单阶段无文本学习框架TF-CLIP。具体地,提取了特定于身份的序列特征作为CLIP存储库,以取代文本特征。同时,设计了一个序列特定提示模块来在线更新CLIP存储库。为了捕捉时间信息,进一步提出了时间记忆扩散模块,该模块由两个关键部分组成:时态记忆和记忆扩散。时态记忆模块实现序列中的帧级记忆相互通信,并根据序列中的关系提取时间信息。记忆扩散模块则进一步将时间记忆扩散到原始特征中,从而获得更稳健的序列特征。TF-CLIP在几个主流视频行人数据集的效果要明显优于其他最先进的方法。






请到「今天看啥」查看全文


推荐文章
新疆949交通广播  ·  期待!今晚八点
昨天
新疆949交通广播  ·  就在今天,21时53分!
昨天
新疆949交通广播  ·  突发公告:集体下架!
2 天前
新疆949交通广播  ·  免费开放!
2 天前
新疆949交通广播  ·  暴涨108%!突破2000万人!
3 天前