专栏名称: 人工智能头条

专注人工智能技术前沿、实战技巧及大牛心得。

云从科技资深算法研究员：详解跨镜追踪(ReID)技术实现及难点 | 公开课笔记

人工智能头条 · 公众号 · AI · 2018-06-27 12:37

正文

作者 | 袁余锋

编辑 | 明明

出品 | 人工智能头条（公众号ID ：AI_Thinker）

【导读】跨镜追踪（Person Re-Identification，简称 ReID）技术是现在计算机视觉研究的热门方向，主要解决跨摄像头跨场景下行人的识别与检索。该技术能够根据行人的穿着、体态、发型等信息认知行人，与人脸识别结合能够适用于更多新的应用场景，将人工智能的认知水平提高到一个新阶段。

本期大本营公开课，我们邀请到了云从科技资深算法研究员袁余锋老师，他将通过以下四个方面来讲解本次课题：

1、ReID 的定义及技术难点；

2、常用数据集与评价指标简介；

3、多粒度网络（MGN）的结构设计与技术实现；

4、ReID 在行人跟踪中的应用分析与技术展望

以下是公开课文字版整理内容

ReID 是行人智能认知的其中一个研究方向，行人智能认知是人脸识别之后比较重要的一个研究方向，特别是计算机视觉行业里面，我们首先简单介绍 ReID 里比较热门的几项内容：

1、行人检测 。任务是在给定图片中检测出行人位置的矩形框，这个跟之前的人脸检测、汽车检测比较类似，是较为基础的技术，也是很多行人技术的一个前置技术。

2、行人分割以及背景替换 。行人分割比行人检测更精准，预估每个行人在图片里的像素概率，把这个像素分割出来是人或是背景，这时用到很多 P 图的场景，比如背景替换。举一个例子，一些网红在做直播时，可以把直播的背景替换成外景，让体验得到提升。

3、骨架关键点检测及姿态识别 。一般识别出人体的几个关键点，比如头部、肩部、手掌、脚掌，用到行人姿态识别的任务中，这些技术可以应用在互动娱乐的场景中，类似于 Kinnect 人机互动方面，关键点检测技术是非常有价值的。

4、行人跟踪“ MOT ”的技术 。主要是研究人在单个摄像头里行进的轨迹，每个人后面拖了一根线，这根线表示这个人在摄像头里行进的轨迹，和 ReID 技术结合在一起可以形成跨镜头的细粒度的轨迹跟踪。

5、动作识别 。动作识别是基于视频的内容理解做的，技术更加复杂一点，但是它与人类的认知更加接近，应用场景会更多，这个技术目前并不成熟。动作识别可以有非常多的应用，比如闯红灯，还有公共场合突发事件的智能认知，像偷窃、聚众斗殴，摄像头识别出这样的行为之后可以采取智能措施，比如自动报警，这有非常大的社会价值。

6、行人属性结构化 。把行人的属性提炼出来，比如他衣服的颜色、裤子的类型、背包的颜色。

7、跨境追踪及行人再识别 ReID 技术。

一、ReID 定义及技术难点

▌ （一）ReID 定义

我们把 ReID 叫“跨镜追踪技术”，它是现在计算机视觉研究的热门方向，主要解决跨摄像头跨场景下行人的识别与检索。该技术可以作为人脸识别技术的重要补充，可以对无法获取清晰拍摄人脸的行人进行跨摄像头连续跟踪，增强数据的时空连续性。

给大家举个例子，右图由四张图片构成，黄色这个人是之前新闻报道中的偷小孩事件的人，这个人会出现在多个摄像头里，现在警察刑侦时会人工去检索视频里这个人出现的视频段。这就是 ReID 可以应用的场景，ReID 技术可以根据行人的穿着、体貌，在各个摄像头中去检索，把这个人在各个不同摄像头出现的视频段关联起来，然后形成轨迹，这个轨迹对警察刑侦破案有一定帮助。这是一个应用场景。

▌ （二）ReID 技术难点

右边是 ReID 的技术特点：首先，ReID 是属于行人识别，是继人脸识别后的一个重要研究方向。另外，研究的对象是人的整体特征，包括衣着、体形、发行、姿态等等。它的特点是跨摄像头，跟人脸识别做补充。

二、常用数据集与评价指标简介

很多人都说过深度学习其实也不难，为什么？只要有很多数据，基本深度学习的数据都能解决，这是一个类似于通用的解法。那我们就要反问， ReID 是一个深度认知问题，是不是用这种逻辑去解决就应该能够迎刃而解？准备了很多数据，ReID 是不是就可以解决？根据我个人的经验回答一下：“在 ReID 中，也行！但仅仅是理论上的，实际操作上非常不行！”

为什么？第一，ReID 有很多技术难点。比如 ReID 在实际应用场景下的数据非常复杂，会受到各种因素的影响，这些因素是客观存在的，ReID 必须要尝试去解决。

第一组图，无正脸照。最大的问题是这个人完全看不到正脸，特别是左图是个背面照，右图戴个帽子，没有正面照。

第二组图，姿态。绿色衣服男子，左边这张图在走路，右图在骑车，而且右图还戴了口罩。

第三组图，配饰。左图是正面照，但右图背面照出现了非常大的背包，左图只能看到两个肩带，根本不知道背包长什么样子，但右图的背包非常大，这张图片有很多背包的信息。

第四组图，遮挡。左图这个人打了遮阳伞，把肩部以上的地方全部挡住了，这是很大的问题。

图片上只列举了四种情况，还有更多情况，比如：

1、相机拍摄角度差异大；

2、监控图片模糊不清；

3、室内室外环境变化；

4、行人更换服装配饰，如之前穿了一件小外套，过一会儿把外套脱掉了；

5、季节性穿衣风格，冬季、夏季穿衣风格差别非常大，但从行人认知来讲他很可能是同一个人；

6、白天晚上的光线差异等。

从刚才列举的情况应该能够理解 ReID 的技术难点，要解决实际问题是非常复杂的。

ReID 常用的数据情况如何？右图列举了 ReID 学术界最常用的三个公开数据集：

第一列，Market1501。用得比较多，拍摄地点在清华大学，图片数量有 32000 张左右，行人数量是 1500 个，相当于每个人差不多有 20 张照片，它是用 6 个摄像头拍的。

第二列，DukeMTMC-reID，拍摄地点是在 Duke 大学，有 36000 张照片，1800 个人，是 8 个摄像头拍的。

第三列，CUHK03，香港中文大学，13000 张照片，1467 个 ID，10 个摄像头拍的。

看了这几个数据集之后，应该能有一个直观的感受，就是在 ReID 研究里，现在图片的数量集大概在几万张左右，而 ID 数量基本小于 2000，摄像头大概在 10 个以下，而且这些照片大部分都来自于学校，所以他们的身份大部分是学生。

这可以跟现在人脸数据集比较一下，人脸数据集动辄都是百万张或者千万张照片，一个人脸的 ID 多的数据集可以上百万，而且身份非常多样。这个其实就是 ReID 面对前面那么复杂的问题，但是数据又那么少的一个比较现实的情况。

这里放三个数据集的照片在这里，上面是 Market1501 的数据集，比如紫色这个人有一些照片检测得并不好，像第二张照片的人只占图片的五分之三左右，并不是一个完整的人。还有些照片只检测到了局部，这是现在数据集比较现实的情况。

总结一下 ReID 数据采集的特点 ：

1、必须跨摄像头采集，给数据采集的研发团队和公司提出了比较高的要求；

2、公开数据集的数据规模非常小；

3、影响因素复杂多样；

4、数据一般都是视频的连续截图；

5、同一个人最好有多张全身照片；

6、互联网提供的照片基本无法用在 ReID；

7、监控大规模搜集涉及到数据，涉及到用户的隐私问题。

这些都是 ReID 数据采集的特点，可以归结为一句话：“数据获取难度大，会对算法提出比较大的挑战。”问题很复杂，数据很难获取，那怎么办？现在业内尽量在算法层面做更多的工作，提高 ReID 的效果。

这里讲一下评价指标，在 ReID 用得比较多的评价指标有两个：

第一个是 Rank1
第二个是 mAP

ReID 终归还是排序问题，Rank 是排序命中率核心指标。Rank1 是首位命中率，就是排在第一位的图有没有命中他本人，Rank5 是 1-5 张图有没有至少一张命中他本人。更能全面评价ReID 技术的指标是 mAP 平均精度均值。

这里我放了三个图片的检索结果，是 MGN 多粒度网络产生的结果，第一组图 10 张，从左到右是第 1 张到第 10 张，全是他本人图片。第二组图在第 9 张图片模型判断错了，不是同一个人。第三组图，第 1 张到第 6 张图是对的，后面 4 张图检索错了，不是我们模型检索错了，是这个人在底库中总共就 6 张图，把前 6 张检索出来了，其实第三个人是百分之百检索对的。

详细介绍评价指标 mAP。因为 Rank1 只要第一张命中就可以了，有一系列偶然因素在里面，模型训练或者测试时有一些波动。但是 mAP 衡量 ReID 更加全面，为什么？因为它要求被检索人在底库中所有的图片都排在最前面，这时候 mAP 的指标才会高。

给大家举个例子，这里放了两组图，图片 1 和图片 2 是检索图，第一组图在底库中有 5 张图，下面有 5 个数字，我们假设它的检索位置，排在第 1 位、第 3 位、第 4 位、第 8 位，第 20 位，第二张图第 1 位、第 3 位、第 5 位。

它的 mAP 是怎么算的？对于第一张图平均精度有一个公式在下面，就是 0.63 这个位置。第一张是 1 除以 1，第二张是除以排序实际位置，2 除以 3，第三个位置是 3 除以 4，第四个是 4 除以 8，第五张图是 5 除以 20，然后把它们的值求平均，再总除以总的图片量，最后得出的 mAP 值大概是 0.63。

同样的算法，算出图片 2 的精度是 0.756。最后把所有图片的 mAP 求一个平均值，最后得到的 mAP 大概是 69.45。从这个公式可以看到，这个检索图在底库中所有的图片都会去计算 mAP，所以最好的情况是这个人在底库中所有的图片都排在前面，没有任何其他人的照片插到他前面来，就相当于同一个人所有的照片距离都是最近的，这种情况最好，这种要求是非常高的，所以 mAP 是比较能够综合体现这个模型真实水平的指标。

再来看一下 ReID 实现思路与常见方案。ReID 从完整的过程分三个步骤：

第一步，从摄像头的监控视频获得原始图片；
第二步，基于这些原始图片把行人的位置检测出来；
第三步，基于检测出来的行人图片，用 ReID 技术计算图片的距离，但是我们现在做研究是基于常用数据集，把前面图像的采集以及行人检测的两个工作做过了，我们 ReID 的课题主要研究第三个阶段。

ReID 研究某种意义上来讲，如果抽象得比较高，也是比较清晰的。比如大家看下图，假设黄色衣服的人是检索图，后面密密麻麻很多小图组成的相当于底库，从检索图和底库都抽出表征图像的特征，特征一般都抽象为一个向量，比如 256 维或者 2048 维，这个 Match 会用距离去计算检索图跟库里所有人的距离，然后对距离做排序，距离小的排在前面，距离大的排在后面，我们理解距离小的这些人是同一个人的相似度更高一点，这是一个比较抽象的思维。

刚才讲到核心是把图像抽象成特征的过程，我再稍微详细的画一个流程，左图的这些图片会经过 CNN 网络，CNN 是卷积神经网络，不同的研究机构会设计自己不同的网络结构，这些图片抽象成特征 Feature，一般是向量表示。

然后分两个阶段，在训练时，我们一般会设计一定的损失函数，在训练阶段尽量让损失函数最小化，最小化过程反向把特征训练得更加有意义，在评估阶段时不会考虑损失函数，直接把特征抽象出来，用这个特征代表这张图片，放到前面那张 PPT 里讲的，去计算它们的距离。

因为现在 ReID 的很多研究课题都是基于 Resnet50 结构去修改的。Resnet 一般会分为五层，图像输入是（224,224,3），3 是 3 个通道，每层输出的特征图谱长宽都会比上一层缩小一半，比如从 224 到 112，112 到 56，56 到 28，最后第五层输出的特征图谱是（7，7，2048）。

最后进行池化，变成 2048 向量，这个池化比较形象的解释，就是每个特征图谱里取一个最大值或者平均值。最后基于这个特征做分类，识别它是行人、车辆、汽车。我们网络改造主要是在特征位置（7，7，2048）这个地方，像我们的网络是 384×128，所以我们输出的特征图谱应该是（12，4，2048）的过程。

下面，我讲一下 ReID 里面常用的算法实现：

▌ 第一种，表征学习。

给大家介绍一下技术方案，图片上有两行，上面一行、下面一行，这两行网络结构基本是一样的，但是两行中间这个地方会把两行的输出特征进行比较，因为这个网络是用了 4096 的向量，两个特征有一个对比 Loss，这个网络用了两种 Loss，第一个 Loss 是 4096 做分类问题，然后两个 4096 之间会有一个对比 Loss。

这个分类的问题是怎么定义的？在我们数据集像 mark1501 上有 751 个人的照片组成，这个分类相当于一张图片输入这个网络之后，判断这个人是其中某一个人的概率，要把这个图片分类成 751 个 ID 中其中一个的概率，这个地方的 Loss 一般都用 SoftmaxLoss。机器视觉的同学应该非常熟悉这个，这是非常基本的一个 Loss，对非机器视觉的同学，这个可能要你们自己去理解，它可以作为分类的实现。

这个方案是通过设计分类损失与对比损失，来实现对网络的监督学习。它测试时取的是 4096 这个向量来表征图片本人。这个文章应该是发在 2016 年，作者当时报告的效果在当时的时间点是有一定竞争力的，它的 Rank1 到了 79.51%，mAP 是 59.87%

▌ 第二种，度量学习方案。

基于TripletLoss 三元损失的 ReID 方案。TripletLoss 是计算机视觉里另外一个常用的 Loss。

它的设计思路是左图下面有三个点，目的是从数据里面选择三个图片，这三个图片由两个人构成，其中两张图片是同一个人，另外一张图片不是同一个人，当这个网络在没有训练的时候，我们假设这同一个人的两张照片距离要大于这个人跟不是同一个人两张图片的距离。

它强制模型训练，使得同一个人两张图片的距离小于第三张图片，就是刚才那张图片上箭头表示的过程。它真正的目的是让同类的距离更近，不同类的距离更远。这是TripletLoss的定义，大家可以去网上搜一下更详细的解释。

在 ReID 方案里面我给大家介绍一个 Batchhard的策略，因为 TripletLoss 在设计时怎么选这三张图是有很多文章在实现不同算法，我们的文章里用的是 Batchhard算法，就是我们从数据集随机抽取 P 个人，每个人 K 张图片形成一个 Batch，每个人的 K 张图片之间形成一个 K×（K-1）个 ap 对，再在剩下其他人里取一个与该 ap 距离最近的 negtive，组成 apn 组，然后我们这个模型使得 apn 组成的 Loss 尽量小。

这个 Loss 怎么定义？右上角有一个公式，就是 ap 距离减 an距离，m 是一个gap，这个值尽量小，使得同类之间尽量靠在一起，异类尽量拉开。右图是 TripletLoss 的实验方案，当时这个作者报告了一个成果，Rank1 到了 84.92%，mAP 到了 69%，这个成果在他发文章的那个阶段是很有竞争力的结果。

▌ 第三种，局部特征学习。

1、基于局部区域调整的 ReID 解决方案 。多粒度网络也是解决局部特征和全局特征的方案。这是作者发的一篇文章，他解释了三种方案。

左图第一种方案 是把整张图输进网络，取整张图的特征；
第二种方案 是把图从上到下均分为三等，三分之一均分，每个部分输入到网络，去提出一个特征，把这三个特征又串连起来；

第三种方案 是文章的核心，因为他觉得第二种均分可能出现问题，就是有些图片检测时，因为检测技术不到位，检测的可能不是完整人，可能是人的一部分，或者是人在图里面只占一部分，这种情况如果三分之一均分出来的东西互相比较时就会有问题。

所以他设计一个模型，使得这个模型动态调整不同区域在图片中的占比，把调整的信息跟原来三分的信息结合在一起进行预估。作者当时报告的成果是 Rank1为80% 左右，mAP为57%，用现在的眼光来讲，这个成果不是那么显著，但他把图片切分成细粒度的思路给后面的研究者提供了启发，我们的成果也受助于他们的经验。

2、基于姿态估计局部特征调整。 局部切割是基于图片的，但对里面的语义不了解，是基于姿态估计局部位置的调整怎么做？先通过人体关键点的模型，把这个图片里面人的关节位置取出来，然后按照人类对人体结构的理解，把头跟头比较，手跟手比较，按照人类的语义分割做一些调整，这相对于刚才的硬分割更加容易理解。基于这个调整再去做局部特征的优化，这个文章是发表在 2017 年，当时作者报告的成果 Rank1为84.14%，mAP为63.41%。

3、PCB。 发表在 2018 年 1 月份左右的文章，我们简称为 PCB，它的指标效果在现在来看还是可以的，我们多粒度网络有一部分也是受它的启发。下图左边这个特征图较为复杂，可以看一下右边这张图，右图上部分蓝色衣服女孩这张图片输入网络后有一个特征图谱，大概个矩形体组成在这个地方，这是特征图谱。这个图谱位置的尺寸应该是 24×8×2048，就是前面讲的那个特征图谱的位置。

它的优化主要是在这个位置，它干了个什么事？它沿着纵向将24 平均分成 6 份，纵向就是 4，而横向是 8，单个特征图谱变为 4×8×2048，但它从上到下有 6 个局部特征图谱。6个特征图谱变为6个向量后做分类，它是同时针对每个局部独立做一个分类，这是这篇文章的精髓。这个方式看起来非常简单，但这个方法跑起来非常有效。作者报告的成果在 2018 年 1 月份时 Rank1 达到了 93.8%，mAP 达到了 81.6%，这在当时是非常好的指标了。

三、多粒度网络（MGN）的结构设计与技术实现

刚才讲了 ReID 研究方面的 5 个方案。接下来要讲的是多粒度网络的结构设计与实现。有人问 MGN 的名字叫什么，英文名字比较长，中文名字是对英文的一个翻译，就是“学习多粒度显著特征用于跨境追踪技术（行人在识别）”，这个文章是发表于 4 月初。

云从科技资深算法研究员：详解跨镜追踪(ReID)技术实现及难点 | 公开课笔记

正文

请到「今天看啥」查看全文