专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

CVPR 2018文章解读——腾讯AI Lab

计算机视觉研究院 · 公众号 · · 2018-05-16 08:35

正文

今天继续上次的话题，来认识下今天的主题—— 类人化标注：多样性和独特性图像标注。

该主要提出了一种全新的自动图像标注的生成式模型，名为 多样性和独特性图像标注 （ D2IA ）。受到人类标注集成的启发， D2IA 将产生语义相关，独特且多样性的标签。

第一步，利用基于行列式点过程（DPP）的序列采样，产生一个标签子集，使得子集中的每个标签与图像内容相关，且标签之间语义上是独特的（即没有语义冗余）；
第二步，对DPP模型加上随机扰动得到不同的概率分布，进而可以通过第一步中的序列采样产生多个不同的标签子集。

利用生成对抗网络（GAN）来训练 D2IA ，在两个基准数据集上开展了充分的实验，包括定量和定性的对比，以及人类主观测试。实验结果说明，相对于目前最先进的自动图像标注方法，其提出的方法可以产生更加多样和独特的标签。

首先来看看多种方法的比较：

图1

注意，单个人工标注倾向于使用语义上不同的标记(参见图1(b)-(d)，并且标记之间的语义冗余低于标注算法MLMG生成的标记之间的语义冗余(参见图1(f)。

最近研究了如何提高生成标记的语义区分性，该方法利用一个行列式点过程（DPP）模型来生成语义冗余较少的标记。在示例图像上运行此算法的标注结果如图1(g)所示。然而，与人类标注相比，这样的结果仍然缺乏一个方面见图1(e)）。人类标注的集体注释也往往是多种多样的，包括更多的图像语义元素的标记。

于是，提出了一种新的图像标注模型，即多样化和清晰的图像标注( D2IA )，其目的是通过学习多个人工标注者生成的标记模型来提高图像标记的多样性和独特性。这种差异性使得同一子集中的标记之间的语义冗余程度较小，而多样性则鼓励不同的标记子集覆盖不同的图像内容的不同方面或不同的语义层次

特别地，该生成模型首先将图像特征向量和随机噪声向量的级联映射为相对于所有候选标记的后验概率，然后将其合并到一个确定性点过程(DPP)模型中，通过顺序抽样生成一个不同的标记子集。利用同一幅图像的多个随机噪声向量，对多个不同的标记子集进行采样。

主要框架如下图2所示：

图2 D2IA-GAN模型

D2IA-GAN 模型的一个特点是它的发生器包含一个采样步骤，它不容易直接使用基于梯度的优化方法进行优化。在强化学习算法的启发下，提出了一种基于策略梯度（PG）算法的方法，用可微策略函数（神经网络）对离散采样进行建模，并设计奖励以鼓励生成的标记子集尽可能接近图像内容。将策略梯度算法应用于 D2IA-GAN 的训练中，可以有效地获得基于图像的标签生成模型。

这项工作的主要贡献其实有四个方面：

(1) 提出了一种新的图像标注方法，即不同的图像注解器( D2IA )，为图像创建相关的、清晰的、多样的标注，与不同的人类标注者为同一图像提供的标记更相似；
(2) 将该问题转化为学习一个基于图像内容的标签概率生成模型，该模型利用 DPP 模型来保证显著性，并进行随机扰动以改善生成标签的多样性；
(3) 生成模型采用了我们称之为 D2IA-GAN 的专门设计的GAN模型进行逆训练；
(4) 在 D2IA-GAN 的训练中，采用策略梯度算法对生成模型中的离散采样过程进行处理。