专栏名称: VALSE

VALSE（Vision and Learning Seminar）年度研讨会的主要目的是为计算机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者提供一个深层次学术交流的舞台。

【VALSE 前沿技术选介17-04期】利用对抗学习改进目标检测的结果

VALSE · 公众号 · · 2017-05-08 16:15

正文

今天跟大家介绍的是近期的一个利用 adversarial learning 来训练 object detector 的工作： A-Fast-RCNN: Hard Positive Generation via Adversary forObject Detection. 和目前主流的 GAN paper 不同，这篇文章的目标是为了用 GAN 来提升 recognition 的 performance ，而不是生成好看的图片。在具体介绍这个工作之前，先给大家讲讲背景故事。

GAN 作为一个生成图像的工具，在近两年已经异常火爆，许多 paper 一遍遍的刷新了各种酷炫的 visualization 。最近和某同学讨论，他的评价我觉得很贴切 “ 要评价现在的生成的结果有多差，要等下一篇 paper 出来后才知道 ” 。当然我不否认 GAN 在 graphics 和 low-level vision 里面起到了很大的帮助，实际上用它来做出来的 APP 也产生不少的商业价值。但是从 machinelearning 的角度来看，现在的 GAN 主要问题有： (i) 作为一种 self-supervisised/unsupervised learning 的方法并没有体现出学习到 low-level feature 之上的 semantic representation; (ii) 生成的图片结果大部分还是靠肉眼评价，现有的用 inception score 或者各种给图片 “ 打分 ” 的机制其实并没有很强的说服力。

为什么我说这些 “ 打分 ” 的方法并不十分 “ 靠谱 ” 呢？实际上在 A-Fast-RCNN 这个工作之前，我尝试将 inception score 比较高的生成的图片当成额外的负样本来训练 imagenet-pretrained 的 Fast-RCNN 。经过非常少数的 finetunining, 分类器就能学会把生成的图片分成负样本。也就是说我只需要将 “ 打分器 ” 稍微 finetune 一下，所有方法生成的图片都会变得很低分。

为什么我说 GAN 并没有学习出 low-level feature 以上的 representation 呢？我尝试对训练图片用 GAN 做 super-resolution /inpainting / adding adversarial noise 各种操作来生成额外的正样本，发现对训练 imagenet-pretrained 的 Fast-RCNN 并没有任何的帮助。这说明了用 condtional GAN 生成的新样本并没有对原图增加新的 semantic information （具体的做法读者可以想象在训练 GAN

【VALSE 前沿技术选介17-04期】利用对抗学习改进目标检测的结果

正文

请到「今天看啥」查看全文