今天跟大家介绍的是近期的一个利用
adversarial learning
来训练
object detector
的工作:
A-Fast-RCNN: Hard Positive Generation via Adversary forObject Detection.
和目前主流的
GAN paper
不同,这篇文章的目标是为了用
GAN
来提升
recognition
的
performance
,而不是生成好看的图片。在具体介绍这个工作之前,先给大家讲讲背景故事。
GAN
作为一个生成图像的工具,在近两年已经异常火爆,许多
paper
一遍遍的刷新了各种酷炫的
visualization
。最近和某同学讨论,他的评价我觉得很贴切
“
要评价现在的生成的结果有多差,要等下一篇
paper
出来后才知道
”
。当然我不否认
GAN
在
graphics
和
low-level vision
里面起到了很大的帮助,实际上用它来做出来的
APP
也产生不少的商业价值。但是从
machinelearning
的角度来看,现在的
GAN
主要问题有:
(i)
作为一种
self-supervisised/unsupervised learning
的方法并没有体现出学习到
low-level feature
之上的
semantic representation; (ii)
生成的图片结果大部分还是靠肉眼评价,现有的用
inception score
或者各种给图片
“
打分
”
的机制其实并没有很强的说服力。
为什么我说这些
“
打分
”
的方法并不十分
“
靠谱
”
呢?实际上在
A-Fast-RCNN
这个工作之前,我尝试将
inception score
比较高的生成的图片当成额外的负样本来训练
imagenet-pretrained
的
Fast-RCNN
。
经过非常少数的
finetunining,
分类器就能学会把生成的图片分成负样本。也就是说我只需要将
“
打分器
”
稍微
finetune
一下,所有方法生成的图片都会变得很低分。
为什么我说
GAN
并没有学习出
low-level feature
以上的
representation
呢?我尝试对训练图片用
GAN
做
super-resolution /inpainting / adding adversarial noise
各种操作来生成额外的正样本,发现对训练
imagenet-pretrained
的
Fast-RCNN
并没有任何的帮助。这说明了用
condtional GAN
生成的新样本并没有对原图增加新的
semantic information
(具体的做法读者可以想象在训练
GAN