专栏名称: 产业智能官

用新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

【GAN】别人家的高中生：入大学前，Ta详细梳理了GAN的发展脉络

产业智能官 · 公众号 · · 2019-11-15 03:37

正文

机器之心报道

参与：张倩、一鸣

有人「高考」完还在学习，说出来你可能不信。

昨天，reddit 上出现了一个关于梳理 GAN 发展脉络的博客，作者在博客中详细梳理了过去几年的 GAN 发展历程，包含众多 SOTA 论文及其代码和对应的学习资源。难能可贵的是，博客作者三月份才刚高中毕业，然后利用上大学之前的时间完成了这篇文章。

目前，作者已被伊利诺伊大学香槟分校（University of Illinois at Urbana-Champaign）录取并将于今年秋天入学。

如果你是一名 GAN 的入门学习者，那么这份材料可以帮你迅速理 GAN 发布以来的研究进展。

博客地址：https://blog.floydhub.com/gans-story-so-far/

作者在梳理过程中发现，GAN 的确是一个发展迅速的领域，短短五年就从模糊的灰度像素阵列发展到高度逼真的生成图像，让人无法一眼识别是真是假。

但领域越火，「水」论文的人可能就越多，因此从众多所谓「SOTA」论文中挑出真正做出实质性改进的「SOTA」就显得非常有必要。

一位读者在看完博客后表示，「比起那些最新 SOTA 文章，我更欣赏这种回顾性质的 SOTA 梳理……经常有人抱怨说，有些人只是对 GAN 进行了微小的调整，在 SOTA 基础上前进了一小步，然后就把论文发出去了，并声称『这是最新的 SOTA！』。这其实只是对别人研究的一种重复。因此，如果有更多这种 SOTA 的回顾性文章，就可以过滤掉那些水论文。通过这种回顾可以更加容易地评价那些新出现的研究。」

从 GAN 到 StyleGAN

首先，作者以发展路线图的形式梳理了这几年出现的比较有影响力的 GAN，从最初的 Goodfellow 版 GAN 到近来大火的 BigGAN、StyleGAN 等，博客的后续内容也是按照这张图的顺序进行的。

GAN 路线图。

Goodfellow 版 GAN

GAN 是由 Goodfellow 等人于 2014 年提出的（目前公认的说法）。其基本思想可以概括为：

GAN 包含两个神经网络，一个神经网络尝试生成真实的数据（主要是图片，也可能是其他数据的分布），而另一个网络尝试判别真实的和生成的数据。

标准的生成对抗网络结构。

这场「猫捉老鼠」的游戏会一直继续下去，直到系统达到所谓的「平衡」，即生成器生成的数据以假乱真到判别器无法判别。

Goodfellow 等人 2014 年提出的 GAN 生成的图像。

论文地址：https://arxiv.org/abs/1406.2661
代码实现地址：https://github.com/goodfeli/adversarial
其他资源：https://arxiv.org/abs/1701.00160

DCGAN: 深度卷积生成对抗网络

DCGAN 的思路可以简单概括为：

卷积神经网络=处理图像效果好
生成对抗网络=生成数据效果好
⟹卷积神经网络+生成对抗网络=生成图像效果好

标准的 GAN 使用多层感知机作为网络结构。但是考虑到卷积神经网络在获取图像特征方面的效果，DCGAN 采用了它作为主要网络结构。同时，DCGAN 稍微做了一些调整，使用了转置卷积操作（transposed convolution operation），它的另一个名字是 Deconvolution。转置卷积帮助图像从低清晰度向高清晰度转换，同样的，采用多层转置卷积可以使图像变得生动多彩。

卷积核的工作原理。通过卷积方式将稀疏的图像矩阵转换为密集矩阵。

DCGAN 生成的图片。较 GAN 更清晰，有更多色彩。

论文地址：https://arxiv.org/abs/1511.06434
代码实现地址：https://github.com/floydhub/dcgan
其他资源：https://towardsdatascience.com/up-sampling-with-transposed-convolution-9ae4f2df52d0

CGAN: 条件生成对抗网络

原始的 GAN 从噪声中生成图片。因此，如果训练的是一类图（例如，狗），其能生成这一类图片。但是，如果训练中同时有很多类（例如，狗和猫都有）图片，则生成的图片是这些图片模糊的混合。而 CGAN 可以让用户指定生成的图片分类。

具体的，CGAN 将 one-hot 向量 y 和随机噪声向量 z 拼接，组成如下的结构：

使用 CGAN 可以生成指定的 MNIST 数字。

论文地址：https://arxiv.org/abs/1411.1784 (https://arxiv.org/abs/1511.06434)
代码实现地址：https://github.com/PacktPublishing/Advanced-Deep-Learning-with-Keras (https://github.com/floydhub/dcgan)
其他资源：https://wiseodd.github.io/techblog/2016/12/24/conditional-gan-tensorflow/

CycleGAN