专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
目录
相关文章推荐
51好读  ›  专栏  ›  新智元

【猫咪生成器】DCGAN、WGAN等4种生成对抗网络猫咪图像对比

新智元  · 公众号  · AI  · 2017-07-08 15:02

正文

新智元编译


来源:ajolicoeur.wordpress.com

作者: Alexia Jolicoeur-Martineau

编译:刘小芹


【新智元导读】 作者用 DCGAN,WGAN,WGAN-GP 和 LSGAN 等 生成对抗网络(GAN),使用拥有1万张猫的图片的 CAT 数据集做“生成猫咪的脸”的实验。结果有非常好的,也有不够好的,作者进行了分析并提出一些改进的方法。这个研究被GAN的提出者 Ian Goodfellow,Andrew Ng 等人在推特推荐,可以说是非常有趣的深度学习应用了。


我尝试使用生成对抗网络(GAN)来生成猫的脸。我想分别以较低和较高的分辨率使用 DCGAN,WGAN,WGAN-GP 以及 LSGAN。使用的数据集是 CAT Dataset,这个数据集包含 10000 张猫咪的照片。我需要的是猫咪的脸在中央的图像,并筛除了不符合的图像(这是用肉眼观察做的,花了几个小时…)。最终,我得到 9304 张分辨率大于 64×64 的图像和 6445 张分辨率大于 128×128 的图像。

DCGAN

DCGAN 生成器只需 239 个 epoch,在约 2-3 小时内就能收敛得到非常逼真的图像,但为了得到适当的收敛,需要做一些轻微的调整。你需要分别为 D(鉴别器)和 G(生成器)选择各自的学习率(learning rate),以使 G 或者 D 的效果不会差别太大。这需要非常小心地平衡,但一旦找到了平衡的点,就能得到收敛。使用 64×64 的图像时,最佳的点是鉴别器学习率为 .0005,而生成器学习率为 .0002。没有出现明显的 mode collapse 的问题,最终我们得到了非常可爱的图像!

DCGAN 生成的 64×64 分辨率的猫猫

高分辨率 DCGAN 和 SELU


我最初用 DCGAN 生成 128×128 分辨率猫咪图像的所有尝试都失败了。但是,用 SELU 代替批标准化(batch normalization)和 ReLU 之后,虽然速度有点慢(花了6+小时),但是能够与之前相同的学习率稳定地收敛了。SELU 是自归一化的,因此不需要批标准化。SELU 是新近出现的方法,SELU 用于 GAN 的研究还非常少,但从我所观察到的,SELU 似乎大大增强了 GAN 的稳定性。这一方法生成的猫咪图像没有向前的那么好看,而且明显品种多样性不足(有大量类似的黑猫)。主要原因是样本量太小,N=6445,而不是 N=9304(因为只对分辨率大于 128×128 的图像进行训练)。不过,有些猫看起来很漂亮,而且比先前的分辨率更好,所以我仍然认为这是成功的!


DCGAN 生成的 128×128 分辨率的猫猫


WGAN


WGAN 生成器的收敛速度非常慢(花了4-5小时,600+epoch),而且只有使用64个隐藏节点(hidden node)时才收敛。我无法在使用 128 个隐藏节点时使生成器收敛。使用 DCGAN 时,需要调整的学习率很多,但当它不收敛时可以快速看到(当 D 的损失值为 0,或 G 的损失在开始时为 0 时),但是使用 WGAN 时,你需要让它运行许多 epoch,才能知道是否收敛。







请到「今天看啥」查看全文