专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

CMU邢波等最新论文：GAN和VAE的殊途同归，第一作者评述

新智元 · 公众号 · AI · 2017-06-08 13:05

正文

新智元编译

来源：知乎；arXiv.org

编辑：零夏

【新智元导读】近日，来自CMU和Petuum的四位研究者 Zhiting Hu、Zichao Yang、Ruslan Salakhutdinov 和邢波在 arXiv 上发表了一篇论文，该研究构建了一系列深度生成模型特别是GAN和VAE之间的形式化联系。论文在知乎引发了讨论，作者 Zhiting Hu 出面回答并表示，统一的框架主要有两个好处：1. 对已有模型以及种类繁多的变种有更好或者新的理解，把握算法演进的脉络；2. 促进后续研究中，各个本来相互独立的深度生成模型(DGM)研究方向的融合。最后作者提供了论文的补充材料。

在公众号中回复“170608”可下载论文

近日，来自 CMU 和 Petuum 的四位研究者 Zhiting Hu、Zichao Yang、Ruslan Salakhutdinov 和邢波在 arXiv 上发表了一篇论文--On Unifying Deep Generative Models。该研究构建了一系列深度生成模型特别是GAN和VAE之间的形式化联系。作者列表中，邢波是CMU教授和Petuum Inc的CEO兼首席科学家，Ruslan Salakhutdinov是CMU副教授同时也是苹果AI研究总监。

论文在知乎引发了讨论：有人期待该研究在实际任务中的效果；也有人表示这种统一形式化的最大好处是很容易把一些以前常见的模型联系起来, 比如VAE，wake-sleep等等。最终作者 Zhiting Hu 现身回答并表示，统一的框架主要有两个好处：1. 对已有模型以及种类繁多的变种有更好或者新的理解，把握算法演进的脉络；2. 促进后续研究中，各个本来相互独立的深度生成模型(DGM)研究方向的融合。

以下是论文介绍和Zhiting Hu的回答。

论文摘要

深度生成模型近年来取得了令人瞩目的成功。生成对抗网络（GAN）和变分自动编码器（VAE）作为强大的深度生成模型的框架，已被视为两个独特的范例，并分别进行了广泛的独立研究。本文通过GAN和VAE的一种新的形式化，建立了深度生成模型之间的形式联系。我们证明了，GAN和VAE本质上是分别用相反的隐式/显式的处理方式（reversed latent/visible treatments）最小化了相反方向的KL距离（KL divergence），这分别扩展了经典的清醒-睡眠算法（classic wake-sleep algorithm）的两个学习阶段。这种统一的视图提供了一个强大的工具，可以分析现有模型的各个变种，并为跨研究领域的思想交流提供了系统性的工具。例如，我们把VAE文献中的重要性加权方法（the importance weighting method）用以改善GAN学习，并用对抗机制增强VAE。定量的实验展示了这些引入的扩展的通用性和有效性。

第一作者评论

胡志挺：谢谢关注我们的工作。我们会对论文初稿继续改进，对不足之处也欢迎大家指正和交流。

这个工作里我们的目标不是提出新的模型，而是希望对deep generative model （DGM）的几类基本方法重新formulate，揭示他们间的关系，建立统一的interpretation。统一的框架主要有两个好处：

（1）对已有模型以及种类繁多的变种有更好或者新的理解，把握算法演进的脉络；

（2）促进后续研究中，各个本来相互独立的深度生成模型(DGM)研究方向的融合。期待论文提出的分析框架能促进后续更多的DGM算法/模型的提出。

对于（1），论文的主要结论是: GANs 和 VAEs 大体上是在minimize 不同方向的KL Divergence。 *Roughly speaking*, 对优化generator P来说，GANs 做 min_{P} KL(P||Q)，VAEs 做 min_{P} KL(Q||P)。由此带来一些insights:

1) GAN 的这个形式和贝叶斯推断的variational inference类似：把P看做inference model，Q看做posterior。因此我们是在用*inference*来解释*generation*。这一点在论文最后的discussion section有更具体的讨论。

2) 优化两个方向的KL，正好和经典的wake sleep算法的两个phase对应。GAN可以看做sleep phase的extension，VAE可以看做wake phase的extension。

3) 根据KL的不对称性质，GANs优化的KL(P||Q)决定了GANs倾向于miss mode，而VAEs倾向于cover mode。这点在之前的一些论文 e.g. [1][29],也有涉及。

对于（2）,我们举了两个例子，来说明各种加强VAEs的方法能直接应用在GANs上来提高GANs，反之，之前用来提高GANs的方法也能用来提高VAEs。前者，我们从importance weighted VAEs出发可以很轻松推导出importance weighted GANs；后者，我们将GANs的对抗机制直接复制到VAEs上。实验基本没调过参数，不过对base model基本都有提高。

胡志挺，美国卡耐基梅隆大学(CMU)机器学习系在读PhD，Petuum Inc. Research Scientist。导师为Eric Xing教授。研究方向为机器学习、可解释性深度学习，及在自然语言处理中的应用。其结合深度神经网络与结构化知识的研究工作获ACL 2016 Outstanding paper Award. 获2017 IBM PhD fellowship.

Homepage: http://www.cs.cmu.edu/~zhitingh/

参考列表：

论文：https://arxiv.org/pdf/1706.00550.pdf

补充材料：http://www.cs.cmu.edu/~zhitingh/data/arxiv17unifying_supp.pdf

知乎：https://www.zhihu.com/question/60697472