更系统地学习无监督学习,可以用 Udacity 这门课程
https://www.udacity.com/course/machine-learning-unsupervised-learning--ud741
最有前景的无监督学习方法之一,是刚刚出现的生成式对抗网络。该方法由当时还在 Yoshua Bengio 实验室工作的 Ian Goodfellow 提出。在该模型中有两个相互对抗的神经网络组成。一个叫做生成器,负责生成真实数据的近似,企图骗过另一个叫做判别器的网络。这个方法已经取得了优异的成果,比如从文本描述或者手绘素描中生成图片,所生成的图片跟照片一样逼真。
Yann LeCun谈GAN
https://www.quora.com/What-are-some-recent-and-potentially-upcoming-breakthroughs-in-deep-learning
从文本描述生成图片的论文
https://arxiv.org/abs/1612.03242
从手绘素描生成图片的论文
https://arxiv.org/abs/1611.07004v1
3. 半监督学习
半监督学习训练中使用的数据,只有一小部分是标记过的,而大部分是没有标记的。因此和监督学习相比,半监督学习的成本较低,但是又能达到较高的准确度。举例来说,我们在 AI 咨询公司 Joostware 工作的朋友 Delip Rao,用半监督学习方法对每类只标记30个数据,和用监督学习对每个类标记1360个数据,取得了一样的效果。并且这使得他们的客户可以标记更多的类,从20个类迅速扩展到了110个类。
一个直观的解释为什么无标记也能提高准确率:即使不知道正确的答案,但是可以知道输入数据长什么样,有什么可能的取值。
喜欢数学的可以读读朱晓进教授长达135页的教程和他2008年那篇半监督学习纵览。
半监督学习教程
http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf
半监督学习纵览
http://pages.cs.wisc.edu/~jerryzhu/pub/ssl_survey.pdf
4. 强化学习
强化学习也是使用未标记的数据,但是可以通过某种方法知道你是离正确答案越来越近还是越来越远(即奖惩函数)。传统的“冷热游戏”(hotter or colder,是美版捉迷藏游戏 Huckle Buckle Beanstalk 的一个变种)很生动的解释了这个概念。你的朋友会事先藏好一个东西,当你离这个东西越来越近的时候,你朋友就说热,越来越远的时候,你朋友会说冷。冷或者热就是一个奖惩函数。半监督学习算法就是最大化奖惩函数。可以把奖惩函数想象成正确答案的一个延迟的、稀疏的形式。
在监督学习中,能直接得到每个输入的对应的输出。强化学习中,训练一段时间后,你才能得到一个延迟的反馈,并且只有一点提示说明你是离答案越来越远还是越来越近。
DeepMind 在自然杂志上发表了一篇论文 ,介绍了他们把强化学习和深度学习结合起来,让神经网络学着玩各种雅达利(Atari)游戏(就是各种街机游戏),一些游戏如打砖块(breakout)非常成功,但是另一些游戏比如蒙特祖玛的复仇,就表现的很糟糕。
DeepMind 强化学习论文(https://deepmind.com/blog/deep-reinforcement-learning/ Nervana),团队(已被英特尔收购)的博客有两篇文章非常棒,把强化学习的技术细节讲解清楚了。
Nervana 强化学习博文:
I - https://www.nervanasys.com/demystifying-deep-reinforcement-learning/
II - https://www.nervanasys.com/deep-reinforcement-learning-with-neon/
斯坦福大学的学生 Russell Kaplan、Christopher Sauer 和 Alexander Sosa 论述了强化学习的存在的问题,并给出了很聪明的解决方案。
DeepMind 的论文介绍了没有成功利用强化学习玩蒙特祖玛的复仇。按照三个人的说法是因为强化学习只能给出很少的提示,即稀疏的延迟。如果没有足够多的“冷热”的提示,很难找到被藏起来的钥匙。斯坦福的学生们通过让系统理解和执行自然语言的提示,比如“爬楼梯”,“拿钥匙”等,在 OpenAI 大赛中获得了冠军,其视频如下: