正文
机器之心原创
参与:李泽南、李亚洲、黄小天
2016 年,人工智能行业经历了语音识别准确率飙升、神经机器翻译重大突破、图像风格迁移的兴盛。2017 年,人们对于 AI 领域的期待变得更高了,不过在这一年里,各家科研机构和大学仍为我们带来了很多激动人心的研究成果。本文将试图对 2017 年人工智能领域实现的重要科研成果进行盘点。
来自谷歌大脑负责人 Jeff Dean 的 Keynote:人们在 arXiv 上提交的机器学习论文数量正遵循摩尔定律增长。人工智能技术的发展速度是否也有这么快?
AlphaGo:从“零”开始
今天,每当聊起人工智能,我们就不得不提 AlphaGo,这款由谷歌旗下研究型公司 DeepMind 开发的著名围棋程序在 2017 年再次掀起了 AI 的热潮。从年初借「Master」名义在网络围棋平台上迎战各路人类围棋高手,到 5 月与柯洁等人的「人机最后一战」,AlphaGo 的故事在 10 月份以又一篇 Nature 论文「AphaGo Zero」再次展示了计算机在围棋上强大的能力;紧随而至的 AlphaZero 则将这种强大泛化到了其他领域中。
机器之心也亲历了 AlphaGo 事件的始末。在 5 月份人机大战时,除了现场报道之外,我们还邀请了阿尔伯塔大学教授、计算机围棋顶级专家 Martin Müller 以及《
深度强化学习综述
》论文作者李玉喜博士,共同观看了比赛直播。Müller 教授所带领的团队在博弈树搜索和规划的蒙特卡洛方法、大规模并行搜索和组合博弈论方面颇有建树。实际上,参与了大师级围棋程序 AlphaGo 的设计研发的 David Silver 和黄士杰(Aja Huang)(他们分别是第一篇 DeepMind 的 AlphaGo 相关 Nature 论文的第一作者和第二作者)都曾师从于他。
在击败柯洁等中国围棋名手之后,随着 DeepMind 宣布人机大战计划结束,AlphaGo 的故事似乎已经结束。然而在 10 月 18 日,DeepMind 的又一篇 Nature论文《Mastering the game of Go without human knowledge》再次让全世界感到震惊。在论文中,DeepMind 首次展示了全新版本的 AlphaGo Zero —— 无需任何人类知识标注。在历时三天,数百万盘的自我对抗之后,它可以轻松地以 100 比 0 的成绩击败李世乭版本的 AlphaGo。DeepMind 创始人哈萨比斯表示:「Zero 是迄今为止最强大,最具效率,最有通用性的 AlphaGo 版本——我们将见证这项技术很快应用到其他领域当中。」
没等多久,哈萨比斯的宣言就初步实现了,在 12 月 NIPS 2017 大会举行期间,DeepMind 又放出了一篇论文《Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm》,其中描述了使用 AlphaGo Zero 技术,并可泛化至其他领域任务的新一代算法 AlphaZero。新的算法可以从零开始,通过自我对弈强化学习在多种任务上达到超越人类水平。据称,它在经过不到 24 小时的训练后,可以在国际象棋和日本将棋上击败目前业内顶尖的计算机程序(这些程序早已超越人类世界冠军水平),也可以轻松击败训练 3 天时间的 AlphaGo Zero。
12 月 11 日,DeepMind 发布了围棋教学程序,其中收录了约 6000 个近代围棋史上的主要开局变化,所有变化都附带了 AlphaGo 评估的胜率。DeepMind 希望以此推动人类围棋水平的进步,在公布之后,AlphaGo 的重要研究成员黄士杰博士宣布离开项目,转向 DeepMind 旗下的其他方向研究,此举宣告了 AlphaGo 在围棋方向上的研究告于段落。
延伸阅读:
德州扑克击败人类:DeepStack 与 Libratus
德州扑克这种复杂的扑克游戏已经被人工智能(AI)掌握。而且这个游戏还不是被征服了一次——两个不同的研究团队所开发的 bot 都在一对一德州扑克比赛上完成了击败人类的壮举。今年1月份,卡耐基梅隆大学(CMU)开发的名为 Libratus 的人工智能程序在宾夕法尼亚州匹兹堡的 Rivers 赌场为期20天的一对一德扑比赛中击败了4 名人类职业玩家 Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou。而在另一边,加拿大阿尔伯塔大学、捷克布拉格查理大学和捷克理工大学的研究者联合发表的论文《Deepstack: Expert-level artificial intelligence in heads-up no-limit poker》出现在了著名学术期刊《Science》上,该研究团队展示了人工智能已经在无限制扑克(No-Limit Poker)游戏上达到了专家级的水平。
与信息完全公开的围棋不同,德州扑克是「不完美信息(imperfect information)」类博弈,能反映真实生活中我们面临问题时的场景,诸如拍卖以及业务谈判,因而在德州扑克上的技术突破也意味着人工智能技术的发展速度正在加快。
有趣的是,在解决同样的问题时,DeepStack 与 Libratus 采取的方式不尽相同:DeepStack 采用的是深度学习针对大量牌局变化进行训练(超过 1100 万局),从而获得在实际比赛时对获胜概率拥有「直觉」;而 Libratus 采用的是基于纳什均衡的博弈求解技术。
延伸阅读:
自归一化神经网络
《Self-Normalizing Neural Networks》是今年 6 月份在 arXiv 上公开的一篇机器学习论文,后被 NIPS 2017 大会接收,它的作者为奥地利林兹大学的 Günter Klambauer、 Thomas Unterthiner 与 Andreas Mayr。这篇论文在提交后引起了圈内极大的关注,它提出了缩放指数型线性单元(SELU)而引进了自归一化属性,该单元主要使用一个函数 g 映射前后两层神经网络的均值和方差以达到归一化的效果。值得注意的是,该论文作者 Sepp Hochreiter 曾与 Jürgen Schmidhuber 一同提出了 LSTM,之前的 ELU 同样来自于他们组。回到论文本身,这篇 NIPS 论文虽然只有 9 页正文,却有着如同下图一样的 93 页证明附录:
不知当时审阅这篇论文的学者心情如何。无论如何,它提出的方法可以让你稍稍修改 ELU 激活就能让平均单位激活趋向于零均值/单位方差(如果网络足够深的话)。如果它最终是正确的方向,批处理规范就会变得过时,而模型训练速度将会大大加快。至少在论文中的实验里,它击败了 BN + ReLU 的准确性。
论文链接:
arxiv.org/abs/1706.02…
延伸阅读:
GAN 及其各种变体
2016 年,Yann LeCun 曾称 GAN 是深度学习领域最重要的突破之一,而我们在2016 年也看到了 GAN 变体衍生的苗头,比如 Energy-based GAN 和最小二乘网络 GAN。到了 2017 年初,我们就看到了各种 GAN 变体如雨后春笋般出现,其中一篇名为 WGAN 的论文在年后不久引发了业界极大的讨论,有人称之「令人拍案叫绝」。
从 2014 年 Ian Goodfellow 提出 GAN 以来,它就存在着训练困难、生成器和判别器的 loss 无法指示训练进程、生成样本缺乏多样性等问题。虽然后续的变体都在尝试解决这些问题,但效果不尽人意。而 Wasserstein GAN 成功做到了以下几点:
-
彻底解决 GAN 训练不稳定的问题,不再需要小心平衡生成器和判别器的训练程度
-
基本解决了 collapse mode 的问题,确保了生成样本的多样性
-
训练过程中终于有一个像交叉熵、准确率这样的数值来指示训练的进程,这个数值越小代表 GAN 训练得越好,代表生成器产生的图像质量越高(如题图所示)
-
以上一切好处不需要精心设计的网络架构,最简单的多层全连接网络就可以做到
除了 WGAN,也有其他多种 GAN 的变体于 2017 年出现,我们以资源列表的形式为大家列出:
然而到了年底,谷歌大脑的一篇论文对目前火热的GAN研究敲响警钟。在一篇名为《Are GANs Created Equal?A Large-Scale Study》的论文中, 研究人员对 Wasserstein GAN 等 GAN 目前的六种变体进行了详尽的测试,得出了“没有找到任何证据证明任何一个算法优于原版算法”的结论(参见:
六种改进均未超越原版:谷歌新研究对 GAN 现状提出质疑
)。或许我们应该更多地把目光转向到新架构上了。
深度神经网络碰上语音合成
近年来,随着深度神经网络的应用,计算机理解自然语音的能力有了彻底革新,例如深度神经网络在语音识别、机器翻译中的应用。但是,使用计算机生成语音(语音合成(speech synthesis)或文本转语音(TTS))仍在很大程度上基于所谓的拼接 TTS(concatenative TTS)。而这种传统的方法所合成语音的自然度、舒适度都有很大的缺陷。深度神经网络,能否像促进语音识别的发展一样推进语音合成的进步,也成为了人工智能领域研究的课题之一。
2016 年,DeepMind 提出了 WaveNet,在业内引起了极大的关注。WaveNet 可以直接生成原始音频波形,能够在文本转语音和常规的音频生成上得到出色的结果。但就实际应用而言,它存在的一个问题就是计算量很大,没办法直接用到产品上面。因此,这个研究课题还有非常大的提升空间。
2017 年,我们见证了深度学习语音合成方法从实验室走向产品。从机器之心关注到的内容,我们简单梳理出了如下研究:
-
谷歌:Tacotron、WaveNet(应用于谷歌助手)
-
百度:Deep Voice、Deep Voice 2(NIPS 2017)、Deep Voice 3(提交 ICLR 2018)
-
苹果:hybrid unit selection TTS system (应用于Siri)
延伸阅读:
大批量数据并行训练 ImageNet
深度学习随着大型神经网络和大型数据集的出现而蓬勃发展。然而,大型神经网络和大型数据集往往需要更长的训练时间,而这正好阻碍研究和开发进程。分布式同步 SGD 通过将小批量 SGD(SGD minibatches)分发到一组平行工作站而提供了一种很具潜力的解决方案。然而要使这个解决方案变得高效,每一个工作站的工作负载必须足够大,这意味着 SGD 批量大小会有很大的增长(nontrivial growth)。今年 6 月,Facebook 介绍了一项研究成果——一种将批量大小提高的分布式同步 SGD 训练方法,引发了一场「快速训练 ImageNet」的竞赛。随着参与研究的机构越来越多,截至 11 月,UC Berkeley 的研究人员已将 ResNet-50 在 ImageNet 上的训练时间缩短到了 48 分钟。
延伸阅读:
革新深度学习:Geoffrey Hinton 与 Capsule
众所周知,最近一波人工智能行业浪潮是由深度学习及其发展引发的。然而,这一方法是否能够将人类带向通用人工智能?作为深度学习领军人物,关键机制反向传播提出者之一的 Geoffrey Hinton 率先提出抛弃反向传播,革新深度学习。他的创新方法就是 Capsule。
Capsule 是由深度学习先驱 Geoffrey Hinton 等人提出的新一代神经网络形式,旨在修正反向传播机制。在 Dynamic Routing Between Capsules 论文中,Geoffrey Hinton 这样介绍 Capsule:「Capsule 是一组神经元,其输入输出向量表示特定实体类型的实例化参数(即特定物体、概念实体等出现的概率与某些属性)。我们使用输入输出向量的长度表征实体存在的概率,向量的方向表示实例化参数(即实体的某些图形属性)。同一层级的 capsule 通过变换矩阵对更高级别的 capsule 的实例化参数进行预测。当多个预测一致时(本论文使用动态路由使预测一致),更高级别的 capsule 将变得活跃。」
Capsule 中神经元的激活情况表示了图像中存在的特定实体的各种性质。这些性质可以包含多种不同的参数,例如姿势(位置、大小、方向)、变形、速度、反射率、色彩、纹理等。而输入输出向量的长度表示了某个实体出现的概率,所以它的值必须在 0 到 1 之间。
机器之心也详细解读了 10 月 Hinton 公开的论文,这篇论文的亮点在于 Capsule 层的输入与输出都是向量,构建向量的过程可以认为是 PrimaryCaps 层利用 8 个标准的 Conv2D 操作产生一个长度为 8 个元素的向量,因此每一个 Capsule 单元就相当于 8 个卷积单元的组合。此外,在 Capsule 层中,Hinton 等人还使用了动态路由机制,这种更新耦合系数(coupling coefficient)的方法并不需要使用反向传播机制。
除了 Hinton 等人公布的 Capsule 论文以外,还有一篇《MATRIX CAPSULES WITH EM ROUTING》论文,该论文采用 EM Routing 修正原论文的 dynamic routing 从而实现更好的效果。