那些2016年神乎其技的AI 技术

译言 · 公众号 · 国际 · 2017-01-11 09:53

正文

作者简介：洪亮劼，Etsy数据科学主管，前雅虎研究院高级经理。长期从事推荐系统、机器学习和人工智能的研究工作，在国际顶级会议上发表论文20余篇，长期担任多个国际著名会议及期刊的评审委员会成员和审稿人。
本文为 CSDN人工智能公众号AI_Thinker授权转载

2016年对于AI发展来看，是非常重要的一年。AI的各个领域都在蓬勃发展，同时，这一年，我们也目睹了一些在AI发展史上的标志性事件，比如阿尔法围棋战胜人类棋手，语音识别技术达到人类水平，各大云服务平台公司争先恐后进入AI平台开发领域。本文希望能够从几个关键领域和发展方向，在繁多的科技进步中，理清关键信息，对过去一年的经典技术发展做出点评，给读者一个清晰而简单的信息参考。

阿尔法围棋（AlphaGo）

今年AI领域发展的重头戏无疑要数阿尔法围棋（AlphaGo）。这是AI领域继1996年深蓝（DeepBlue）战胜卡斯帕罗夫、2011年Watson赢得“危险边缘”（Jeopardy!）之后，又一里程碑事件。阿尔法围棋的成功当然是一系列技术成熟被应用的产物，但是这里面最直接的贡献则得益于AI领域中强化学习（Reinforcement Learning）和深度学习（Deep Learning）这两个方向在最近几年发展中开花结果[1]。强化学习曾经长期只在有限的一些应用中得以使用，并且并没有得到主流学术圈的足够重视。然而，在Google DeepMind的学者把深度学习和强化学习巧妙结合在一起以后，越来越多的学术工作和技术发展已经着眼于考虑如何把强化学习的整套理论和实践应用到更多的领域，特别是利用深度学习和强化学习的结合[2]。传统的监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）以及半监督学习（Semi-supervised Learning）其实并不是真正意义上的“智能”。原因在于这些机制并不能对反馈进行有效地建模。而强化学习则是解决反馈的自然选择工具。如果说阿尔法围棋本身是一个现象级的进步，那么强化学习在这个过程中大放异彩则为今后很多研究方向的发展提供有利的技术平台。相信很快就会有学术和科技成果把相应的技术应用到其他领域，比如搜索和推荐系统。

聊天助理（Conversational AI）

聊天机器人或者语音助理是2016年被热炒的一个AI概念。在这个市场竞争的有已经比较成熟的聊天机器人产品如Google Now、苹果的Siri、亚马逊的Echo和Alexa，也有围绕这个概念诞生的创业公司如Operator、api.ai和Viv等。虽然应用场景各异，但大家的想法是一致的，那就是想在这股风潮中抢得先机，占领一个新的，有别于手机、桌面浏览器的用户入口。从技术层面上讲，聊天助理成为可能，实际上是借助于这两年语音识别技术的突破。从输入理解上，对话成为了一种可能。不过，聊天助理除了在一些狭小的应用领域可能短期内能达到自然流畅的效果以外，在普通的应用场景中依然有很长的路要走。微软研究院在Twitter上公布的聊天机器人，因为学习了粗俗的对话语言，导致开发人员不得不把聊天机器人撤下，并且道歉。这一例子说明，在语言领域，现状离真正的智能还有一段距离。

机器视觉（Computer Vision）

在机器视觉的技术和研究领域，今年的亮点无疑是“深度残差学习”（Deep Residual Learning ）以及残差网（ResNet）[3]。这一在ILSVRC 2015大赛中赢得诸多第一名的方法，不仅正式夺得计算机视觉领域的顶级会议CVPR 2016的最佳论文，也奠定了其在一段时间内成为视觉领域标准算法的事实。无论是今年的ILSVRC 2016还是其他类似的机器视觉竞赛，各个参赛队都广泛使用了该技术。而残差网的论文也在短短一年之内就获得了超过700多次引用。残差网的主要贡献是发现了一条能够训练深层次网络而不损失模型性能的有效途径。在此之前，神经网络的层数一旦增多，训练方法很难有效得到优化的网络，模型性能不能得到提高，甚至有下降的可能性。残差网解决了这个问题，使得深度神经网络真正能够发挥多层的优势。目前，机器视觉的研发依然处于希望借助深度学习的各项成果带动视觉研发进一步发展的阶段。虽然各类问题都使用了深度学习来达到更好的模型性能，但这些技术是否帮助了整个领域更好地理解视觉问题，则是一个需要思考的话题。

语音识别（Speech Recognition)

和机器视觉类似，今年语音识别技术也再次被微软研究院的学者刷新了记录[4]，单个词的错误率在9年月发表的一篇论文中被降低到了6.3%，而这一数字在几个月前举办的语音识别顶级会议Interspeech上才被IBM的团队刷新至6.6%[5]。接踵而至的最新成果，使得人们有理由相信在未来几年的发展中，语音识别有可能会被最快达到“人工智能”的标准。和机器视觉一样，微软及IBM的方法都广泛采用了深度学习技术。这是深度学习在近年来被广泛应用的桥头堡领域之一。值得一提的是，一些深度学习技术，比如CNN、ResNet以及类似LSTM，已经在视觉和语音识别同时被使用。究竟这些模型只适合于特定领域，还是它们最终能够解决绝大多数其他领域的问题，目前还没有研究能够回答。

大规模AI平台（AI Platforms）

2016年，越来越多公司投入到AI系统构建的风潮中。几大云平台公司都开始组建AI平台事业部，并且引进关键人才，确保自己能够在这样的竞争中抢得先机。亚马逊（Amazon）在年中引入了在卡内基梅隆大学如日中天的Alex Smola，担任亚马逊云（AWS）机器学习主管。Alex随后从学术界以及工业界引进了好几位资深AI专家，期望能够建立一个有竞争力的团队。之后，AWS频频出手，先在9月推出了新的支持深度学习的机器实例，又在11月正式宣布MXNet成为其官方指定的深度学习框架，让其平台成为了行业领头羊。在竞争对手方面，Google的云服务也不甘落后。虽然在具体的技术层面，依然十分依赖TensorFlow等Google的系列工具，但是在人才方面，11月份Google宣布从斯坦福大学和Snapchat分别挖来了AI专家Li Feifei和Li Jia两人，希望依靠两人的声望来组建团队，能够后来居上，和亚马逊形成竞争。其他公司也没有空闲，百度也在11月开放了情感合成、远场方案、唤醒二期技术和长语音方案等AI服务，供其他应用公司使用。微软则在今年9月份成立了AI研究中心由沈向阳担任领军人物，负责在AI的研发方面的人才、技术的整合。目前看来，在AI系统平台化的步伐上，Google和亚马逊是走在前面，另外公司则从应用的角度入手，希望通过开放特定的API来抢得这个市场的份额。

总结

在过去一年里，我们看到这么几个趋势：

第一，深度学习继续在各个领域深耕发芽。现在的问题不是是否使用深度学习来推动某一个领域的发展，而是如何更好理解深度学习所带来性能提高后的结果，如何使用这些结果来更进一步引领我们对这些领域的理解。
第二，平台竞争日渐白热化。各大IT平台供应商都意识到了AI是下一波浪潮的核心战场。各个厂商都在人才和技术的竞争中积蓄力量摩拳擦掌。
第三，强化学习以及深度学习的结合可能会在更多的领域得到应用，阿尔法围棋的成功使大家看到如何对反馈信息建模和这样建模的功效。不过在这方面，依然有很多理论性工作需要完成。

参考文献（点击阅读原文获取）
[1] D. Silver, A. Huang, C. Maddison, A. Guez, L. Sifre, G. van den Driessche, J. Schrittwieser, I. Antonoglou, V. Panneershelvam, M. Lanctot, S. Dieleman, D. Grewe, J. Nham, N. Kalchbrenner, I. Sutskever, T. Lillicrap, M. Leach, K. Kavukcuoglu, T. Graepel, D. Hassabis. Mastering the Game of Go with Deep Neural Networks and Tree Search. Nature 2016.
[2] V. Mnih, A. Badia, M. Mirza, A. Graves, T. Lillicrap, T. Harley, D. Silver, K. Kavukcuoglu. Asynchronous Methods for Deep Reinforcement Learning. ICML 2016.
[3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep Residual Learning for Image Recognition. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016.
[4] W. Xiong, Jasha Droppo, Xuedong Huang, Frank Seide, Mike Seltzer, Andreas Stolcke, Dong Yu, Geoffrey Zweig. The Microsoft 2016 Conversational Speech Recognition System. arXiv 2016.
[5] George Saon, Tom Sercu, Steven J. Rennie, Hong-Kwang Jeff Kuo. The IBM 2016 English Conversational Telephone Speech Recognition System. arXiv 2016.
[6] Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked, Tushar Chandra, Hrishi Aradhye, Glen Anderson, Greg Corrado, Wei Chai, Mustafa Ispir, Rohan Anil, Zakaria Haque, Lichan Hong, Vihan Jain, Xiaobing Liu, and Hemal Shah. Wide & Deep Learning for Recommender Systems. The 1st Workshop on Deep Learning for Recommender Systems (DLRS 2016).