2016年 AI 技术发展综述

CSDN · 公众号 · 科技媒体 · 2016-12-31 09:57

正文

作者简介：洪亮劼，Etsy数据科学主管，前雅虎研究院高级经理。长期从事推荐系统、机器学习和人工智能的研究工作，在国际顶级会议上发表论文20余篇，长期担任多个国际著名会议及期刊的评审委员会成员和审稿人。
本文为 CSDN 原创文章，未经允许不得转载。欢迎技术投稿、约稿、给文章纠错，请发送邮件至 [email protected]

2016年对于AI发展来看，是非常重要的一年。AI的各个领域都在蓬勃发展，同时，这一年，我们也目睹了一些在AI发展史上的标志性事件，比如阿尔法围棋战胜人类棋手，语音识别技术达到人类水平，各大云服务平台公司争先恐后进入AI平台开发领域。本文希望能够从几个关键领域和发展方向，在繁多的科技进步中，理清关键信息，对过去一年的经典技术发展做出点评，给读者一个清晰而简单的信息参考。

阿尔法围棋（AlphaGo）

今年AI领域发展的重头戏无疑要数阿尔法围棋（AlphaGo）。这是AI领域继1996年深蓝（DeepBlue）战胜卡斯帕罗夫、2011年Watson赢得“危险边缘”（Jeopardy!）之后，又一里程碑事件。阿尔法围棋的成功当然是一系列技术成熟被应用的产物，但是这里面最直接的贡献则得益于AI领域中强化学习（Reinforcement Learning）和深度学习（Deep Learning）这两个方向在最近几年发展中开花结果 [1] 。强化学习曾经长期只在有限的一些应用中得以使用，并且并没有得到主流学术圈的足够重视。然而，在Google DeepMind的学者把深度学习和强化学习巧妙结合在一起以后，越来越多的学术工作和技术发展已经着眼于考虑如何把强化学习的整套理论和实践应用到更多的领域，特别是利用深度学习和强化学习的结合 [2] 。传统的监督学习（Supervised Learning）、无监督学习（Unsupervised Learning）以及半监督学习（Semi-supervised Learning）其实并不是真正意义上的“智能”。原因在于这些机制并不能对反馈进行有效地建模。而强化学习则是解决反馈的自然选择工具。如果说阿尔法围棋本身是一个现象级的进步，那么强化学习在这个过程中大放异彩则为今后很多研究方向的发展提供有利的技术平台。相信很快就会有学术和科技成果把相应的技术应用到其他领域，比如搜索和推荐系统。

聊天助理（Conversational AI）

聊天机器人或者语音助理是2016年被热炒的一个AI概念。在这个市场竞争的有已经比较成熟的聊天机器人产品如Google Now、苹果的Siri、亚马逊的Echo和Alexa，也有围绕这个概念诞生的创业公司如Operator、api.ai和Viv等。虽然应用场景各异，但大家的想法是一致的，那就是想在这股风潮中抢得先机，占领一个新的，有别于手机、桌面浏览器的用户入口。从技术层面上讲，聊天助理成为可能，实际上是借助于这两年语音识别技术的突破。从输入理解上，对话成为了一种可能。不过，聊天助理除了在一些狭小的应用领域可能短期内能达到自然流畅的效果以外，在普通的应用场景中依然有很长的路要走。微软研究院在Twitter上公布的聊天机器人，因为学习了粗俗的对话语言，导致开发人员不得不把聊天机器人撤下，并且道歉。这一例子说明，在语言领域，现状离真正的智能还有一段距离。

机器视觉（Computer Vision）

在机器视觉的技术和研究领域，今年的亮点无疑是“深度残差学习”（Deep Residual Learning ）以及残差网（ResNet） [3] 。这一在ILSVRC 2015大赛中赢得诸多第一名的方法，不仅正式夺得计算机视觉领域的顶级会议CVPR 2016的最佳论文，也奠定了其在一段时间内成为视觉领域标准算法的事实。无论是今年的ILSVRC 2016还是其他类似的机器视觉竞赛，各个参赛队都广泛使用了该技术。而残差网的论文也在短短一年之内就获得了超过700多次引用。残差网的主要贡献是发现了一条能够训练深层次网络而不损失模型性能的有效途径。在此之前，神经网络的层数一旦增多，训练方法很难有效得到优化的网络，模型性能不能得到提高，甚至有下降的可能性。残差网解决了这个问题，使得深度神经网络真正能够发挥多层的优势。目前，机器视觉的研发依然处于希望借助深度学习的各项成果带动视觉研发进一步发展的阶段。虽然各类问题都使用了深度学习来达到更好的模型性能，但这些技术是否帮助了整个领域更好地理解视觉问题，则是一个需要思考的话题。

语音识别（Speech Recognition)

和机器视觉类似，今年语音识别技术也再次被微软研究院的学者刷新了记录 [4] ，单个词的错误率在9年月发表的一篇论文中被降低到了6.3%，而这一数字在几个月前举办的语音识别顶级会议Interspeech上才被IBM的团队刷新至6.6% [5] 。接踵而至的最新成果，使得人们有理由相信在未来几年的发展中，语音识别有可能会被最快达到“人工智能”的标准。和机器视觉一样，微软及IBM的方法都广泛采用了深度学习技术。这是深度学习在近年来被广泛应用的桥头堡领域之一。值得一提的是，一些深度学习技术，比如CNN、ResNet以及类似LSTM，已经在视觉和语音识别同时被使用。究竟这些模型只适合于特定领域，还是它们最终能够解决绝大多数其他领域的问题，目前还没有研究能够回答。

2016年 AI 技术发展综述

正文

阿尔法围棋（AlphaGo）

聊天助理（Conversational AI）

机器视觉（Computer Vision）

语音识别（Speech Recognition)

推荐系统（Recommender Systems）

请到「今天看啥」查看全文