本文
约
2500字
,建议阅读
5分钟
。
本文为你解读
了人工智能技术中的最新未来走向。
时至今日,
几乎你所有听到的关于 AI 的重要进展,背后都离不开深度学习。
这类算法的工作原理是使用统计数据来发现数据中的模式。事实证明,它在模仿人类技能
(如我们的视觉和听觉能力)
方面非常强大。在一些特殊情况或者是某些有限范围内,它甚至可以模仿我们的推理能力。深度学习为谷歌的搜索、Facebook 的新闻 Feed 和 Netflix 的推荐引擎提供了强大的支持,并正在改变医疗和教育等行业。
然而,尽管深度学习让人工智能进入了公众的视线,但它只是人类探索智能的历史上的一个插曲。在不到 10 年的时间里,它一直处于人工智能的最前沿。但当我们放大这个领域的整个历史,我们很容易意识到,它可能很快就会从历史舞台上退场。
华盛顿大学计算机科学教授兼主算法的作者佩德罗·多明戈斯就认为,长期以来,
不同技术的突然兴起和衰落一直是人工智能研究的特点。
每十年都有不同观点之间的激烈竞争。然后,每隔一段时间,一个新的技术就会兴起,研究人员都会聚集起来研究这个新兴的技术。
在对人工智能技术持续的报道和关注的基础之上,《麻省理工科技评论》想把技术断断续续、起伏变化的过程形象化。当今最大的科学论文开源数据库之“arXiv”是一个最佳选项,于是,本文作者下载了截止到 2018 年 11 月 18 日“人工智能”部分的 16625 篇论文的摘要,并对这些年来提到的词汇进行了追踪,以了解深度学习的发展究竟走到了哪一个阶段?下一个十年最大的发展机会,又将属于谁?
图 截至2018年11月18日,arXiv“人工智能”板块可获得的所有论文(来源:麻省理工科技评论)
通过数据分析,作者发现了三个主要的变化趋势:20 世纪 90 年代末到 21 世纪初,
机器学习
开始萌芽,从 21 世纪 10 年代初开始经历
神经网络的加速普及
,以及在过去的几年迎来了
强化学习
的增长。
在这里,有几点需要我们注意。首先,arXiv 的人工智能相关论文只能追溯到 1993 年,而“人工智能”一词可以追溯到 20 世纪 50 年代,因此,该数据库信息对应的时间,刚好处在人工智能发展的最新历史阶段。其次,该数据库每年新增的论文,只是当时特定领域整体进展的一个局部。
不过,尽管如此,如果我们希望收集到更多的研究趋势信息、观察业内正在产生的不同想法,arXiv 仍然不失为一个很好的来源。
根据这 16625 篇论文,最大的转变发生在 21 世纪初,以知识为基础的系统开始式微,它们基于这样一个设定:
可以依据特定规则对所有人类知识进行编码。
取而代之的是,
研究人员转向研究包括深度学习在内的机器学习算法。
在作者统计出来的词汇出现概率中,与知识系统相关的词汇,如“逻辑”、“约束”、“规则”等词汇的跌幅最大。那些与机器学习相关的——如“数据”、“网络”和“性能”——增长最快。
图 每1000字词频(来源:麻省理工科技评论)
但这个巨大变化背后的原因却很简单。在 20 世纪 80 年代,人工智能的第一次浪潮专注于以人类知识为突破点,知识库和专家库系统的构建成为核心任务,国际上涌现了大量的知识系统工程。但随着这些项目的展开,研究人员遇到了一个重大问题:系统要做任何有用的事情,需要对太多的规则进行编码。这推高了成本,大大减缓了技术发展的预期进程。
而
机器学习
成为了解决这个问题的答案。这种方法不需要人们手动编码数十万条规则,而是让机器自动从一堆数据中提取这些规则。就这样,人工智能开始抛弃了知识库系统,转而将目光投向机器学习,第二次人工智能浪潮由此掀起。
神经网络走向繁荣,强化学习得到推动
不过,在当时机器学习开始受到大量关注的情况下,深度学习并没有立刻受到热捧。
正如作者对关键术语的分析所显示的,研究人员还尝试了除神经网络
(深度学习的核心机制)
之外的各种方法,其中一些技术也颇为流行,例如贝叶斯网络、支持向量机和进化算法等,它们都采用不同的方法来寻找数据中的模式。
图 提及每种方法的论文百分比,神经网络显然取代了其他机器学习方法(来源:麻省理工科技评论)
在 20 世纪 90 年代和 21 世纪初,所有这些方法之间都保持着稳定的竞争态势。然后,在 2012 年,一个关键的突破打破了这个平衡,将其中一种方法——深度学习——带向前所未有的高潮发展期:在一年一度的
ImageNet 图像分类竞赛
中,Geoffrey Hinton 和他在多伦多大学的同事们以惊人优势实现了当时的图像识别最高准确率,团队所使用的方法正是深度学习。
该标志性事件引发了人工智能一波新的研究浪潮——首先是在视觉研究上,然后其他领域也开始加入到这波深度学习浪潮中。随着越来越多令人印象深刻的结果的涌现,深度学习
(以及神经网络)
的普及程度呈爆炸式增长。
分析显示,在深度学习兴起后的几年里,人工智能研究发生了第三次也是目前最后一次变化:
监督学习、非监督学习和强化学习受到越来越多的关注。
其中,监督学习即标注数据来训练算法,这种方法是最常用的,也是目前为止最实用的方法。但在过去的几年里,强化学习的风头也很强劲,强化学习在论文摘要中被提及的次数迅速增加。这种方法旨在于 AI 学习过程是否正确执行了指令实施正面奖励或者负面奖励。
这个想法并不新鲜,但几十年来它并没有真正奏效。“监督学习的支持者会取笑强化学习的支持者”,佩德罗·多明戈斯说。