乌镇上,李彦宏、Facebook副总裁石峰、华为消费者业务负责人余承东、搜狗创始人王小川等一众互联网大咖都在高频重复一个核心概念:人工智能。在这些中国最具商业智慧的企业家口中,人工智能成为未来社会、科技、经济发展的趋势已无争议,但是目前的人工智能,只是1.0版本。
人工智能这个名词严格地讲在今天有两个定义,第一个是泛指机器智能,也就是任何可以让计算机通过图灵测试的方法,包括我们经常讲的数据驱动方法。第二个是狭义上的概念,即20世纪五六十年代特定的研究机器智能的方法。
今天,几乎所有书名含有“人工智能”字样的教科书依然用主要的篇幅介绍那些“好的老式的人工智能” (Good Old Fashioned AI)。后来那些利用其他方法产生机器智能的学者为了划清自己和传统方法的界限,特地强调自己不是用人工智能的方法。
因此,学术界将机器智能分为传统人工智能的方法和现代其他的方法(比如数据驱动、知识发现或者机器学习)。因此为了便于区分,我们在本文尽可能地使用机器智能表示广义上的概念,而在使用人工智能表达时,通常是指传统的人工智能方法,甚至我们有时会强调为人工智能1.0。
那么人工智能1.0是什么呢?简单地讲,就是首先了解人类是如何产生智能的,然后让计算机按照人的思路去做。今天几乎所有的科学家都不坚持“机器要像人一样思考才能获得智能”,但是很多的门外汉在谈到人工智能时依然想象着“机器在像我们那样思考”,这让他们既兴奋又担心。事实上,当我们回到图灵博士描述机器智能的原点时就能发现,机器智能最重要的是能够解决人脑所能解决的问题,而不在于是否需要采用和人一样的方法。
真正科学地定义什么是机器智能的还是电子计算机的奠基人阿兰·图灵博士。1950 年,图灵在《思想》杂志上发表了一篇题为《计算的机器和智能》的论文。在论文中,图灵既没有讲计算机怎样才能获得智能,也没有提出什么解决复杂问题的智能方法,而只是提出了一种验证机器有无智能的判别方法。
让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人同等的智能。这种方法被后人称为图灵测试(Turing Test)。计算机科学家们认为,如果计算机实现了下面几件事情中的一件,就可以认为它有图灵所说的那种智能:
语音识别
机器翻译
文本的自动摘要或者写作
战胜人类的国际象棋冠军
自动回答问题
今天,计算机已经做到了上述这几件事情,有些时候还超额完成了任务,比如在下棋方面,不仅战胜了国际象棋的世界冠军,而且还战胜了围棋的世界冠军,后者的难度比前者高出6~8 个数量级(106~108)。当然,人类走到这一步并非一帆风顺,而是先走了十几年的弯路。
在机器智能尚未做好的事情中,回答那些需要进行推理的复杂问题或许可以算是一种。在计算机自动问答研究领域,科学家们已经研究了多年。
通常我们把问题归结为7 类:“是什么”(What)、“什么时候”(When)、“什么地点”(Where)、“哪一个”(Which)、“是谁”(Who)、“为什么”(Why)和“怎么做”(How)。由于它们都是以W或者H开头的,这7 个疑问词又被称为WH单词(WHwords),各种问题也被称为WH语句。
在这7 类问题中,容易回答的是询问事实,包括“是什么”(What)、“什么时候”(When)、“什么地点”(Where)、“哪一个”(Which)和“是谁”(Who), 难回答的是询问原因的“为什么” (Why)问题,以及询问过程的“怎么做”(How)问题。
全世界的自然语言处理专家和机器智能专家对这两类问题的机器自动问答研究了很多年,直到2012年,都没有找到好的方法。
2012年,我离开腾讯回到Google,当时Google的云计算平台和大数据平台已经搭建得非常完善了,自然语言处理的基础工作都已经完成,对前五类简单问题的回答已经做得非常完善了。但是,还没有人触及对复杂问题的回答,因为大家都觉得这件事情太难,以前学术界几十个研究所、上百名一流的科学家都没能解决这个问题。
不过,根据我对Google 基础条件和数据准备情况的考察,发现如果换一个思路来解决计算机回答复杂问题的难题,就有可能另辟蹊径解决或者至少部分解决这个难题。概括讲,就是把智能问题变成一个大数据的问题。
我们解决问题的方法是这样的:
第一步,根据网页确定哪些用户在Google 问过的复杂问题可以回答,而哪些回答不了。根据我们的研究发现,大约70%~80%的问题,在Google 第一页搜索结果中都有答案。但是,如果只看这些搜索引擎的摘要,只有20%~30%的问题的答案正好在摘要中。这实际上反映出在2012年的时候,计算机与人在理解问题和回答问题上的差异。那么如果我们把目标设定在只回答那些在网页中存在答案的问题,我们其实就具备了大数据的完备性。
第二步,就是把问题和网页中的每一句话一一匹配,挑出那些可能是答案的片段,至于怎么挑,就要依靠机器学习了。
第三步,就是利用自然语言处理技术,把答案的片段合成为一个完整的段落。
按照大数据处理的思路,经过两年的努力,使得计算机能够回答30%的复杂问题,包括“天为什么是蓝色的”“为什么夏天比冬天热”或者“怎样烤蛋糕”之类的问题,我们将计算机产生的答案和人回答的答案拿给测评人评估,对于大部分问题的答案,测评人无法判断机器产生的答案与人回答的哪个更准确、更好。按照当年图灵博士的定义,我们实际上已经让计算机具有了某种等同于人类的智能。
机器智能下棋和回答问题,体现出大数据对机器智能的决定作用,在这些机器人的背后,是数据中心强大的服务器集群,而从方法上讲,它们获得智能的方法不是和我们人一样靠推理,而更多的是利用大数据,从数据中学习获得信息和知识。如今,这一场由大数据引发的改变世界的革命已经悄然发生。这次技术革命的特点是机器的智能化,因此我们称之为智能革命也毫不为过。
文章选自: 吴军 《智能时代:大数据与智能革命重新定义未来》