专栏名称: 战略前沿技术
【战略前沿技术】紧紧围绕“技术创新”和“管理创新”双轮驱动,聚集前沿科技以及孕育产生前沿科技的政策环境、体制机制和管理模式等,密切追踪科技前沿热点,敏锐捕捉战略前沿技术,传播前沿科技资讯。欢迎点击订阅!
目录
相关文章推荐
腾讯研究院  ·  腾讯研究院AI速递 20250109 ·  1 周前  
36氪  ·  疯狂涨价的香奈儿,卖不动了 ·  1 周前  
新浪科技  ·  【#12306致歉#:票务系统发生繁忙预警, ... ·  1 周前  
51好读  ›  专栏  ›  战略前沿技术

洪小文:以科学的方式赤裸裸地剖析人工智能 | 人工智能前传

战略前沿技术  · 公众号  · 科技媒体  · 2017-10-27 11:47

正文

来源:亿欧网


今天我的题目是“智能简史”(The Brief History of Intelligence),我想谈一下什么是人工智能,什么是人的智能。我想把AI赤裸裸地剖析在大家面前。

  可能大家也听过不少关于AI的演讲,每个演讲人背后可能都有某些目的。 我今天是抱着科学的目的,谈一下AI到底能做什么、今天能做什么、未来能做什么,没有保留地剖析给大家。

  AI的诞生

  今天AI已经红到不能再红,包括美国政府、中国政府都非常重视,甚至都要制定政策和策略。过去这两三年可以说是AI的一个爆发点。当然也有不少关于AI的担忧。1950年,《时代》杂志就已经提出了AI的某种威胁:“现代人已经适应了拥有超人肌肉的机器,不过拥有超人大脑的机器还是挺吓人的。设计这些机器的人试图否认他们正创造像他们自己一样拥有智慧的竞争者。”(Time,January 23rd,1950)

  今天埃隆·马斯克说AI要毁灭人类,但是1950年这种议论就有了。1950年的时候,二战结束才五年。当年做计算机是二战时为了造原子弹,每台计算机都要比一个房间大,全世界也不超过十台。这时就已经有人担忧,以后造的计算机比人类聪明怎么办?我们人类一直就对智能充满了期待,而且非常怕受到伤害。

  返回来说, 为什么AI会这么热?第一个理由很简单,没有人愿意天生愚蠢(Natural Stupidity),那就只能做人工智能(Artificial Intelligence)。这个略带玩笑,真正的理由其实是人类有智能(Human Intelligence)。人类之所以可以主宰万物、主宰地球甚至宇宙,靠的就是脑子。如果你看《人类简史》或者《未来简史》,尤其是《未来简史》提到的都是AI、大数据。

  那么,什么是AI?AI严格说起来是61年前的1956年发生的,但是这个定义今天已经被打破了。因为我们学AI的人非常清楚,在学术界AI是有严格的定义的,但在今天,我可以说任何好的而且可以用计算机实现的事情都变成了AI。比如,只要你发明一个新的网络协议或者算法,大家觉得你的想法非常好,最终由计算机实现了,不就是人工智能么? 所以,今天从公众角度,只要是一个好东西,能被机器实现,就是人工智能。

  但我觉得,我们人有时也会被洗脑。今天AI领域炒得很热的一个东西是无人驾驶。大家觉得非常难。无人驾驶还被分成了一到五个水平,最高的一级就是没有司机。但是1912年,辛亥革命那一年,就有了人类的第一个飞机的自动驾驶(Autopilot)。我想,自动开飞机,不敢说一定比开车难,但是也不见得会比自动驾车简单。那为什么大家不说飞机的自动驾驶是AI呢?

  AI早期的英雄们

  讲AI的历史,我们可以先从电脑的历史谈起。电脑是从哪里来的呢?今年是图灵奖60周年,前几年是图灵100年的诞辰。图灵当然是非常了不起。他提出一个假设(Church–Turing thesis),任何可以被计算的东西(用算法描述)就可以用图灵机去算。这个是很了不起的,虽然无法证明。所以图灵在那时就觉得,电脑应该可以模拟我们大脑里所有的想法(Computers can simulate any process of formal reasoning),也就是为什么在那个时候就有了图灵测试(Turing Test)。

  但是真正AI这个字眼,要等到1956年,是在达特茅斯(在波士顿附近的一个很偏僻的小镇上,也是常青藤的学校之一)举行的一个夏季会议上提出的。当时有五个人参加,MIT的John McCarthy和Marvin Minsky,CMU的Allen Newell和Herbert Simon以及IBM的Arthur Samuel,这五个人就是AI的开山鼻祖。

  这五个人除了Arthur Samuel以外,全部拿了图灵奖。其中,Herbert Simon 在中国也很有名,他同时拿了图灵奖和诺贝尔经济学奖。他和Allen Newell 两个人创立了卡内基梅隆大学(CMU)。其实CMU计算机科学系就是这两个人为了做AI而成立的。当时,他们从美国军方的国防高等研究计划署(DARPA,The defense Advanced Research)拿到了一些资助。

  John McCarthy是我的师祖,我的老师Raj Reddy是他的学生。John McCarthy是真正把人工智能取名叫做AI的人。现在公认的AI之父有两种说法,大部分的说法是John McCarthy;也有人说是图灵。John McCarthy那时是在MIT,后来到了斯坦福。

  所以为什么说MIT、斯坦福、CMU到今天都是AI的重镇,更别说当年了,因为当时就只有这三家,都和这些人有关。Marvin Minsky1956年时还在一个小公司做事,并不在MIT,直到1956年开了达特茅斯会议之后,他才被John McCarthy邀请到了MIT。结果,John McCarthy后来自己去了斯坦福成立了AI实验室。

  我自己是在1984年开始学习AI,我到CMU也是因为AI。当时我读AI的论文的时候,基本上都读不懂,有几个原因。第一个,自己的英文不好,尤其是在当年的条件下;然后AI的论文里面通常没有数学公式,都是文字;然后这些文字里很多是认知心理学,我当时根本读不懂。后来才觉得读不懂是因为一些很简单的东西故意用很复杂的文字写出来。第二点是,这些文章里面很多是讲脑,我也读不懂。正是因为读不懂,也就觉得这个东西非常高深,所以一定要好好学习。

  到目前为止,AI总共有八个人,Marvin Minsky(1969)、John McCarthy(1971)、Allen Newell(1975)、Herb Simon(1975)、Edward Feigenbaum(1994)、Raj Reddy(1994)、Leslie Valiant(2010)、Judea Pearl(2011)得了图灵奖,比例还是蛮高的。前四个人在1975年以前就得了图灵奖,1975年以后图灵奖就不颁给AI了。一直到1994年,几乎20年以后,我老板和Edward Feigenbaum又得了图灵奖。最近的Leslie Valiant,Judea Pearl也得了图灵奖,所以AI又解冻了。所以从得图灵奖,也能看得出AI研究的冷热。

  1990年前的AI

  我当年学习的AI,和今天是很不一样的。 早期的AI都是在学习如何模拟人的智能行为,可以叫仿脑,这是它的主轴。 我特地翻阅了下我大学的教科书,上面还有我的笔记。这些书在当年的1980年代是非常经典的,总共三本,分别由MIT、CMU,斯坦福出的。这些书都已绝版,连亚马逊也找不到,非常珍贵。当年教的AI的这些东西,现在很多人都已经没有人能谈了。但其实最近AI的复兴,包括未来AI要如何往前走,都必须要回去研究这些东西,否则是绝对做不到人的智能的这个地步的。

  当时研究什么呢?其一是知识表示(Knowledge Representation)。我们说隔行如隔山,比如学药学的、学医学的、学计算机的、学化学的,每一个行业都是不一样的,知识表示了之后还要满足约束条件求一个解(Constraint satisfaction),人很多时候是在做这个事情。当年,搜索也是非常大的一支(包括State-space representation、pruning strategy、深度搜索、广度搜索、A*搜索、beam search、Game tree search、Alpha-beta搜索等),今天的互联网因此受益很多。

  虽然当时做这个时他们并没有想到互联网,当时想的是如何用搜索来实现智能。特别是包括Game Tree Search,做计算机下棋这件事情,一直以来都是AI研究的。早期最早叫Checkers,计算机很快打败了人;后来做象棋,后来做围棋,如今所有棋手都下不过机器人。

  当时甚至有专门的编程语言,是为AI而设计的,做AI的人就要学这些语言。有一个叫Lisp,还有一个叫Prolog。我想今天已经没有人听过这些东西了,但是在当年是不得了的,做AI都要学这些。

  然后还研究什么呢?认知心理学,非常重要。我们讲AI,很多都是认知。 有一个词叫Heruristics,今天已经没有人用这个词,其实还真是AI。因为Heruristics是在你没有数据的时候,或者是很少数据的时候,要用你的直觉来解决问题。

  还有的研究是做认知的模型(Cognition Modeling),比如GPS。当然不是指GPS定位,而是一般求解器(General Problem Solver)。难道是什么问题都能解么?Allen Newell和Herbert Simon得图灵奖就是因为GPS。而且你真的去读论文的话,很厚。它甚至一语两思,把这个东西转一下,去研究行为经济学也可以,所以Herbert Simon又拿到诺贝尔经济学奖。

  还有一种模式叫产生并测试(Generate and Test),大概的意思就是我们所谓的大胆假设、小心求证。这些认知的模型看起来很神,基本上它就是把难的东西用数据来表示。但是人的确是这样做的,尤其是到后来,特别是语义、认知,真的很多时候都是在做产生并测试,这个模型本身是没错的。

  接下来的一项研究要讲讲我老板。他拿图灵奖,一方面是因为他是语音大师(这个可能也有我的一点贡献);另外一个导致他得图灵奖的叫做黑板理论。当年搞这些认知的模型的是非常重要的,甚至可以得图灵奖。

  另外有研究涉及Semantic(Frame)我们今天还在用。今天做Siri,微软做小冰、小娜,或者做Google助手、百度度秘,用的是这个技术。

  还有一个东西在当年非常红,叫做专家系统。而且最早期的专家系统很多东西应用在医疗,很有名的叫MYCIN(medical diagnosis),就是传染疾病了,靠一些规则去诊断。

  当然还有专门研究感知的,比如,我就是做语音和自然语言处理。那语言怎么做呢?就是有点像大家学英文的文法。但是文法都有例外,一有例外就搞不定,所以这些东西进展都不是那么好。

  还有就是计算机视觉,今天也红得不得了,比如刷脸。可是在当年的计算机视觉和所谓的机器人,在当时是非常可怜的一个项目。当年都是只能研究玩具样的问题(toy domain),做的东西都是方块世界的理解(Block-world understanding):就是有一堆砖块,砖块是这样的状态,怎么样变成那样的状态,来回搬砖块。最多了不起了研究一个桌子。一辈子做计算机视觉,就研究椅子、研究桌子——还不是两个都研究,只研究一个。当年能做的只有这些东西。

  然后是机器学习。机器学习大概是在1980年代开始,但是当时的学习也是研究人怎么学习,而且有一大堆机器学习。今 天的机器学习变得很单一,就是深度神经网络一个,当年有很多种:比如有被告知和指令学习(Learning by being Told & from Instruction);有通过改正学习(Learning by Correcting Mistakes);有基于训练神经网络的学习(感知器)等等。1990年以前的AI,和今天有很大的不一样。

人工智能前传

本文转载自人机与认知实验室


四大文明的总结:各文明侧重不同,科学技术起源于欧洲并不是偶然;宗教统治的中世纪孕育出了文艺复兴,也孕育了出了科技中的智能哲学。 

从某种意义上说,人类文明是一个人类对世界和自己不断认知的过程,所谓认知就是对有用的数据---信息进行采集过滤、加工处理、预测输出、调整反馈的全过程。纵观人类最早的美索不达米亚文明(距今6000多年)、古埃及文明(距今6000年)及其衍生出的古希腊文化(现代西方文明的起源,距今3000年左右),其本质反映的是人与物(客观对象)之间的关系,这也是科学技术之所以在此快速发展的文化基础;而古印度所表征的文明中常常蕴含着人与神之间的信念;时间稍晚的古代中国文明是四大古文明中唯一较为完整地绵延至今的文化脉搏,其核心之道理反映的是人与人、人与环境之间的沟通交流(这也许正是中华文明之所以持续的重要原因吧)。

从上文可见在岁月的发展的历史长河当中,人类四大文明分别聚焦于人物、人神、人人、人与环境,相互之间的关系,而科学和技术的发展,和人和物之间的关联密切相关,所以,现代科学技术起源于欧洲,是顺理成章的,也是可以理解的。但是,目前来看,随着社会和人类不断的进步,人和人之间、人和环境之间的关系,日益提到日程上来,所以,现在整个世界的焦点,逐渐从西方转移到了以人人、人与环境为主的东方视角来。

大概在2500年前,人类文明在东西方几乎同时出现了阶跃式的发展:“水是最好的”(Water is best),这句话是西方“科学和哲学之祖”泰勒斯(Thales,约公元前624年-公元前546年)的名言,无独有偶,与他同时代的东方圣人老子(约公元前571年-公元前471年之间)也曾说过 “上善若水”。正如东西方的这两位先贤对水的青睐一样,人类科技发展的初始动因也源自对水的利用,因对尼罗河、两河、恒河、黄河的开发治理诞生出了四大古国的灿烂文明,使得数学、物理、化学、天文、地理等科学技术知识纷纭而至。面对繁重的劳动量,人们发明制造出了可以减轻生理负荷的各种机械装置(蒸汽机、电动机是它们中的典型代表),随着科技的飞速发展,人们劳动中的生理负荷不断下降,而认知负荷却日益上升,如何减轻不断增加的这些脑力负荷呢?人们终于发明出了计算机这一机器,并且在1997年5月11日,名为“深蓝”的电脑毫无悬念地在标准比赛时限内击败了国际象棋男子世界冠军卡斯帕罗夫的人脑,从而证明了在有限的时空里“计算”可以战胜“算计”,进而论证了现代人工智能的基石条件(假设):物理符号系统具有产生智能行为的充分必要条件(Newell and Simon,1976)是成立的。更有意思的是,2011年2月17日,一台以IBM创始人托马斯·沃森名字命名的电脑在智力问答比赛中狂虐两位最聪明的美国人而夺得冠军,自此,人机之间却也衍生出了一种微妙的不服气:物理符号系统具有产生情感行为的可能吗?也就是说能产生心理符号系统吗?

纵观这些人、机(物)、环境之间系统交互的过程中,认知数据的产生、流通、处理、变异、卷曲、放大、衰减、消逝是无时无刻不在进行着的……如何在这充满变数的过程中保持各种可能的稳定与连续呢?为此人们发明了众多理论和模型,使用了许多工具和方法,试图在自然与社会的秩序中找到有效的答案和万有的规律。从公元五世纪到十五世纪的中世纪,西方一直关注无限/理想/想象出的宗教问题,然而发生在十四世纪的大瘟疫、十三世纪萌芽的文艺复兴,终于在16世纪,一位天主教教士哥白尼的“日心说”让宗教的权威逐渐转让给了科学,从此数百年来,实验和逻辑重新建构了一个完全不同的时空世界,一次又一次地减轻了人们的生理负荷、脑力负荷,甚至包括精神负荷……

随着科学思想的不断演化,技术上也取得了长足的进步,“老三论”(系统论、控制论和信息论)尚未褪色,耗散结构论、协同论、突变论等“新三论”便粉墨登场,电子管、晶体管、集成电路还未消逝,纳米、超算机、量子通信技术更是跃跃欲试,20世纪4、50年代诞生的人工智能思想和技术就是建立在这些基础领域上而涌现出的一个重要前沿方向。但是由于认知机理的模糊、数学建模的不足、计算硬件的局限等原因,使得人工智能一直不能快速地由小到大,由弱变强。从目前了解到的数学、硬件等研究进展上看,短期内取得突破性进展将会很难,所以如何从认知机理上打开突破口就成了很多科学家的选择之处。本报告旨在对人工智能的诸多问题进行初步地的介绍与述评,以期促进人工智能在国内的研究与应用,不足之处还望大家不吝指正!

(2)智能与交互的本质

人和物之间的关系,是西方一个重要的研究方向,机器是人造物,所以人机交互,也是起源于这个西方。人机交互的本质,是共在,即“being together”。人把自己的优点,和机器的长处结合在一起,形成了一个交互的,实质性的问题,而未来人工智能的发展方向,很可能是人机融合智能或人机混合智能,即把人的智慧和机器的智能结合在一起,形成一个更有力的,支撑性的发展趋势,这样不但研究人机交互的脖子以下的,即生理的问题,而且还会研究脖子以上的,即心理的或者大脑的问题。其实,人机交互或人机混合智能,都是不准确的词,最准确的词是人机环境交互系统,因为人和机器及物质,其交互是不完整的,是通过环境这个大系统,来进行沟通的,所以人机环境系统工程,可能是未来的,一个主要的研究方向。

那么,人工智能或智能的本质是什么?可以从人的成长经历或发展上看出一些端倪。一般来说胎儿在母亲腹中,就已经开始有了各种感觉,如听觉、嗅觉、味觉、触觉,已经开始和外部的环境及母亲腹中的内部环境进行交互,已经产生了一个,很简单的“我”的概念。然后,出生以后,因为视觉、听觉等感觉发育得不是很完善,更多的是用触觉来接触世界,了解他周围的一些事物,随着自主能力的产生,会试图摆脱大人的束缚,更愿意自己爬,自己走,不希望别人去扶。可以看到,这时候已经开始否定了,否定别人的帮助。据国内外最新的研究结果,小孩形成语言的时候,无论东方还是西方,除了被不断重复灌输的爸爸、妈妈这种词以外,自己先说出的,都是从第一个单词--动词“不”开始的,然后会发展到,说“没有”还有“别”这些词。“不”、“没有”、“别”这些词,就是孩子们成长的一个过程,在这个过程当中,就体现出人的智能,是从否定开始的,否定外部,否定自己,否定很多事物,来产生了某种智慧性的东西。需要注意,在人工智能里边,其否定机制,还远远没有产生,所以人工智能和人的智能,有很大的差异。

我们在研究过程中发现,人工智能的起点,第一个词是“是”,being”,即存在,客观的物质,这是西方的哲学的一个很重要的词,世界是物质的还是意识的,其中物质就是“being”。然后,关于人的智能和智慧,还存在着 “Should”,“应该”。《三国演义》里面的“义”,就是“Should”,“应该”的意思,“仗义”的“义”也是“应该”的意思,“应该”这个词,在西方里边非常重要,在东方里边也很重视,这是东西方交流的一个交汇点。Should,翻译成哲学语言,就是意识,即awareness、consciousness。另外还有want,人有want,即想干什么,而机器不会want,机器只会按照程序、指令进行操作,而人还有一个“能(can)”的问题,即能做还是不能做。机器没有这个问题,只是操作。

休谟在他的哲学体系里边,提出了很重要的 “休谟之问”:“是”推不出“应该”,这句话的意思是从事实里边,推不出价值观。中国古代著名的一句话“天行健,君子必自强不息”是不成立的。天行健是一个事实,君子必自强不息,是一种价值观,二者不能划等号,这里面涉及到一个很重要的词--“change”,“变”,人会不断的“change”,而机器则不能,只会按部就班、因循守旧、刻舟求剑。我们认为这五个词是人工智能和人类智能很重要的差异。另外,人还有一个很重要的特质,即感知的恒常性,人在变化的外界环境当中通常能够保留对这个事物的本来面目的感知,例如某种颜色。在不同的背景下,会改变这种颜色的影响,但是人却会能够在这种变化当中,找到不变的那种感觉,而机器不然,机器它对外部变化的颜色,会有一个实时的反应,很难找到那种不变的东西。

(3)心理对智能的影响

心理学一词起源于希腊文,由“灵魂”(ψυχή)和“研究”(λόγος)所组成,意思是关于灵魂的科学。随着科学的发展,心理学的对象由主观的灵魂逐渐变为了客观的心灵。德国心理学家艾宾浩斯(H.Ebbinghaus,1850-1909)曾这样概括地描述心理学的发展历程:“心理学有一个漫长的过去,但只有短暂的历史。”在这漫长的过去中,群星灿烂,异彩纷呈,其中包括有约翰·洛克(John Locke,1632-1704)、巴克莱主教(Bishop Berkeley,1685-1753)和大卫·休谟(David Hume,1711-1776)创立并发起的联想主义心理学派,其基本理念是:心理事件是由联想规律控制的,在意识中发生的一切是由心理事件彼此之间的联系决定的,我们之所以相信因果关系并非因为因果关系是自然的本质,而是因为我们所养成的心理习惯和人性所造成的(Popkin & Stroll,1993: 272)。然而,联想主义秉持的内省—观念范式遭到了许多心理学家的质疑:主观的意识研究能否被称为科学探索呢?接下来,对此的批评和质疑直接导致了在20世纪初的美国和德国分化出了行为主义心理学派和格式塔心理学派。以华生(John B.Watson,1878-1958)、斯金纳(B. F. Skinner, 1904-1990)美国心理学家为代表的行为主义心理学学派主张:“寻求理解特定的环境刺激如何控制特定类型的行为”。其主张心理学应分析先行的环境条件,即在行为之前出现、而且为一个机体产生反应或抑制反应提供活动场所的条件。主张心理学应该研究可以被观察和直接测量的行为,即刺激-反应范式,反对研究没有科学根据的意识。而德国的格式塔心理学派是以马科斯·韦特墨(MaxWertheimer,1880-1943)、沃尔夫冈·苛勒(WolfgangKöhler,1887-1967)和科特·考夫卡(KurtKoffka,1886-1941)三位心理学家在研究似动现象的基础上创立。他们不反对研究意识,但认为人脑的运作原理是整体的,“整体不同于其部件的总和”。例如,我们对一朵花的感知,并非纯粹单单从对花的形状、颜色、大小等感官资讯而来,还包括我们对花过去的经验和印象,加起来才是我们对一朵花的感知。另外,格式塔派除了研究似动、整体以外,还有一个重要的研究领域:顿悟,也许这些概念都是需要未来人机交互领域仔细打磨的范畴吧!几十年来,这些心理学派众说纷纭,莫衷一是,各持己见,令很多其他科学领域的学者很是困惑:一个无法定量说明刺激-反应内在规律的行为主义以及一个只用“似动”、“整体”、“顿悟”等神秘的字眼加以解释意识(似乎不能满足理论说明的要求,也无实际指导意义)的格式塔派怎能归属经得起客观逻辑验证的科学领域呢?这种质疑和否定一直持续到了20世纪40年代末,这个时期的数学(信息论)和电子学(计算机)的迅速发展,使得信息—这一神秘的事物不但可以量化存储而且还可以逻辑计算,在这两门学科突变的直接带动下,20世纪50年代中期在美国兴起了认知心理学思潮,作为人类行为基础的心理机制,其核心是输入和输出之间发生的内部心理过程。它研究人的高级心理过程,主要是认知过程,如注意、知觉、表象、记忆、思维和语言等。其主要代表人物是奈瑟尔(Ulric Neisser,1928-2012)、乔姆斯基(Noam Chomsky,1928-)和纽厄尔(Alan Newell, 1927-1992)和西蒙(Herbert Alexander Simon, 1916-2001)。正是由于诸多学科的不断融合交叉,形成了探究人脑或心智工作机制的前沿性尖端学科需求,1975年,由于美国著名的斯隆基金的投入,美国学者将哲学、心理学、语言学、人类学、计算机科学和神经科学6大学科整合在一起,研究“在认识过程中信息是如何传递的”,这个研究计划的结果产生了一个新兴学科——认知科学,并迅速地引起了全世界科学家们的广泛关注。这6个支撑学科之间互相交叉,又产生出11个新兴交叉学科:①控制论;②神经语言学;③神经心理学;④认知过程仿真;⑤计算语言学;⑥心理语言学;⑦心理哲学⑧语言哲学;⑨人类学语言学;⑩认知人类学;(11)脑进化。

作为20世纪世界科学标志性的新兴研究门类,认知科学实际上悄悄地指明人与机的智能未来研究方向,同时,它再一次地证明了人工智能科学其实和社会的遵循着相似的发展规律:合久必分,分久必合。

“远望智库”聚焦前沿科技领域,着眼科技未来发展,围绕军民融合、科技创新、管理创新、科技安全、知识产权等主题,开展情报挖掘、发展战略研究、规划论证、评估评价、项目筛选,以及成果转化等工作,为管理决策、产业规划、企业发展、机构投资提供情报、咨询、培训等服务,为推动国家创新驱动发展和军民融合深度发展提供智力支撑。