《人工智能:现代方法》一书是一部关于人工智能的权威指南,涵盖了从符号主义到深度学习的各个方面,以及人工智能在理论和实践中的应用。书中用数学和哲学来拆解人工智能的‘魔术帽’,并强调理解AI的原子级构成。书中不仅介绍了人工智能的主要理论和方法,还探讨了其在实际应用中的发展,如微电子设备、机器人、在线服务等。本书适合作为高等院校人工智能专业的教材,也可作为专业人士的参考书。
从符号主义逻辑推理到深度学习,再到贝叶斯网络和强化学习,书中每一章都探讨了人工智能的一个根本问题:智能何以可能。
书中预言了AI技术的未来,如ChatGPT的‘涌现能力’、人工智能的未来等,并强调理解AI的重要性,以避免被工具异化。
在生成式AI狂飙的今天,当普通人只需输入几个关键词就能召唤出媲美人类创作的文本、图像甚至视频时,技术黑箱的魅影愈发浓重——我们似乎不再需要理解原理,只需享受结果。但正如《人工智能:现代方法》(
Artificial Intelligence: A Modern Approach
,下称AIMA)作者Stuart Russell的警告:
“如果人类将智能全权交给黑箱,终有一日我们会沦为机器的宠物。”
这本厚达1100页的“AI百科全书”,正是为了撕开黑箱的幕布而生。它用数学的锋利与哲学的深邃,将AI从“魔术师的帽子”还原为可拆解的认知拼图。
一、拒绝黑箱:从「炼丹术」到「第一性原理」
翻开AIMA的目录,宛如展开一幅AI技术的基因图谱:从符号主义的逻辑推理到深度学习的权重矩阵,从贝叶斯网络的概率舞蹈到强化学习的博弈策略,每一章都在回答一个根本问题——
“智能何以可能?”
当多数科普书用“神经网络像人脑”的类比敷衍读者时,AIMA选择直面数学。例如在讲解反向传播算法时,书中以梯度下降公式为起点,逐步拆解误差如何通过链式法则从输出层逆流至输入层,最终用三页纸的数学推导完成了一场“机器学习的启蒙仪式”。这种硬核风格并非炫技,而是作者对技术黑箱的宣战:
理解AI,必须从理解它的“原子”开始。
而这份硬核,恰恰是破除迷信的良药。当公众为ChatGPT的“涌现能力”惊叹时,AIMA早在第三版就通过马尔可夫决策过程(MDP)预言了语言模型的本质——
“概率的鬼魂在语料库的坟场上跳舞”
。书中对统计学习与符号推理的融合讨论,甚至为当下大模型的“幻觉”问题提供了诊断框架。
二、思想的性感:当教材成为哲学实验场
如果说数学公式是AIMA的骨骼,那么书中密布的“思想实验”则是它的灵魂。这些实验拒绝成为干瘪的例题,而是化身成一个个认知迷宫:
-
“囚徒困境中的AI代理人”
:如果两个强化学习智能体在重复博弈中学会背叛,这是否意味着机器也能理解“人性之恶”?
-
“特修斯之船与知识表示”
:当一艘船的每一块木板都被替换,AI该如何在动态世界中锚定“同一性”概念?
-
“中文房间的暴力破解”
:若将塞尔的思维实验编码为图灵机,符号操作真能跨越语义鸿沟吗?
这些实验的性感之处,在于它们模糊了学科边界。在讨论机器人伦理的章节中,功利主义计算与康德绝对命令的碰撞,让算法工程师不得不直面哲学家的诘问;而在贝叶斯网络与因果推理的数学推演中,经济学家朱迪亚·珀尔的“阶梯因果论”与物理学家的时空模型竟产生了量子纠缠般的共鸣。
三、1100页的野望:一部未完成的AI史诗
AIMA的野心远不止于技术手册。它的每一版修订(从1995年的符号主义黄金时代到2020年的深度学习霸权)都像一部动态编年史,记录着人类对智能认知的范式革命:
-
第四版新增的“人类兼容AI”章节,将价值对齐问题从技术细节提升为文明级挑战,预言了如今ChatGPT伦理争议的核心矛盾。
-
对深度学习的批判性接纳(“它既是突破,也是认知退行”)展现了作者罕见的平衡视角——既不像技术乌托邦主义者般狂热,也不似卢德主义者般恐惧。
这种史诗感在“人工智能的未来”一章达到巅峰。当作者将AI技术树与人类文明史上的火种、蒸汽机、互联网并列时,1100页的纸张突然变得轻盈——我们捧着的不是一本书,而是一面映照出物种命运的镜子。
结语:为什么这个时代更需要AIMA?
在GPT-4能替学生写论文、Stable Diffusion能帮画家创作的今天,AIMA的价值反而愈发凸显:它教会我们的不是如何制造工具,而是如何不被工具异化。当你看完最后一页合上书时,那些曾令人望而生畏的数学符号将化作一种新型的“元认知”——
一种在技术洪流中保持清醒的能力。
正如Norvig在序言中所写:“真正的智能,始于理解自身无知的勇气。”这本“比科普更硬核、比教材更性感”的书,或许正是对抗AI时代认知危机的第一剂疫苗。
推荐语
-
“如果说《深度学习》是AI技术的操作手册,AIMA就是智能文明的《物种起源》。” —— DS
-
“它让我相信,在代码与伦理的交叉点上,仍存在人类思想的圣殿。” —— ds
更多人工智能书籍点击下图
文末有万字精彩选读
内容提要
本书全面、深入地探讨了人工智能(AI)领域的理论和实践,以统
一的风格将当今流行的人工智能思想和术语融合到引起广泛关注的应用
中,真正做到理论和实践相结合。全书分7个部分,共28章,理论部分介绍了人工智能研究的主要理论和方法并追溯了两千多年前的相关思
想,内容主要包括逻辑、概率和连续数学,感知、推理、学习和行动,
公平、信任、社会公益和安全;实践部分完美地践行了“现代”理念,实际应用选择当下热度较高的微电子设备、机器人行星探测器、拥有几十
亿用户的在线服务、AlphaZero、人形机器人、自动驾驶、人工智能辅
助医疗等。
本书适合作为高等院校人工智能相关专业本科生和研究生的教材,
也可以作为相关领域专业人员的参考书。
本书概述
智能体(intelligent agent)的概念是贯穿整本书的主题思想。我们
将人工智能定义为对从环境中接收感知并执行动作的智能体的研究。每个这样的智能体都要实现一个将感知序列映射为动作的函数,我们介绍了表示这些函数的不同方法,如反应型智能体、实时规划器、决策论系统和深度学习系统。我们强调,学习既是构造良好系统的方法,也是将设计者的影响范围扩展到未知环境的方法。我们没有把机器人学和视觉看作独立定义的问题,而是将其看作实现目标的服务。我们强调任务环境在确定合适的智能体设计中的重要性。
我们的主要目标是传达在过去70多年的人工智能研究和过去2000多
年的相关工作中涌现出来的思想。在表达这些思想时,我们在保持准确性的前提下尽量避免过于拘泥于形式。书中提供了数学公式和伪代码算法,让关键思想具体化;附录A中给出了数学概念和符号,附录B中给出了伪代码。
本书主要用作本科人工智能课程或课程序列的教科书。全书共28
章,每章大约需要一周的课时,因此完成整本书的教学需要两个学期。如果课程只有一个学期,可以按教师和学生的兴趣选择部分章节进行教学。本书也可用于研究生课程(可能需要增加参考文献中建议的一些主要资料),或者用于自学或作为参考书。
在本书中,定义了新术语的地方都会以灰色粗体显示,术语的后续
重要用法也以黑色粗体显示。阅读本书唯一的先修要求是对计算机科学基本概念(算法、数据结构、复杂性)的熟悉程度达到大学二年级的水平。大学一年级的微积分和线性代数知识对一些主题的阅读很有帮助。
文末有万字精彩选读
吴军序
斯图尔特·罗素教授和彼得·诺维格博士的《人工智能:现代方法》一书,是美国最为经典、最具权威性的大学教科书。说它经典,是因为这本书长期以来都是美国大部分知名大学人工智能课程的教科书,今天也已经被全世界1500多所大学采用为教材,其内容覆盖了到每一版出版时为止世界人工智能的主流技术和方法。说它权威,是因为这本书是几乎所有人工智能从业者的参考书,但凡人们对某些人工智能的概念发生争议时,就会以这本书的讲述为准。
2002年,我有幸成为诺维格博士的下属,先后在谷歌公司的搜索部门以及研究部门从事与机器学习相关的工作。诺维格博士是作为人工智能专家和科技管理者,被谷歌公司请来负责研发工作的。在我和他共事的十多年里,我们在研究工作中和私底下有很多交流。诺维格博士是一个卓有远见的管理者,也是一名基础极为扎实的技术专家。他并没有因为繁忙的管理工作而放松对新技术的学习和研究。
罗素教授是诺维格博士的同事和朋友,他一直活跃在人工智能学术研究的第一线,并曾经担任加利福尼亚大学伯克利分校计算机系主任。罗素教授的研究横跨人工智能的很多领域,包括机器学习、统计模型、知识表示、实时决策、计算机视觉,以及近年来比较热门的强化学习。
可以讲,这两位作者是近20年来世界人工智能领域最权威的学者,他们每过一段时间都会更新这本已经非常畅销的教科书,将最新的研究成果和理论方法增补进去。而我有幸见证了他们每一次版本升级的过程。
《人工智能:现代方法》的第1版出版于1995年,当时虽然已经有了基于数据的方法,但是从20世纪60年代到20世纪80年代,传统的人工智能方法依然在学术界占主导地位。因此本书第1版的主要内容只包含了这次出版的第4版的第二部分和第三部分,即智能问题的求解和有关知识表示与推理的部分。20世纪90年代其实是人工智能发展的转折点,传统的基于规则和推理的人工智能发展走到了今天,数据驱动的人工智能方法变得越来越重要。因此,在2003年,两位作者更新了这本书,加43入了与统计有关的内容,即这次出版的第4版的第四部分和第五部分。在21世纪的前10年,人工智能中的机器学习、自然语言处理和计算机视觉三个领域发展迅猛,因此,几年后,诺维格和罗素决定再次更新升级这本书。在那几年里,诺维格博士和我们这些一线的研究人员有着密切的沟通和讨论,而罗素教授一直在伯克利教学和做科研,因此他们掌握着最新的人工智能发展动态。但是,由于当时他们都在各自的机构担任要职,非常繁忙,写书的事情一拖再拖。最后,诺维格博士为了专心写书,申请了三个月的学术休假,在远离喧嚣的加拉帕戈斯群岛专心写作。两位作者最终在2009年完成了本书的第3版,第3版加入了当时全世界最新的人工智能研究成果,并且构建了这本书今天的结构。
进入21世纪的第二个十年,人工智能的发展进入到一个黄金期。人工智能以大数据、深度学习、增强学习为基础方法,在很多领域取得了重大突破,不仅解决了众多科研问题,还将数据挖掘、计算机视觉、自然语言处理、机器人、机器学习等技术应用到了更广泛的领域。这期间,诺维格博士也不再承担谷歌公司的管理工作,他在大学里潜心教学,和罗素教授一道,把他们在课堂上所讲授的人工智能的前沿知识增加到现在的第4版中,同时他们在全书的第一部分和最后一部分加入了关于对人工智能历史和全貌的详细描述,以及他们对人工智能社会意义的理解。虽然从结构上看,第3版和第4版相差不大,但是第4版增加了大约四分之一的新内容,特别是与深度学习和强化学习有关的内容。同时,他们更新了之前版本中已有章节的部分内容,删除了一些过时的内容(主要是那些曾经使用过的,现在不再重要的人工智能方法和技术)。因此,可以讲目前这本书的第4版几乎涵盖了人工智能从业者需要了解的人工智能领域的所有基本内容。对比第1版,第4版的厚度几乎是它的两倍。
由于这是一本近千页的“巨著”,内容非常多,信息量极大,不同的读者在阅读这本书时可能需要采用不同的方式。第一类读者应该是正在从事人工智能研究的人,包括高校的研究生、教师和公司里的研究人员。我建议这一类读者从头到尾认真阅读每一章,如果有必要,还需要阅读其中一些参考文献,这样才能对人工智能有完整的、深刻的理解。第二类读者是大学的本科生。他们应该在任课老师的指导下系统阅读每一部分中的重点内容。相比较而言,从第四部分开始的内容更新也更重要,需要重点阅读,当然第一部分是对人工智能的全面描述,对每一个人了解这个领域大有裨益。第三类读者是已经对人工智能有了一定了解,在工作中需要用到人工智能技术的人,如公司里的工程师或者做研44究的博士生。他们可以把这本书作为参考书阅读,用到哪一部分内容直接阅读即可。这本书的好处是,每一部分,甚至每一章都相对独立,跳过前面的内容不影响阅读后面的内容。当然,如果还有一些非计算机专业的读者对人工智能感兴趣,重点阅读第一部分和最后一部分就好了。如果这些读者依然有兴趣阅读全书也是没有问题的,因为这本书语言浅显易懂,逻辑性强,并不需要读者具有很强的技术背景,大家只要跟随作者的思路从每一章的开始阅读即可。如果遇到不懂的地方,可以直接跳过去。相比书中的一些公式和算法,更重要的是读懂书中的概念,并且了解每一种方法的来龙去脉。
《人工智能:现代方法》
一书版本更新的过程与人工智能的发展过程是相一致的。通过这本书,读者不仅能够掌握与人工智能相关的理论和技术,还能把握人工智能发展的规律。因此,这是一本适合各类人群的专业好书。
文末有万字精彩选读
《人工智能:现代方法》
本节中,我们将简要介绍为人工智能提供思想、观点和技术的学科的历史。像任何历史一样,本书只关注少数人物、事件和思想,而忽略其他同样重要的。我们围绕一系列问题来组织这段历史。我们不希望带给读者这样一种印象:这些问题是各个学科唯一要解决的问题,或者各个学科都将人工智能作为最终成果而努力。
亚里士多德(Aristotle,公元前384—公元前322)制定了一套精确的法则来统御思维的理性部分,他是历史上第一位这样做的哲学家。他发展了一套非正式的三段论系统进行适当的推理,该系统原则上允许人们在给定初始前提下机械地得出结论。
拉蒙·鲁尔(Ramon Llull,约1232—1315)设计了一种推理系统,发表为Ars Magna(即The Gret Art)(Llull,1305)[5]。鲁尔试图使用实际的机械设备——一组可以旋转成不同排列的纸盘——实现他的系统。
[5]ArsMagna为拉丁文书名,翻译成英文的书名为TheGreatArt。——编者注
大约在1500年,列奥纳多·达·芬奇(LeonardodaVinci,1452—1519)设计了一台机械计算器,虽然当时并未制造,但最近的重构表明该设计是可行的。第一台已知的计算器是在1623年前后由德国科学家威廉·席卡德(WilhelmSchickard,1592—1635)制造的。布莱兹·帕斯卡(BlaisePascal,1623—1662)于1642年建造了滚轮式加法器(Pascaline),并写道:“它产生的效用似乎比动物的所有行为更接近思维。”戈特弗里德·威廉·莱布尼茨(GottfriedWilhelmLeibniz,1646—1716)制造了一台机械设备,旨在根据概念而非数值进行操作,但其应用范围相当有限。托马斯·霍布斯(ThomasHobbes,1588—1679)在《利维坦》(Leviathan)一书中提出了会思考的机器的想法,用他的话说就是一种“人造动物”,设想“心脏无非就是发条,神经只是一些游丝,而关节不过是一些齿轮”。他还主张推理就像是数值计算,认为“推理就是一种计算,也就是相加减”。[6]
[6]此处对《利维坦》一书中的引用采用了商务印书馆1985年9月出版的由黎思复、黎廷弼翻译的《利维坦》版本中的译文。——编者注
有观点认为,思维至少在某种程度上是根据逻辑或数值规则运作的,可以建立模仿其中的一些规则的物理系统。也有观点说,思维本身就是这样一个物理系统。勒内·笛卡儿(RenéDescartes,1596—1650)首次清晰地讨论了思维与物质之间的区别。他指出,思维的纯粹物理概念似乎没有给自由意志留下多少空间。如果思维完全受物理法则支配,那么它拥有的自由意志不会比一块“决定”往下掉的石头多。笛卡儿是二元论(dualism)的支持者。他认为,人类思维(灵魂或者精神)的一部分处于自然之外,不受物理定律的约束。但是,动物不具备这种二元特性,它们可以被视为机器。
唯物主义(materialism)是二元论的一种替代,它认为大脑根据物理定律的运作构成了思维。自由意志仅仅是实体对可选决策的感知。物理主义(physicalism)和自然主义(naturalism)这两个术语也被用于描述这类与超自然观点相反的观点。
如果给定可以操纵知识的实体思维,接下来的问题就是建立知识的来源。经验主义(empiricism)运动始于弗朗西斯·培根(FrancisBacon,1561—1626)的《新工具》(NovumOrganum)[7]一书,并以约翰·洛克(JohnLocke,1632—1704)的名言“知识归根到底都来源于经验”为特征。
[7]培根的《新工具》(NovumOrganum)是亚里士多德的《工具论》(Organon)的更新。
大卫·休谟(DavidHume,1711—1776)的《人性论》(ATreatiseofHumanNature)(Hume,1739)提出了现在称为归纳法(induction)的原则:通过暴露要素之间的重复联系获得一般规则。
以路德维希·维特根斯坦(LudwigWittgenstein,1889—1951)和伯特兰·罗素(BertrandRussell,1872—1970)的工作为基础,著名的维也纳学派(Sigmund,2017)——一群在20世纪20年代及20世纪30年代聚集在维也纳的哲学家和数学家——发展了逻辑实证主义(logicalpositivism)学说。该学说认为,所有知识都可以通过逻辑理论来描述,逻辑理论最终与对应于感知输入的观察语句(observationsentence)相联系。因此,逻辑实证主义结合了理性主义和经验主义。
鲁道夫·卡纳普(RudolfCarnap,1891—1970)和卡尔·亨佩尔(CarlHempel,1905—1997)的确证理论(confirmationtheory)试图通过量化应分配给逻辑语句的信念度来分析从经验中获取知识,信念度的取值基于逻辑语句与确证或否定它们的观察之间的联系。卡纳普的《世界的逻辑构造》(TheLogicalStructureoftheWorld)(Carnap,1928)也许是最先提出将思维视为计算过程这一理论的著作。
思维的哲学图景中最后一个要素是知识与动作之间的联系。这个问题对人工智能来说至关重要,因为智能不仅需要推理,还需要动作。而且,只有理解了怎样的行为是合理的,才能理解如何构建行为是合理的(或理性的)智能体。
亚里士多德在《论动物的运动》(DeMotuAnimalium)中指出,动作的合理性是通过目标和动作结果的知识之间的逻辑联系来证明的:
但是,思考有时伴随着行为,有时却没有,有时伴随着行动,有时却没有,这是如何发生的?这看起来和对不变的对象进行推理和推断时发生的情况几乎是一样的。但是在那种情况下,结局是一个推测性的命题……而在这里,由两个前提得出的结论是一个行为……我需要覆盖物;斗篷是一种覆盖物。我需要一件斗篷。我需要什么,我必须做什么;我需要一件斗篷。我必须做一件斗篷。结论是,“我必须做一件斗篷”,这是一个行为。
在《尼各马可伦理学》(NicomacheanEthics)(第三卷第3章,1112b)中,亚里士多德进一步阐述了这个主题,并提出了一个算法:
我们考虑的不是目的,而是实现目的的手段。医生并不考虑是否要使一个人健康,演说家并不考虑是否要去说服听众……他们是先确定一个目的,然后考虑用什么手段和方式来达到目的。如果有几种手段,他们考虑的就是哪种手段最能实现目的。如果只有一种手段,他们考虑的就是怎样利用这一手段去达到目的,这一手段又需要通过哪种手段来获得。这样,他们就在所发现的东西中一直追溯到最初的东西……分析的终点也就是起点。如果恰巧遇到不可能的事情,例如需要钱却得不到钱,那么就放弃这种考虑。而所谓可能的事情,就是以我们自身能力可以做到的那些事情。[8]
[8]此处对《尼各马可伦理学》一书中的引用采用了商务印书馆2017年8月出版的廖申白翻译的《尼各马可伦理学》版本中的译文。——编者注
2300年后,纽厄尔和西蒙在他们的通用问题求解器(GeneralProblemSolver)程序中实现了亚里士多德的算法。我们现在将其称为贪婪回归规划系统(见第11章)。在人工智能理论研究的前几十年中,基于逻辑规划以实现确定目标的方法占据主导地位。
纯粹从行为的角度来思考实现目标通常是有用的,但在某些情况是不适用的。例如,如果有几种不同的方法可以实现目标,我们就需要某种方法来进行选择。更重要的是,确定性地实现一个目标可能是无法做到的,但某些行为仍然必须被实施。那该如何决策呢?安托万·阿尔诺(AntoineArnauld)(Arnauld,1662)分析了赌博中的理性决策概念,提出了一种量化公式,可以最大化期望收入的货币价值。后来,丹尼尔·伯努利(DanielBernoulli)(Bernoulli,1738)引入了更普适的效用(utility)概念,可以体现结果的内在主观价值。如第16章所述,在不确定性下,理性决策的现代概念涉及最大化期望效用。
在道德和公共政策方面,决策者必须考虑多个个体的利益。杰里米·边沁(JeremyBentham)(Bentham,1823)和约翰·斯图尔特·穆勒(JohnStuartMill)(Mill,1863)提出了功利主义(utilitarianism)思想:基于效用最大化的理性决策应该适用于人类活动的所有领域,包括代表许多个体做出公共政策的决策。功利主义是一种特殊的结果主义(consequentialism),行为的预期结果决定了正确与否。
相反,伊曼努尔·康德(ImmanuelKant)在1785年提出了一种基于规则或义务伦理学(deontologicalethics)的理论。在该理论中,“做正确的事”不是由结果决定的,而是由管理可行行为的普适社会法则所决定的,可行行为包括“不要撒谎”“不要杀人”等。因此,如果期望的好处大于坏处,那么功利主义者可以撒一个善意的谎言,但康德主义者则不能这样做,因为撒谎本质上就是错误的。穆勒承认规则的价值,但将其理解为基于第一性原理对结果进行推理的高效决策程序。许多现代人工智能系统正是采用了这种方法。
●得出有效结论的形式化规则是什么?
●什么可以被计算?
●如何使用不确定的信息进行推理?
哲学家们提出了人工智能的一些基本理念,但人工智能要成为正规科学,需要逻辑和概率的数学化,并引入一个新的数学分支——计算。形式化逻辑(formallogic)的思想可以追溯到古希腊、古印度和古代中国的哲学家,但它的数学发展真正始于乔治·布尔(GeorgeBoole,1815—1864)的工作。布尔提出了命题和布尔逻辑的细节(Boole,1847)。1879年,戈特洛布·弗雷格(GottlobFrege,1848—1925)将布尔逻辑扩展到包括对象和关系,创建了沿用至今的一阶逻辑[9]。一阶逻辑除了在人工智能研究的早期发挥核心作用外,还激发了哥德尔和图灵的工作,这些工作支撑了计算本身。
[9]弗雷格提出的一阶逻辑符号(文本和几何特征的神秘组合)从未流行起来。
概率(probability)论可以视为信息不确定情况下的广义逻辑,这对人工智能来说是非常重要的考虑。吉罗拉莫·卡尔达诺(GerolamoCardano,1501—1576)首先提出了概率的概念,并根据赌博事件的可能结果对其进行了刻画。1654年,布莱兹·帕斯卡(BlaisePascal,1623—1662)在给皮埃尔·费马(PierreFermat,1601—1665)的信中展示了如何预测一个未完成的赌博游戏的结局,并为赌徒分配平均收益。概率很快成为定量科学的重要组成部分,用于处理不确定的度量和不完备的理论。雅各布·伯努利(JacobBernoulli,1654—1705,丹尼尔·伯努利的叔叔)、皮埃尔·拉普拉斯(PierreLaplace,1749—1827)等人发展了这一理论,并引入了新的统计方法。托马斯·贝叶斯(ThomasBayes,1702—1761)提出了根据新证据更新概率的法则。贝叶斯法则是人工智能系统的重要工具。
概率的形式化结合数据的可用性,使统计学(statistics)成为了一个新研究领域。最早的应用之一是1662年约翰·格兰特(JohnGraunt)对伦敦人口普查数据的分析。罗纳德·费舍尔(RonaldFisher)被认为是第一位现代统计学家,他汇总了概率、实验设计、数据分析和计算等思想(Fisher,1922)。在1919年,他坚称,如果没有机械计算器“百万富翁”(MILLIONAIRE,第一个可以做乘法的计算器),他就无法进行工作,尽管这台计算器的成本远远超过了他的年薪(Ross,2012)。
计算的历史与数字的历史一样古老,但用于计算最大公约数的欧几里得算法被认为是第一个非平凡的算法(algorithm)。“算法”一词源自一位9世纪的数学家穆罕默德·本·穆萨·阿尔·花剌子模(MuhammadibnMusaal-Khwarizmi),他的著作还将阿拉伯数字和代数引入了欧洲。布尔等人讨论了逻辑演绎的算法,到19世纪末,人们开始努力将一般的数学推理形式化为逻辑演绎。
库尔特·哥德尔(KurtGödel,1906—1978)表明,虽然存在一种有效方法能够证明弗雷格和罗素的一阶逻辑中的任何真实陈述,但是一阶逻辑无法满足表征自然数所需的数学归纳原理。1931年,哥德尔证明关于演绎的限制确实存在。哥德尔的不完全性定理(incompletenesstheorem)表明,在任何像皮亚诺算术(Peanoarithmetic,自然数的基本理论)这样强的形式化理论中,必然存在一些没有证明的真实陈述。这个基本结果也可以解释为作用于整数上的某些函数无法用算法表示,即它们无法被计算。这促使艾伦·图灵(AlanTuring,1912—1954)试图准确地描述哪些函数是可计算的,即能够通过有效的过程进行计算。丘奇-图灵论题(Church-Turingthesis)提出将图灵机(Turing,1936)可计算的函数作为可计算性的一般概念。图灵还表明,存在某些任何图灵机都无法计算的函数。例如,没有一台机器能够在广义上判断给定程序是会根据给定的输入返回答案,还是永远运行下去。
尽管可计算性(computability)对理解计算很重要,但易处理性(tractability)的概念对人工智能的影响更大。粗略地说,如果解决一个问题实例所需的时间随着问题规模呈指数增长,那么这个问题就是难处理的。在20世纪60年代中期,复杂性的多项式增长和指数增长之间的区别首次被强调(Cobham,1964;Edmonds,1965)。因为指数级增长意味着即使是中等规模的问题实例也无法在合理的时间内解决,所以易处理性很重要。
由斯蒂芬·库克(StephenCook)(Cook,1971)和理查德·卡普(RichardKarp)(Karp,1972)开创的NP完全性(NP-completeness)理论为分析问题的易处理性提供了基础:任何可以归约到NP完全的问题都可能是难处理的。(尽管尚未证明NP完全问题一定是难处理的,但大多数理论家都相信这一点。)这些结果与大众媒体对第一台计算机的乐观态度——“比爱因斯坦还快的电子超级大脑!”——形成了鲜明对比。尽管计算机的速度在不断提高,但对资源的谨慎使用和必要的缺陷将成为智能系统的特征。粗略地说,世界是一个极大的问题实例!
●我们应该如何根据自己的偏好做出决定?
●当其他人可能不支持时,我们应该怎么做?
●当收益可能在很遥远的未来时,我们应该怎么做?
经济学起源于1776年,当时亚当·斯密(AdamSmith,1723—1790)发表了《国富论》(全名为《国民财富的性质和原因的研究》,AnInquiryintotheNatureandCausesoftheWeallthofNations)。斯密建议将经济视为由许多关注自身利益的独立主体组成,但他并不主张将金融贪婪作为道德立场。他在较早的著作《道德情操论》(TheTheoryofMoralSentiments)(Smith,1759)开篇就指出,对他人福祉的关注是每个个体利益的重要组成部分。
大多数人认为经济学就是关于钱的,而实际上第一个对不确定性下的决策进行数学分析的是安托万·阿尔诺(Arnauld,1662)的最大期望值公式,而这一分析也的确是与赌注的货币价值相关。丹尼尔·伯努利(Bernoulli,1738)注意到,这个公式似乎不适用于更大规模的金钱,例如对海上贸易远征的投资。于是,他提出了基于期望效用最大化的原则,并指出额外货币的边际效用会随着一个人获得更多货币而减少,从而解释了大众的投资选择。
里昂·瓦尔拉斯(LéonWalras,1834—1910)为效用理论提供了一个更为普适的基础,即对任何结果(不仅仅是货币结果)的投机偏好。弗兰克·拉姆齐(FrankRamsey)(Ramsey,1931)以及后来约翰·冯·诺伊曼(JohnvonNeumann)和奥斯卡·摩根斯特恩(OskarMorgenstern)在他们的著作《博弈论与经济行为》(TheTheoryofGamesandEconomicBehavior)(NeumannandMorgenstern,1944)中对这一理论进一步改进。经济学不再是研究金钱的学科,而是对欲望和偏好的研究。
决策论(decisiontheory)结合了概率论和效用理论,为在不确定性下做出个体决策(经济的或其他的)提供了一个形式化完整的框架,也就是说,概率适当地描述了决策者所处的环境。这适用于“大型”经济体,在这种经济体中,每个主体都无须关注其他独立主体的行为。对“小型”经济体而言更像是一场博弈(game):一个参与者的行为可以显著影响另一个参与者的效用(积极或消极的)。冯·诺依曼和摩根斯特恩对博弈论(gametheory)的发展[也可以参考(LuceandRaiffa,1957)]得出了令人惊讶的结果,即对于某些博弈,理性智能体应该采用随机(或至少看起来是随机)的策略。与决策论不同,博弈论并没有为行为的选择提供明确的指示。人工智能中涉及多个智能体的决策将在多智能体系统(multiagentsystem)的主题下探讨(第18章)。
经济学家(除了一些例外)没有解决上面列出的第三个问题:当行为的收益不是立即产生的,而是在几个连续的行为后产生时,应该如何做出理性的决策。这个课题在运筹学(operationsresearch)的领域探讨,运筹学出现在第二次世界大战期间英国对雷达安装的优化工作中,后来发展出了无数民用应用。理查德·贝尔曼(RichardBellman)(Bellman,1957)的工作将一类序贯决策问题进行了形式化,称为马尔可夫决策过程(Markovdecisionprocess),我们将在第17章研究该问题,并在第22章以强化学习(reinforcementlearning)的主题研究该问题。
经济学和运筹学的工作对理性智能体的概念做出了很大贡献,但是多年来的人工智能研究是沿着完全独立的道路发展的。原因之一是做出理性决策显然是复杂的。人工智能的先驱赫伯特·西蒙(HerbertSimon,1916—2001)凭借其早期工作在1978年获得了诺贝尔经济学奖,他指出135基于满意度(satisficing)的决策模型(做出“够好”的决策,而不是费力地计算最优决策)可以更好地描述实际的人类行为(Simon,1947)。自20世纪90年代以来,人工智能的决策理论技术重新引起了人们的兴趣。
神经科学(neuroscience)是对神经系统(尤其是对大脑)的研究。尽管大脑进行思考的确切方式是科学的奥秘之一,但大脑确实是能思考的现实已经被人们接受了数千年,因为有证据表明,对头部的强烈打击会导致精神丧失。人们也早就知道人的大脑在某种程度上是不同的,大约在公元前335年,亚里士多德写道:“在所有动物中,人类的大脑与身体大小的比例最大。”
[10]然而,直到18世纪中叶,大脑才被广泛认为是意识的所在地。在此之前,意识所在地的候选位置包括心脏和脾脏。
[10]后来人们发现树鼩和一些鸟类的脑体比超过了人类的脑体比。
1861年,保罗·布罗卡(PaulBroca,1824—1880)对脑损伤患者中的失语症(语言缺陷)进行了调查研究,他在大脑左半球发现一个局部区域(现在被称为布罗卡氏区域)负责语音的产生,从而开始了对大脑功能组织的研究。[11]那时,人们已经知道大脑主要由神经细胞或神经元(neuron)组成,但直到1873年,卡米洛·高尔基(CamilloGolgi,1843—1926)才发明了一种可以观察单个神经元的染色技术(见图1-1)。圣地亚哥·拉蒙-卡哈尔(SantiagoRamonyCajal,1852—1934)在神经组织的开创性研究中使用了该技术。[12]现在人们普遍认为认知功能是由这些结构的电化学反应产生的。也就是说,一组简单的细胞就可以产生思维、行为和意识。如约翰·希尔勒(JohnSearle)(Searle,1992)的精辟名言所说:大脑产生思想。
[11]许多人引用亚历山大·胡德(AlexanderHood)(Hood,1824)的论文作为可能的先验资料。
$[12]卡哈尔提出了“神经元学说”,高尔基则坚持他的信念,认为大脑的功能主要是在神经元嵌入的连续介质中发挥的。虽然两人共同获得1906年的诺贝尔奖,但发表的获奖感言却是相互对立的。
图1-1神经细胞或神经元的部分。每个神经元都由一个包含神经核的细胞体或体细胞组成。许多从细胞体中分支出来的纤维状被称为树突,其中的长纤维被称为轴突。轴突伸展的距离很长,比这张图上显示的要长得多。轴突一般长1厘米(是细胞体直径的100倍),但也可以达到1米。一个神经元在称为突触的连接处与其他10~100000个神经元建立连接。信号通过复杂的电化学反应从一个神经元传递到其他神经元。这些信号可以在短期内控制大脑活动,还可以长期改变神经元的连通性。这些机制被认为是大脑学习的基础。大多数信息都在大脑皮质(大脑的外层)中处理的。基本的组织单元似乎是直径约0.5毫米的柱状组织,包含约20000个神经元,并延伸到整个皮质(人类皮质深度约4毫米)
现在,我们有了一些关于大脑区域和身体部位之间映射关系的数据,这些部位是受大脑控制或者是接收感官输入的。这样的映射可以在几周内发生根本性的变化,而有些动物似乎具有多个映射。此外,我们还没有完全理解当一个区域受损时其他区域是如何接管其功能的。而且,关于个人记忆是如何存储的,或者更高层次的认知功能是如何运作的,目前几乎没有任何相关理论。
1929年,汉斯·伯杰(HansBerger)发明脑电图仪(EEG),开启了对完整大脑活动的测量。功能磁共振成像(fMRI)的发展(Ogawaetal.,1990;CabezaandNyberg,2001)为神经科学家提供了前所未有的大脑活动的详细图像,从而使测量能够以有趣的方式与正在进行的认知过程相对应。神经元活动的单细胞电记录技术和光遗传学(optogenetics)方法的进展(Crick,1999;Zemelmanetal.,2002;HanandBoyden,2007)增强了这些功能,从而可以测量和控制被修改为对光敏感的单个神经元。
用于传感和运动控制的脑机接口(brain-machineinterface)的发展(LebedevandNicolelis,2006)不仅有望恢复残疾人的功能,还揭示了神经系统许多方面的奥秘。这项工作的一项重要发现是,大脑能够自我调整,使自己成功与外部设备进行交互,就像对待另一个感觉器官或肢体一样。
大脑和数字计算机有不同的特性。如图1-2所示,计算机的周期时间比大脑快一百万倍。虽然与高端个人计算机相比,大脑拥有更多的存储和互连,但最大的超级计算机在某些指标上已经与大脑相当。未来主义者充分利用这些数字,指出了一个即将到来的奇点(singularity),在这个奇点上计算机达到了超越人类的性能水平(Vinge,1993;Kurzweil,2005;DoctorowandStross,2012),然后会进一步迅速提高。但是比较原始数字并不是特别有用。即使计算机的容量到达无限也无济于事,在理解智能方面仍然需要进一步的概念突破(见第28章)。粗略地说,如果没有正确的理论,更快的机器只会更快地给出错误的答案。