我们生活在不断变化的世界中。阅读《经济学人》有助于读者不受外界喧嚣的影响,保持冷静。
在全球格局转变如此之快的今天,订阅《经济学人》助您从全球视角分析时事政经。花点时间阅读以下选自《经济学人·商论》的官方译文,你会发现《经济学人》提供的透彻分析有多么不可或缺:
人工智能
玩个游戏吧
为什么AI研究人员如此热衷电子游戏
去年,普林斯顿大学的计算机科学家阿图尔·菲利波维奇(ArturFilipowicz)遇到了一个有关停车标志的问题。菲利波维奇教汽车识别和解读这个世界,希望它们能够无需辅助、自主驾驶。这些汽车必需的一个能力是识别停车标志。为此,菲利波维奇要努力训练出一个合适的算法,也就是给算法(或者说是运行它的电脑)展示各种不同情况下各类停车标志的大量图片。这些标志有的新有的旧,有的清晰有的脏兮兮,有的局部被卡车或建筑物遮蔽,还有的是在不同天气状况(阳光明媚、阴天下雨、雾气环绕)和不同时间段(白天、黄昏和夜间)拍摄的。
从照片库中找出所有这些图很麻烦,亲自到真实世界中拍照也是个乏味枯燥的活。菲利波维奇仅仅借助了一款电子游戏。著名系列游戏最新版《侠盗猎车手5》(GrandTheft Auto V)因为对犯罪和暴力的真实展现而引发争议,但对菲利波维奇来说却是理想之选,因为游戏中展现了真实的停车标志。对游戏软件一番鼓捣之后,菲利波维奇成功让软件提供了数千张各种情况下的停车标志图片,给他的算法慢慢消化。
除了菲利波维奇的停车标志以外,还有很多人工智能(简称AI,机器视觉就是AI的一种)的研究人员喜欢电子游戏的例子。电子游戏受追捧有几个原因:有些人,比如菲利波维奇,将游戏作为现实世界的训练场;其他人则注意到不同的游戏需要不同的认知技能,认为游戏可以帮助他们了解如何把智能问题分解成更易处理的小模块;还有人基于以上两种原因,认为游戏可以帮助他们发展出一套合适的人工(甚至自然)智能理论。
初学驾驶
不过,要让游戏发挥上述这些作用,首先要对游戏本身做调整,以便另一个计算机程序可以直接玩这个游戏,而不是由人看着屏幕来操纵。比方说,通过和软件“Deep Drive”结合,《侠盗猎车手5》就可以从停车标志的一个资料来源转换为无人驾驶汽车的驾驶模拟器,让这些车辆的驾驶和导航程序来控制汽车。这种测试驾驶软件的方法比让无人驾驶汽车直接上路更便宜、安全。
游戏公司也开始认识到这个趋势。举例来说,2015年6月,微软启动了AI开发平台Project Malmo,这个平台就是基于微软最近收购的《我的世界》(Minecraft)这款热门的“建设世界”游戏。2016年11月,动视暴雪(Activision Blizzard)宣布与谷歌的控股公司Alphabet拥有的AI公司DeepMind达成类似的合作。动视暴雪旗下的《星际争霸II》(StarcraftII)是一款让玩家建设并指挥人类和外星人军队的科幻策略游戏。
之后的一个月里,经相关所有者的许可,旧金山一个由私人资助的研究小组OpenAI发布了对所有人免费的软件“Universe”,这个平台上提供的数百款游戏可以由适当的AI程序直接操作,其中既有物理益智游戏《传送门2》这样畅销的大成本制作,也有《小海马泡泡龙》和《太空斑马》这类低成本的趣味网游。
微软启动Project Malmo的目标之一是教AI软件与人合作。为此,项目负责人卡佳·霍夫曼(KatjaHofman)试图利用《我的世界》来打造出一个先进的个人助理。她希望能开发出一种软件,可以预测并协助实现人类操作者的意图。《我的世界》要比现实世界简单,但它的复杂度已足够有趣,因而成为了一个完美的测试场。例如,霍夫曼及其同事尝试用它来教电脑理解它必须与人类玩家合作,共同捕捉一头虚拟的猪。由于机器无法理解书面指示,所以只能完全通过观察游戏中人类同伴的行为来学习合作。
不过,电子游戏可以为AI做的事不止是提供现实世界的训练场。玩不同的游戏需要不同的能力,这有助于研究人员分解智能问题。2015年,DeepMind发表了一篇文章,描述了研究人员训练一个人工神经网络玩游戏的过程。这个人工神经网络粗略模仿人脑结构,玩的是电子游戏先驱雅达利公司(Atari)在20世纪七八十年代发行的数十款游戏。
对于人工神经网络来说,有些游戏比其他游戏更难掌握。有点像单人版网球的“打砖块”很容易,这个游戏是用一个不断反弹的球来击打并消除砖块。玩家可以选择将“球拍”向左或向右移动。失败会立即受罚(丢一次球少一条命)。同理,成功会立即得到奖励(消除砖块会加分)。简单的操作加上即时的反馈很适合DeepMind的神经网络,它很快就学会了玩“打砖块”,得分比专业游戏测试人员高十倍以上。
有些游戏就没那么简单了。在“Montezuma’s Revenge”中,要在危险重重的金字塔内探寻深埋的宝藏,玩家必须首先完成许多小任务,例如找到开门的钥匙。游戏中结果的反馈没有“打砖块”那么直接。例如,在一个地方找到了钥匙后,可能要到另一个很远的地方去用钥匙开门。游戏的最终奖励是寻获宝藏,这是之前数千次行为的结果,这让人工神经网络很难建立因果关系。与玩“打砖块”时大师级的表现相反,神经网络在玩“MontezumaRevenge”时几乎一筹莫展。
此后,DeepMind的研究人员调整了算法,为探索和尝试设置了更大的回报,让系统变得更加好奇,从而有可能偶然发现一些没有明显即时回报的好策略。这种方法并不限于掌握虚拟世界的技能,也可以应用于真实世界。例如,DeepMind的算法已用于谷歌的数据中心,找出了将能耗减低40%的方法。实际上,可以将这类任务看成游戏。为了减少数据中心的能耗,神经网络可以调整冷却液泵的设置和负荷分布,同时观察能源消耗。它能把能耗“得分”压得越低,则战绩越好。
身体感知真相
目前,调整玩游戏的软件,让它来管理数据中心的能源预算,着实就像从头开始教它玩一个新游戏,因为DeepMind最初的神经网络一次只能玩一个游戏。例如,为了理解“打砖块”游戏,软件必须忘记其所知的《太空侵略者》(SpaceInvaders)的所有技巧。这种遗忘是由人工神经网络的本质决定的,这也是它与真正的大脑的不同之处。人工神经网络通过对组成网络的虚拟神经元之间的连接强度进行系统性调整来学习。改变学习任务后,旧的连接网络将逐渐被改写。然而,如DeepMind在3月份发表的一篇论文所述,现在他们的程序员已经找到了解决之道,让网络能够同时掌握多款游戏,就像真正的大脑一样,这就向迁移学习(transfer learning)迈进了一步。迁移学习是指把从一个情景中学到的行为模式应用到另一个情景中的能力,在AI研究中是一个热门话题。
与显示好奇心和延迟获得奖励一样,从学习一个任务转移到另一个任务对人类来说毫不费力,而机器却难以胜任。游戏在相关研究中再次起到了重要的作用。举例来说,纽约大学的朱利安·图吉利斯(JulianTogelius)组织了一个叫做通用电子游戏AI大赛(General Video Game AI Competition)的挑战。参赛者必须编写一个软件,能玩十个软件自身及其编程员都从未玩过的游戏,还要成绩不错。这需要软件掌握多项技能,包括规划、探索、决策等等,还要应用这些能力解决从未遇到过的问题。
不过,即使掌握了转移学习,构建有用的人工智能仍停留在零打碎敲的阶段。研究人员真正希望看到的是可以指导系统性构建AI的基础理论。有望成为这种基础理论的候选之一是具身认知(embodied cognition),这种理论认为,智能不是一开始就在软件中设计好的,而是完全从经验中学来的。
霍夫曼尤其支持这种看法,她认为电子游戏是探索这种理论的完美平台。在20世纪80年代进行的早期具身认知研究中,人们把传感器装到机器人上,让它们磕磕碰碰地四处探索来认识现实世界。当时的研究人员用这种方法确实取得了一些成功,但是他们在扩大实验规模时遇到了问题。DeepMind的大卫·席尔瓦(David Silver)指出:“机器人有齿轮、轮子和电机,以及各种各样的精密零件,最后时间都花在了维护上。”
来啊,来啊,一起玩游戏
电子游戏可以简化这个过程。虚拟世界中的虚拟机器人没有重量,没有移动部件,无需维护。改变规格进行调整用不着拿出扳手把它拆成零件,在键盘上敲几下就足够了。
游戏的环境也可以轻松改变。重新设置迷宫路线不再需要焊接金属板或粘合塑料墙壁,一台计算机可以一次运行数千个这样的模拟,让大量的虚拟机器人一次又一次地尝试任务,每次都学到新内容。研究人员还可以监控和了解学习过程。这种大规模测试用真正的机器根本做不到。
DeepMind的创始人丹米斯·哈撒比斯(Demis Hassabis)认为,重点在于确保虚拟机器人无法作弊,只能使用虚拟传感器收集到的信息来完成任务,而不能有任何窥视虚拟游戏背后数据的行为。如果这样一个机器人想要在《Montezuma’s Revenge》中危险重重的金字塔内或者《侠盗猎车手》中虚构的洛斯桑托斯市中完成任务,它必须靠自己“看”来搞清楚自己身处何处,发生了何事,而不是让运行游戏的电脑告诉它坐标。DeepMind就是用这种方法来教程序玩游戏的。
既然可以通过玩游戏来训练AI,那么用游戏来研究具身认知也就顺理成章。这看起来也是个合适的方式。只要观察一下任何智能生物的幼体,不论狗还是人类,都会看到他们是通过玩来建立认知的,和具身认知很相似。生物进化走到这一步并没有计算机的辅助。但在人工和自然世界中,玩的根本目的都是让玩家为一个最大的游戏做好准备,那就是现实。
《经济学人》助力读者关注时事、政治、商业、科技和艺术,为实现这样的目标提供见解、视角及指导。订阅《经济学人》,在享受电子版和纸质版不间断的服务过程中,获益更多。
现订阅12周英文原版《经济学人》仅需115元。您可以享受:
Economist.com和《经济学人》有声版全部访问权限
通过《经济学人》在iPad、iPhone、Android、Windows 8、Chrome、BlackBerry和Kindle Fire上的应用,阅读每周完整内容
《经济学人》Espresso的访问权限,我们的早晨简报每日直达您的手机和邮箱
由专业播音员录制的《经济学人》音频
如果您对我们的服务或内容没有完全满意,我们将对所有未送达期刊做退款保证。
对我们的服务或内容没有完全满意,我们将对所有未送达期刊做退款保证。
Subscribe now, and get started with The Economist today