专栏名称: 王利芬

感谢您关注王利芬和优米网。从央视制片人&主持人到创办优米网，我将在这里和大家分享我的创业历程和每日所思。欢迎大家。

表面繁荣之下，人工智能的发展已陷入困境

王利芬 · 公众号 · 科技自媒体 · 2019-04-08 18:55

正文

微信图片_20180731203249.jpg

王利芬成长社

读书读人读社会

开启社会上升通道

现在，深度学习面临着无法进行推理的困境，这也就意味着，它无法让机器具备像人一样的智能。但是真正的推理在机器中是什么样子的呢？如果深度学习不能帮助我们达到目的，那什么可以呢？

本文来源于36氪，文章作者为克莱夫 · 汤普森 (@pomeranian99)，原标题为「How to Teach Artificial Intelligence Some Common Sense」

一

五年前，总部位于伦敦的人工智能公司 DeepMind 的程序员，兴奋地看着人工智能自学玩一款经典的街机游戏。他们在一项看似「异想天开」的任务上使用了当今最热门的技术——深度学习——掌握了 Breakout。

这是一款雅达利（Atari）开发的游戏，在游戏中，你需要用移动下方的平板，把球弹起，然后把上方的所有砖块都打消失。

深度学习，是机器进行自我教育的一种方式；你给人工智能提供大量的数据，它会自己识别模式。在这个游戏中，数据就是屏幕上的活动——代表砖块、球和玩家平板的块状像素。

DeepMind 的人工智能，一个由分层算法组成的神经网络，并不知道任何关于 Breakout 的工作原理、规则、目标，甚至如何发挥它都不清楚。编码器只是让神经网络检查每个动作的结果，每次球的弹起轨迹。这会导致什么？

事实证明，它会掌握一些令人印象深刻的技能。在最初的几场游戏中，人工智能只是控制下方的平板四处乱晃。但是玩了几百次之后，它已经开始准确地将球弹起了。到了第 600 场比赛时，神经网络使用了一种专业的人类 Breakout 游戏玩家使用的动作，凿穿整排砖块，让球沿着墙顶不停跳跃。

「这对我们来说，是一个很大的惊喜，」DeepMind 的首席执行官德米斯 · 哈萨比斯 (Demis Hassabis) 当时说道。「这一策略完全来自底层系统。」人工智能，已经显示出它能够像人类一样进行异常微妙的思考，掌握 Breakout 背后的内在概念。因为神经网络松散地反映了人脑的结构，所以从理论上说，它们应该在某些方面模仿我们自己的认知方式。这一刻似乎证明了这个理论是正确的。

去年，位于旧金山的一家人工智能公司 Vicorance 的计算机科学家，提供了一个有趣的现实检验。他们采用了一种类似 DeepMind 所用的人工智能，并在 Breakout 上进行了训练。

结果很棒。但随后，他们稍微调整了游戏的布局。在一次迭代中，他们将平板提得更高了；另一次迭代中，他们在上方增加了一个牢不可破的区域。

人类玩家可以快速适应这些变化，但神经网络却不能。这个看起来很聪明的人工智能，只能打出它花了数百场比赛掌握的 Breakout 的方法。它不能应对新变化。

「我们人类不仅仅是模式识别器，」Vicarious 的共同创始人之一、计算机科学家迪利普 · 乔治（Dileep George）告诉我。「我们也在为我们看到的东西建立模型。这些是因果模型——有我们对因果关系的理解。」

人类能够推理，也会对我们周围的世界进行逻辑推理，我们有大量的常识知识来帮助我们发现新的情况。当我们看到一款与我们刚刚玩的游戏略有不同的 Breakout 游戏时，我们会意识到，它可能有着大致相同的规则和目标。

但另一方面，神经网络对 Breakout 一无所知。它所能做的就是遵循这个模式。当模式改变时，它无能为力。

深度学习是人工智能的主宰。在它成为主流以来的六年里，它已经成为帮助机器感知和识别周围世界的主要方式。

它为 Alexa 的语音识别、Waymo 的自动驾驶汽车和谷歌的即时翻译提供了动力。从某些方面来说，Uber 的网络也是一个巨大的优化问题，它利用机器学习来找出乘客需要汽车的地方。中国科技巨头百度，有 2000 多名工程师在神经网络人工智能上努力工作。

多年来，深度学习看上去越来越好，不可阻挡地让机器拥有像人一样流畅、灵活的智力。

但是一些人认为，深度学习正在面临困境。他们说，单凭这一点，它永远不会产生广义上的智能，因为真正像人类一样的智能，不仅仅是模式识别。

我们需要开始弄清楚如何让人工智能具备常识。他们警告说，如果我们不这样做，我们将会不断地触及深度学习的极限，就像视觉识别系统，只要改变一些输入，就会很容易被愚弄，比如，让深度学习模型认为乌龟就是一杆枪。

但他们说，如果我们成功了，我们将见证更安全、更有用的设备爆炸式增长——比如在杂乱的家中自由行动的医疗机器人、不会误报的欺诈检测系统等等。

但是，真正的推理在机器中是什么样子的呢？如果深度学习不能帮助我们达到目的，那什么可以呢？

二

加里 · 马库斯（Gary Marcus）是纽约大学的心理学和神经科学教授，现年 48 岁，戴着眼镜，忧心忡忡。他可能是最著名的深度学习反对者。

马库斯第一次对人工智能感兴趣，是在 20 世纪 80 年代和 90 年代，当时神经网络还处于实验阶段，从那以后，他就一直在做同样的论证。

「我不只是来晚了，而且还想在派对上撒尿，」当我在纽约大学附近的公寓遇见他时，马库斯告诉我。(我们也是私人朋友。)「深度学习刚开始爆发的时候，我就说 ‘方向错了，伙计们！’」

那时，深度学习背后的策略和现在是一样的。比方说，你想要一台机器来自己学习识别雏菊。首先，你需要编写一些算法「神经元」，像三明治一样，将它们层层连接起来 (当你使用多层时，三明治会变得更厚或更深——因此是「深度」学习)。

你在第一层输入一个雏菊的图像，它的神经元会根据图像是否像它以前看到的雏菊的例子而进行判断。然后，信号将移动到下一层，在那里循环这个过程。最终，这些层会得出一个结论。

起初，神经网络只是盲目猜测；它或多或少地让生活从一张白纸开始。关键是建立一个有用的反馈回路。每当人工智能没有识别出雏菊时，那组神经连接就会削弱导致错误猜测的链接；如果它成功了，它会加强。

给定足够的时间和足够多的雏菊样本，神经网络会变得更加精确。它学会了通过直觉来识别一些雏菊的模式，让它每次都能识别出雏菊 (而不是向日葵或菊花)。

随着时间的推移，这一核心理念——从一个简单的网络开始，通过重复训练——得到了改进，似乎可以应用到几乎任何地方。

但是马库斯从未被说服。对他来说，问题就在于一张白纸：它假设人类纯粹通过观察周围的世界来建立他们的智力，机器也可以。

但是马库斯不认为人类就是这样工作的。他认可诺姆 · 乔姆斯基 (Noam Chomsky) 的智力发展理论，他认为人类天生就有学习的天赋，能够掌握语言和解释物质世界，而不是一张白纸。

他指出，尽管有很多人认为神经网络是智能的，但它似乎不像人类大脑那样工作。首先，它们太需要数据了。

在大多数情况下，每个神经网络都需要数千或数百万个样本来学习。更糟糕的是，每次你想让神经网络识别一种新的项目，你都必须从头开始训练。一个识别金丝雀的神经网络在识别鸟鸣或人类语言方面没有任丝毫用处。

「我们不需要大量的数据来学习，」马库斯说。他的孩子不需要看一百万辆车就能认出车辆来。更好的是，他们可以「抽象化」，当他们第一次看到拖拉机时，他们会知道它有点像汽车。他们也可以进行反事实的工作。

谷歌翻译可以将法语翻译成英语。但是它不知道这些话是什么意思。马库斯指出，人类不仅掌握语法模式，还掌握语法背后的逻辑。你可以给一个小孩一个假动词，比如 pilk，她很可能会推断过去式是 pilked。当然，她以前没见过这个词。她没有接受过这方面的「训练」。她只是凭直觉知道了语言运作的一些逻辑，并能将其应用到一个新的情况中。

「这些深度学习系统不知道如何整合抽象知识，」马库斯说，他创立了一家公司，创造了用更少的数据进行学习的人工智能 (并在 2016 年将公司卖给了 Uber)。

今年早些时候，马库斯发表了一份关于 arXiv 的白皮书，认为如果没有一些新的方法，深度学习可能永远不会突破目前的局限。它需要的是一种推动力——补充或内置的规则，以帮助它对世界进行推理。

三

奥伦 · 埃齐奥尼（Oren Etzioni）经常面带微笑。他是一位计算机科学家，在西雅图经营着艾伦人工智能研究所 (Allen Institute for Artificial Intelligence)。

在他明亮的办公室里向我打招呼，领我走过一块白板，上面潦草地写着对机器智能的思考。(「定义成功」，「任务是什么？」) 在外面，年轻的人工智能研究员戴着耳机，敲击着键盘。

埃茨奥尼和他的团队正在研究常识问题。他将此定义为两个传奇的人工智能时刻——1997 年 IBM 的深蓝 (Deep Blue) 击败象棋大师加里 · 卡斯帕罗夫 (Garry Kasparov) ，以及去年 DeepMind 的 AlphaGo 击败世界顶尖围棋选手李世石。(谷歌在 2014 年收购了 DeepMind。)

「有了深蓝，当房间着火的时候，我们的程序可以做出超人一般的象棋棋步。」埃茨奥尼开玩笑说。「对吧？完全缺乏背景。快进 20 年，当房间着火的时候，我们有了一台电脑，可以下出超人一般的围棋棋步。」

当然，人类没有这个限制。如果发生火灾，人们会拉响警报，奔向大门。换句话说，人类拥有关于这个世界的基本知识 (火会烧东西) ，同时还有推理的能力 (你应该试着远离失控的火)。

为了让人工智能真正像人类一样思考，我们需要教它所有人都知道的东西，比如物理学 (抛向空中的球会落下) 或相对大小的东西 (大象无法被放进浴缸)。在人工智能拥有这些基本概念之前，埃茨奥尼认为人工智能无法进行推理。

随着保罗 · 艾伦（Paul Allen）投入了数亿美元，埃茨奥尼和他的团队正在努力开发一个常识推理层，以适应现有的神经网络。(艾伦研究所是一个非营利组织，所以他们发现的一切都将被公开，任何人都可以使用。)

他们面临的第一个问题，就是回答一个问题：什么是常识？

埃茨奥尼把它描述为我们认为理所当然，但很少大声说出的关于世界的所有知识。他和他的同事创造了一系列基准问题，一个真正理性的人工智能应该能够回答：如果我把袜子放在抽屉里，它们明天会在那里吗？如果我踩了别人的脚趾，他们会生气吗？

获取这种知识的一种方法，是从人类那里提取。埃茨奥尼的实验室正在付费给亚马逊土耳其机器人上的众包人员，以帮助他们制作常识性的陈述。

然后，研究团队会使用各种机器学习技术——一些老式的统计分析，一些深度学习的神经网络——基于这些陈述进行训练。如果他们做得对，埃茨奥尼相信他们可以生产出可重复使用的计算机推理「乐高积木」：一套能够理解文字，一套能够掌握物理知识，等等。

崔叶金 (Yejin Choi) 是埃茨奥尼团队研究常识的科学家之一，她负责了几次众包工作。在一个项目中，她想开发一种人工智能，能够理解一个人的行为，或陈述出来其隐含的意图或情感。

她首先研究了成千上万个 Wiktionary 中的在线故事、博客和习语条目，提取出「短语事件」，比如「杰夫（Jeff）把罗杰（Roger）打昏了」。然后，她会匿名记录每个短语——「X 把 Y 打昏」——并要求土耳其机器人平台上的众包人员描述 X 的意图：他们为什么这样做？

当她收集了 25000 个这样的标记句子后，她用它们训练一个机器学习系统，来分析它从未见过的句子，并推断出句子的情绪或意图。

充其量，新系统运行的时候，只有一半时间是正常的。但是当它正式运行的时候，它展示了一些非常人性化的感知：给它一句像「奥伦（Oren）做了感恩节晚餐」这样的话，它预测奥伦试图给家人留下深刻印象。

「我们也可以对其他人的反应进行推理，即使他们没有被提及，」崔说。「所以 X 的家人可能会感到印象深刻和被爱。」

她的团队建立的另一个系统使用土耳其机器人平台上的众包人员在故事中标记人们的心理状态；当给定一个新的情况时，由此产生的系统也可以得出一些「尖锐」的推论。

例如，有人告诉我，一名音乐教练对他的乐队糟糕的表演感到愤怒，并说「教练很生气，把他的椅子扔了。人工智能会预测他们会「事后感到恐惧」，尽管这个故事没有明确说明这一点。

崔叶金、埃茨奥尼和他们的同事并没有放弃深度学习。事实上，他们认为这是一个非常有用的工具。但是，他们不认为有捷径，可以说服人们明确陈述我们所有人都拥有的怪异、无形、隐含的知识。

深度学习是垃圾输入，垃圾输出。仅仅给一个神经网络提供大量新闻文章是不够的，因为它不会吸取未陈述的知识，这是作家们不愿提及的显而易见的事情。

正如崔叶金所说，「人们不会说 ‘我的房子比我大’。」为了帮助解决这个问题，她让土耳其机器人平台上的众包人员分析了 1100 个常见动词所隐含的物理关系，例如「X 扔了 Y」。这反过来又提供了一个简单的统计模型，可以用「奥伦扔了一个球」这个句子来推断球一定比奥伦小。

另一个挑战是视觉推理。阿尼鲁达 · 凯姆巴维（Aniruddha Kembhavi）是埃茨奥尼团队中的另一位人工智能科学家，他向我展示了一个在屏幕上漫步的虚拟机器人。艾伦研究所的其他科学家建造了类似模拟人生的房子，里面装满了日常用品——厨房橱柜里装满了碗碟，沙发可以随意摆放，并符合现实世界中的物理定律。

然后他们设计了这个机器人，它看起来像是一个有手臂的深灰色垃圾筒，研究人员告诉它，让它搜寻某些物品。在完成数千项任务后，这个神经网络获得了在现实生活中生活的基础。

「当你问它 ‘我有西红柿吗？它不会打开所有的橱柜。它更倾向去打开冰箱，」凯姆巴韦说。「或者，如果你说 ‘给我找我的钥匙’，它不会试图拿起电视。它会去看电视机后面。它已经知道，电视机通常不会被拿走。」

埃茨奥尼和他的同事希望这些不同的组成部分——崔叶金的语言推理、视觉思维，以及他们正在做的让人工智能掌握教科书科学信息的其他工作——最终能够结合在一起。

但是需要多长时间，最终的产品会是什么样子？他们不知道。他们正在建立的常识系统仍然会出错，有时甚至超过一半的概率。

崔叶金估计，她将需要大约一百万人工语言来训练她的各种语言解析器。建立常识似乎异乎寻常地困难。

四

制造机器还有其他合理的方式，但它们的劳动密集程度更高。例如，你可以坐下来，用手写出所有要告诉机器世界如何运作的规则。这就是道格 · 莱纳特（Doug Lenat）的 Cyc 项目的工作原理。

34 年来，莱纳特雇佣了一个工程师和哲学家团队，来编写 2500 万条常识性规则，比如 “「水是湿的」或者「大多数人都知道他们朋友的名字」。这让 Cyc 能够推断：「如果你的衬衫湿了，所以你可能是在雨中。」优势在于，莱纳特能够精确地控制输入 Cyc 数据库的内容; 而众包知识并非如此。

这种由粗暴的手动行为做出来的人工智能，在深度学习的世界中已经变得不流行。这在一定程度上是因为它可能「脆弱」：如果没有正确的世界规则，人工智能可能会陷入困境。这就是程式化的聊天机器人如此「智障」的原因；如果如果没有明确告诉它们如何回答一个问题，它们没有办法推理出来。

Cyc 的能力比聊天机器人更强，并且已经经过批准，可以用于医疗保健系统、金融服务和军事项目。但是这项工作进展非常缓慢，而且耗资巨大。莱纳特说开发 Cyc 花费了大约 2 亿美元。

但是，一点一点地进行手工编程可能只是复制一些固有的知识，根据乔姆斯基（Chomskyite）的观点，这是人类大脑拥有的知识。

这就是迪利普 · 乔治和研究人员对 Breakout 所做的事情。为了创造一个不会面对游戏布局变化而变「智障」的人工智能，他们放弃了深入学习，建立了一个包含硬编码基本假设的系统。

乔治告诉我，他们的人工智能不费吹灰之力就学会了「物体是存在的，物体之间有相互作用，一个物体的运动与其和其他物体之间的碰撞有因果关系。」

在 Breakout 中，这套系统发展出了衡量不同行动过程及其可能结果的能力。但这也起到了相反的作用。如果人工智能想要打破屏幕最左上角的一个砖块，它会理性地将平板放在最右边的角落。

这意味着，当 Vicarious 改变游戏的规则时——添加新砖块或提升平板——系统会得到补偿。它似乎抓住了一些关于 Breakout 本身的通用性理解。

显然，这种人工智能在工程中存在权衡。可以说，精心设计和仔细规划，以精确找出将什么预先设定的逻辑输入到系统中，是一个更艰苦的工作。在设计一个新系统时，很难在速度和精度之间取得恰当的平衡。

乔治说，他寻找最小的数据集「放入模型，以便它能够快速学习。」你需要的假设越少，机器做决策的效率就越高。

一旦你训练了一个深度学习模型来识别猫，你就可以给它看一只它从未见过的俄罗斯蓝猫，然后它就会立刻给出结论——这是一只猫。在处理了数百万张照片之后，它不仅知道是什么让一只猫变成了猫，还知道识别一只猫的最快方法。

相比之下，Vicarious 的人工智能速度较慢，因为随着时间的推移，它会主动地做出逻辑推论。当 Vicarious 的人工智能运行良好时，它可以从更少的数据中学习。乔治的团队通过识别扭曲的字体形象，创造一种人工智能来突破神经网络上「我不是机器人」的障碍。

就像 Breakout 系统一样，他们预先给人工智能赋予了一些能力，比如帮助它识别字符的知识。随着引导就位，他们只需要在人工智能学会以 90.4 % 的准确率破解验证码之前，在 260 张图像上训练人工智能。相比之下，神经网络需要在超过 230 万张图像上训练，才能破解验证码。

其他人，正在以不同的方式将常识般的结构构建到神经网络中。例如，DeepMind 的两名研究人员最近创建了一个混合系统：部分是深度学习，部分是更传统的技术。他们将这个系统称为归纳逻辑编程。目标是创造出能够进行数学推理的东西。

表面繁荣之下，人工智能的发展已陷入困境

正文

一

二

三

四

请到「今天看啥」查看全文