百度的 AI 学会了举一反三，离强人工智能又近了一步

百度百家号精选 · 公众号 · 内容分发 · 2017-04-01 07:56

正文

来源：品玩（wepingwest）

不管终极目标能否实现，至少今天，在像人类一样学习的道路上，机器又往前迈了一步。

你一定知道，AI 在下围棋上已经比人类厉害了。

不过，绝大多数在完成特定任务上性能卓越的 AI，实际上只是面向单一任务进行训练出来的而已，如果一个 AI 的任务是下棋，它就只会一步一步下棋，你要是突然问他“怎么下才能赢？”它根本不知道，八成会宕机。

这就是你暂时不需要担心 AI 终结人类的原因：它不会举一反三，没法解决一些在认知上跨度比较大的任务。

举个例子，在《坦克大战》里，胜利的方式是尽量保存更多的砖块，吃掉增益，击毁所有的敌方坦克，一个正常的人类玩家可能玩上一两盘就明白了，而 AI 可能会把所有的砖块全都打掉，输掉成千上万盘游戏才能迎来第一盘胜利。

人很容易理解“保存砖块只打坦克”这句话，但 AI 理解不了，它只会玩游戏，不会听话。

想要实现强人工智能，甚至通用人工智能，这个问题迟早有一天要解决。PingWest品玩发现，近日百度发布的一篇论文显示，该公司搭建了一个 AI 系统，组合了计算机视觉和自然语言处理两种技术，让 AI 学会了“举一反三”：

在一个专门架设的游戏环境中，AI 控制的角色可以理解并执行过去从未发出，也从未定义过的指令，且成功率达到了 90%。

研究团队由深度学习研究院杰出科学家徐伟带领，采用的是监督学习和强化学习所组合的深度学习技术。

研究人员设计了很简单的游戏场景 XWORLD，在一个 8 x 8 的游戏空间，AI 控制一个主角，一些砖块和可以“吃”的水果，位置均随机。

他们采用的训练房室很简单，1）直接给出一句自然语言指令，比如“请前往苹果的位置”，然后根据 AI 的行为奖罚；2）用自然语言向 AI 发问，比如“在北边的水果是什么？”根据答案正确与否奖罚。

至于地图什么情况、哪些是砖块哪些是水果、北是什么方向、苹果长啥样，AI 则是采用计算机视觉来进行判断的。

很快研究人员就发现，AI 不需要以往那么多的训练次数，就可以实现举一反三，准确地执行一些从未听过的新指令，比如“请去到无花果的西边”、“你可以去苹果和香蕉的中间吗？”、“请移动到红色/绿色的苹果”，以及回答非指令问题，比如“靠南的水果是什么”（西瓜）。

如果你已经学会了怎样用水果刀削苹果，那你几乎不需要指导也能用水果刀削梨和火龙果。

其实这就是举一反三，因为通过将感官获得的资讯进行认知整合（特别是语言方面），从而实现知识和经验的迁移，对于人类而言是一件特别容易的事情。

但在过去计算机一直无法实现，除非人类对“反三”中每一种可能出现的状况都预先编程。

在徐伟团队论文描述的实验中，AI 系统能够从训练指令中学习语法，处理和回答新的指令、问题，意味着计算机终于首次在某种特定的环境下获得了举一反三的能力。

机器学习中，这种能力的术语叫做“零样本学习”(zero-shot learning ability)。

对于这项技术，接下来百度还有新的打算。除了让 AI 在 XWORLD 环境里增加新的功能，理解更多、更复杂的指令之外，徐伟团队还打算将它迁移到虚拟的三维空间中进行训练，最终极目标则是在实际环境中，让人类教师用自然语言来训练机器人。

不管终极目标能否实现，至少今天，在像人类一样学习的道路上，机器又往前迈了一步。

编辑：任芳言