来源:品玩(wepingwest)
不管终极目标能否实现,至少今天,在像人类一样学习的道路上,机器又往前迈了一步。
你一定知道,AI 在下围棋上已经比人类厉害了。
不过,绝大多数在完成特定任务上性能卓越的 AI,实际上只是面向单一任务进行训练出来的而已,如果一个 AI 的任务是下棋,它就只会一步一步下棋,你要是突然问他“怎么下才能赢?”它根本不知道,八成会宕机。
这就是你暂时不需要担心 AI 终结人类的原因:它不会举一反三,没法解决一些在认知上跨度比较大的任务。
举个例子,在《坦克大战》里,胜利的方式是尽量保存更多的砖块,吃掉增益,击毁所有的敌方坦克,一个正常的人类玩家可能玩上一两盘就明白了,而 AI 可能会把所有的砖块全都打掉,输掉成千上万盘游戏才能迎来第一盘胜利。
人很容易理解“保存砖块只打坦克”这句话,但 AI 理解不了,它只会玩游戏,不会听话。
想要实现强人工智能,甚至通用人工智能,这个问题迟早有一天要解决。PingWest品玩发现,近日百度发布的一篇论文显示,该公司搭建了一个 AI 系统,组合了计算机视觉和自然语言处理两种技术,让 AI 学会了“举一反三”:
在一个专门架设的游戏环境中,AI 控制的角色可以理解并执行过去从未发出,也从未定义过的指令,且成功率达到了 90%。
研究团队由深度学习研究院杰出科学家徐伟带领,采用的是监督学习和强化学习所组合的深度学习技术。
研究人员设计了很简单的游戏场景 XWORLD,在一个 8 x 8 的游戏空间,AI 控制一个主角,一些砖块和可以“吃”的水果,位置均随机。
他们采用的训练房室很简单,1)直接给出一句自然语言指令,比如“请前往苹果的位置”,然后根据 AI 的行为奖罚;2)用自然语言向 AI 发问,比如“在北边的水果是什么?”根据答案正确与否奖罚。
至于地图什么情况、哪些是砖块哪些是水果、北是什么方向、苹果长啥样,AI 则是采用计算机视觉来进行判断的。
很快研究人员就发现,AI 不需要以往那么多的训练次数,就可以实现举一反三,准确地执行一些从未听过的新指令,比如“请去到无花果的西边”、“你可以去苹果和香蕉的中间吗?”、“请移动到红色/绿色的苹果”,以及回答非指令问题,比如“靠南的水果是什么”(西瓜)。
如果你已经学会了怎样用水果刀削苹果,那你几乎不需要指导也能用水果刀削梨和火龙果。
其实这就是举一反三,因为通过将感官获得的资讯进行认知整合(特别是语言方面),从而实现知识和经验的迁移,对于人类而言是一件特别容易的事情。
但在过去计算机一直无法实现,除非人类对“反三”中每一种可能出现的状况都预先编程。
在徐伟团队论文描述的实验中,AI 系统能够从训练指令中学习语法,处理和回答新的指令、问题,意味着计算机终于首次在某种特定的环境下获得了举一反三的能力。
机器学习中,这种能力的术语叫做“零样本学习”(zero-shot learning ability)。
对于这项技术,接下来百度还有新的打算。除了让 AI 在 XWORLD 环境里增加新的功能,理解更多、更复杂的指令之外,徐伟团队还打算将它迁移到虚拟的三维空间中进行训练,最终极目标则是在实际环境中,让人类教师用自然语言来训练机器人。
不管终极目标能否实现,至少今天,在像人类一样学习的道路上,机器又往前迈了一步。
编辑:任芳言