量子位 | 舒石 发自 LZYY
未来是我们的,也是你们的,但归根结底可能是AI的。
从简单常规的交通灯,到复杂如国家经济体系,也许不需要多少年之后,人类社会的方方面面都可以借助人工智能进行部分或者全部的控制。人类在畅想未来科技进步的同时,回顾自身的发展历史进程,不禁产生了一个疑问:
这么多AI在一起,能和睦相处么?如果两个AI的目标不一致,它们会斗争还是协作?
Google旗下人工智能公司、AlphaGo的创造者DeepMind,最近就发起了一场“挑动AI斗AI”的试验:把AI们放置到几个“囚徒困境”一般的局面中,看它们如何相处。在这种困境中,自私可以获益,但每个人都自私,大家最终什么也得不到。
具体怎么测试?Google的意见只有一条:要文斗不要武斗。于是DeepMind眉头一皱,想出一个在虚拟游戏世界测试的主意来。
第一个游戏是《Gathering》,屏幕中央堆积着绿色的苹果,一红一蓝两个玩家要比拼谁能更快更多的收集到苹果。一个玩家可以选择使用激光束发起攻击,这样就能暂时把另一个玩家暂时冻结,从而可以趁机收获更多的苹果。
第二个游戏是《Wolfpack》,两个红色玩家需要在充满障碍的环境中围猎第三个蓝色方块。这个游戏并不是先捉到蓝色方块就能得分,而是必须等到两个玩家都在猎物附近时,捉到蓝色方块才能得分。
最后的结论是:AI是会变的,也可能更好斗,也可能更合作。
例如,在《Gathering》游戏中,当苹果供应充足时,AI玩家们并不会用激光攻击彼此,但是当苹果存量减少,AI之间相互冻结的情况立刻增加。最有趣的是,当一个更强大的AI引入游戏中,它更倾向于冻结其他AI,无论有多少苹果。
也就是说,更聪明的AI在任何情况下都是具有侵略性的。
这是否意味着,AI们以“阶级斗争为纲”?其实也不一定。专家猜测在《Gathering》中,追踪对手的行踪并启用激光冻结,需要额外消耗算力,并占用收集苹果的时间。所以只有更高级的AI才能从更复杂的策略中获得回报,不然相安无事最好。
而在《Wolfpack》中,AI玩家越聪明,越知道合作才能共赢。原因同上,学习与其他AI合作进行追踪和围猎,需要消耗更多的计算能力。
进一步补充下结论:AI可能会更好斗,可能会合作,取决于是否获利最大化。
这个结论意味着,AI的行为会随着规则的变化而变化。DeepMind的专家表示,这个试验表明,现代的人工智能技术(深度多代理强化学习),可以应用于解释社会科学中古老的问题,例如“合作”这种行为出现的奥秘。
专家认为经过训练的人工智能,和经济学理论中的“经纪人”很相似。基于这个实验结果,可以更好地理解和控制多个AI同时存在的复杂系统。
还有篇论文
DeepMind为此还发了一篇论文,题目叫《连续社会困境中的多代理强化学习》。点击左下角“阅读原文”,直接把您传送到这篇论文上。
△ 扫码强行关注『量子位』
追踪人工智能领域最劲内容