选自arXiv
作者:Peng Peng等
机器之心编译
参与:李泽南
在围棋和德州扑克后,RTS 游戏《星际争霸》已经成为人工智能研究者们征服的下一个目标。近日,来自阿里巴巴和伦敦大学学院(UCL)的研究者们发表了一项新研究,他们宣称人工智能控制的多个游戏单位在无监督学习的情况下已经可以发展出类似于人类玩家的战术。这种协同多个人工智能体新方法或许可以为研究者们带来启示,
点击阅读原文可下载该论文。
过去十年里,人工智能技术有了突飞猛进的发展。在有监督学习的情况下,机器已经可以展现达到甚至超越人类认知水平的
图像识别
和
语音识别
能力。而在指定奖励目标后,单体人工智能(即智能体,agent)在
Atari 游戏
、
围棋
和
德州扑克
等项目上也打败了人类最强选手。
然而,人类智慧很大一部分在于社会和集体智慧,这也是实现通用人工智能的基础。人工智能的下一大挑战在于让不同智能体实现合作与竞争。对于研究者而言,经典即时战略游戏(RTS)《星际争霸》是进行此类实验的绝佳实验环境。在游戏中,每个玩家都需要控制不同的兵种,在不同的地形条件下与对手展开斗争。《星际争霸》系列游戏因为变化的多样性,对人工智能而言比围棋更加复杂,
引起了 DeepMind 等公司和研究机构的兴趣
。同时,这种大型多智能体系统的协同学习面临着计算性能的限制——参数空间会随着涉及智能体数量的增多而呈指数性增长,这意味着任何联合学习的方式都是无效的。
在本研究中,来自阿里巴巴和 UCL 的研究者们把多智能体星际争霸战斗任务设定为零和随机游戏。不同智能体通过新提出的双向协调网络(BiCNet)来相互交流,而学习是通过评估-决策方式来完成的。此外,研究者们还提出了共享参数与动态分组的概念,以解决扩展性的问题。
论文:
Multiagent Bidirectionally-Coordinated Nets for Learning to Play StarCraft Combat Games
摘要
现实世界的人工智能(AI)应用通常需要多个智能体协同工作。人工智能体之间有效的沟通和协调是迈向通用人工智能不可或缺的一步。在本论文中,我们以 RTS 游戏《星际争霸》为测试场景,设定任务为多个智能体互相协作试图击败敌人。为了保证沟通方式有效且可扩展,我们引入了多智能体双向协调网络(BiCNet),它具有向量化扩展评价器(actor-critic)形式。我们验证了 BiCNet 可以协调不同兵种,在不同的场景和两方智能体数量任意的情况下正常工作。我们的分析证明,在没有手动标记数据进行监督学习的情况下,BiCNet 可以学会多种有经验的人类玩家展示出的协调策略。而且,BiCNet 能够轻松适应异构智能体任务。在实验中,我们在不同的场景下用我们的新方法与不同的基准进行了对比;BiCNet 展现出了最先进的性能,它具有在现实世界大规模应用的潜在价值。