阿里巴巴认知计算实验室与伦敦大学学院计算机系合作,以游戏“星际争霸1”(下简称“星际”)中的微观战斗场景为测试环境,深入地研究了多个 AI 智能体之间的协作问题,旨在通过协作智能解决人类不擅长的问题。该研究引入的多智能体双向协调网络(BiCNet )可以自动学习各种最佳策略来使多个智能体协同作战,从无碰撞移动到基本的攻击和逃跑策略,再到复杂的掩护攻击和集中火力攻击。该研究所用的方法优于目前已有的最先进方法,多智能体协作完成复杂任务,显示出了在现实世界中电商、游戏、健康医疗等智能决策领域的广泛应用前景。
这篇论文以星际作为测试场景,其任务是协调多个智能体作为一个团队来打败他们的敌人。为了保持可扩展但有效的通信协议,该研究引入了一个多智能体双向协调网络(BiCNet ['bIknet]),其具有 actor-critic 表达的向量化扩展。可以看出,在交战双方都有任意数量的 AI 智能体时,BiCNet 可以处理不同地形下的不同类型的战斗。分析表明,如果没有任何诸如人类示范或标签数据的监管,BiCNet 可以学习与经验丰富的游戏玩家相似的各种类型的合作策略。此外,BiCNet 很容易适应异构智能体的任务。在实验中,研究者根据不同的场景、以多个基线为参照对方法进行了评估。它展示了最先进的性能,并且具有大规模现实世界应用的潜在价值。
原文链接:
http://mp.weixin.qq.com/s/TY1hiUINy72f5-mJ_aHTlg