牛津大学研究展示：人类与AI合作对抗星际争霸机器人

夏一可死毒舌 · 公众号 · 娱乐 · 2017-05-12 22:22

正文

以下内容转自 查尔星港

昨日，在“The AI Summit”人工智能峰会伦敦微软站的现场，牛津大学的机器人学习研究小组带来了他们的成果展示：人类玩家与AI合作，在《星际争霸》游戏中共同对抗敌对势力机器人。

展示分为兵种模式与经典模式，在兵种模式的展示中，玩家可控制一个神族龙骑士与一个狂热者，AI控制的单位与玩家相同，而敌方机器人也控制着同数量的部队。在过程中，AI控制的龙骑可以对玩家的走A路线进行最优化分析，从而帮助玩家进行共同集火与配合走位，当玩家的龙骑残血后拉时，AI控制的狂热者还可以对敌方的追击龙骑进行卡位以及秒残血。

而经典流程就是星际争霸整套流程的采矿，建筑，造兵，进攻，在期间你可以体会到AI化身“神队友”的各种助攻。

该实验是由怀特森研究实验室与牛津工程部博士生的合作项目，他们将星际争霸作为一个Multi-Agent系统①实验平台，研究开发和测试多智能体分层强化学习②的新方法。本次项目是基于开源的平台TorchCraft③，它在星际争霸与深度学习环境Torch之间架起了一道互动桥梁。

牛津大学本次展出成果后将计划公布他们的代码库，同时将论文提交给NIPS④。与其他用星际争霸来研究人工智能的机构不同的是，牛津团队将会把他们的研究方向着重放在分散执行上，这也就意味着，在游戏中根据地形与局势的不同，每个单位AI都会有自己独立的思想、判断再到最终的行动。目前，牛津团队已经可以将项目转移到微软Azure上，这为他们扩大研究数量与范围提供了保证。

许多现实世界的问题，如网络数据回路和城市交通控制，这些都是多智能体分层强化学习（RL）的研究范围。然而由于在星际争霸中，Agent所处的环境变化规律较大，使得它不符合经验回放⑤的兼容。然而本次牛津团队解决了这个问题，在星际争霸的兵种微观单位实验中，证实了经验回放与多智能体系统强化学习（multi-agent RL）可以成功结合。