以下内容转自 查尔星港
昨日,在“The AI Summit”人工智能峰会伦敦微软站的现场,牛津大学的机器人学习研究小组带来了他们的成果展示:人类玩家与AI合作,在《星际争霸》游戏中共同对抗敌对势力机器人。
展示分为兵种模式与经典模式,在兵种模式的展示中,玩家可控制一个神族龙骑士与一个狂热者,AI控制的单位与玩家相同,而敌方机器人也控制着同数量的部队。在过程中,AI控制的龙骑可以对玩家的走A路线进行最优化分析,从而帮助玩家进行共同集火与配合走位,当玩家的龙骑残血后拉时,AI控制的狂热者还可以对敌方的追击龙骑进行卡位以及秒残血。
而经典流程就是星际争霸整套流程的采矿,建筑,造兵,进攻,在期间你可以体会到AI化身“神队友”的各种助攻。
该实验是由怀特森研究实验室与牛津工程部博士生的合作项目,他们将星际争霸作为一个Multi-Agent系统①实验平台,研究开发和测试多智能体分层强化学习②的新方法。本次项目是基于开源的平台TorchCraft③,它在星际争霸与深度学习环境Torch之间架起了一道互动桥梁。
牛津大学本次展出成果后将计划公布他们的代码库,同时将论文提交给NIPS④。与其他用星际争霸来研究人工智能的机构不同的是,牛津团队将会把他们的研究方向着重放在分散执行上,这也就意味着,在游戏中根据地形与局势的不同,每个单位AI都会有自己独立的思想、判断再到最终的行动。目前,牛津团队已经可以将项目转移到微软Azure上,这为他们扩大研究数量与范围提供了保证。
许多现实世界的问题,如网络数据回路和城市交通控制,这些都是多智能体分层强化学习(RL)的研究范围。然而由于在星际争霸中,Agent所处的环境变化规律较大,使得它不符合经验回放⑤的兼容。然而本次牛津团队解决了这个问题,在星际争霸的兵种微观单位实验中,证实了经验回放与多智能体系统强化学习(multi-agent RL)可以成功结合。
注解:
①Multi-Agent系统:是多个Agent组成的集合,其多个Agent成员之间相互协调,相互服务,共同完成一个任务。它的目标是将大而复杂的系统建设成小的、彼此互相通信和协调的,易于管理的系统。
②强化学习(Reinforcement learning)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
③TorchCraft:这是一个能让深度学习在即时战略类游戏(RTS)上进行研究的库,比如星际争霸 Brood War。通过从机器学习框架控制这些游戏从而使玩游戏变得更简单。
④NIPS:神经信息处理系统大会(Conference and Workshop on Neural Information Processing Systems),简称NIPS,是一个关于机器学习和计算神经科学的国际会议。
⑤经验回放:反复使用经验的方法叫经验回放,通过经验回放,Agent可以记住过去的经验并反复提供学习算法,从过去的策略中学习。目的可以一:加速学习过程;二:使Agent有有机会更新以前学过的东西。