专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
航空工业  ·  中航工业党组领导到相关单位开展调研工作 ·  13 小时前  
航空工业  ·  国产载人飞艇新突破! ... ·  2 天前  
航空工业  ·  奉剑海天 “新”火相传 | ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

SwarmBrain:通过LLM实现实时战略游戏星际争霸II的具身智体

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-02-12 10:17

正文

24年1月BMW的论文“SwarmBrain: embodied agent for real-time strategy game starcraft ii via large language models”。

SwarmBrain是一种在《星际争霸II》中利用LLM实现实时战略的嵌入式智体。SwarmBrain由两个关键组成部分组成:1)Overmind 智能矩阵由LLM提供支持,旨在从高层角度协调宏观战略。这个矩阵模拟虫族(Zerg)智能大脑的总体意识,综合了战略远见,目的是分配资源、指挥扩张和协调多管齐下的攻击。2) Swarm ReflexNet,它与Overmind 智能矩阵的谨慎计算相对应。由于LLM推理中固有的延迟,Swarm ReflexNet采用了条件响应状态机框架,能够为基本Zerg单元机动提供快速的战术响应。

实验中SwarmBrain控制着Zerg与计算机控制的人族(Terran)对手进行对抗。实验结果表明,SwarmBrain有能力进行经济扩张、领土扩张和战术制定,并表明SwarmBraine有能力在不同难度的电脑玩家面前取得胜利。

暴雪娱乐公司(Blizzard Entertainment)于2010年推出的《星际争霸II》是一款实时战略(RTS)游戏,在游戏界引起了极大的关注。标准游戏比赛的参与者有机会参与战略比赛,同时扮演三个不同种族之一的角色:人族(Terran)、虫族(Zerg)和神族(Protoss)。

《星际争霸II》独特的游戏机制和复杂的战略深度使其成为AI发展的强大实验平台,使其成为技术和AI研究领域相当感兴趣的主题。普通玩家通常保持每分钟动作数(APM)100左右,而更高级的玩家则达到200以上。激烈游戏中玩家APM至300-400并不罕见,相当于每秒5~6个命令。最先进的LLM处理中固有的延迟阻碍了它们在竞争性的《星际争霸II》等高度时间敏感的环境中的直接应用,因此需要新方法来调整这些模型,跟上游戏的紧迫性。

如图所示是SwarmBrain和星际争霸II环境之间的相互作用。环境观测通过python-s2API接口获取,该接口将游戏状态信息导入Overmind 智能矩阵和Swarm ReflexNet。由于所获得的游戏状态信息包含全面而复杂的游戏内状态信息,因此“选择性提取”功能仅收集相关数据。随后,这些提取的数据经过一系列数学计算,提取必要的参数。生成的精炼信息随后被封装到自然语言中,作为Overmind 智能矩阵的输入。Overmind智能矩阵基于LLM,处理自然语言数据,为Swarm ReflexNet制定战略指令。Swarm ReflexNet反过来利用这些观测信息为虫族(Zerg)单元执行类似条件反射的基本决策。

如图所示是Overmind 智能矩阵的总体框架。 它被设想为一个复合系统,包括四个不同但相互关联的组成部分: Overmind大脑 、基于文本记忆系统、SC2大脑和命令中心。 每个组件都设计有专门的功能,使矩阵能够进行高维度的战略操作。

以下讨论Swarm ReflexNet的状态机示例,其特征是具有代表性的虫族单位,如无人机(Drone)、霸王( Overlord )和虫灵( Zergling )。

如图所示,当面对不同的场景时,Drone的状态转换。Drone有三种不同的状态:Gather(默认)状态、Attack状态和Flee状态。这些状态在三个特定条件下是可互换的——条件A()、条件G()和条件F()。

与Drone相比,OverLord的状态转换明显更简单,其实现是《星际争霸II》框架固有的。 OverLord的状态机由两个主要状态组成: Idle状态(默认)和Flee状态,这两个状态由两个特定条件控制: 条件F()和条件I()。

对于Zerg的主要进攻单元,如Zergling、Roach、Hydralisk等,Zerg战斗单位的状态转换图有相似之处。







请到「今天看啥」查看全文