专栏名称: 无人争锋

欢迎来到无人争锋，我们专注无人领域前沿科技资讯，如果你不想错过更新，可置顶，别担心，我们不恐高。 “无人争锋”公众号为远望智库旗下前沿资讯媒体。

是游戏更是对未来战争的演练，从《星际争霸》看未来自主作战决策技术

无人争锋 · 公众号 · · 2021-05-13 20:32

正文

电话 | 010-82030532 手机 | 18501361766

微信 | tech99999 邮箱 | [email protected]

转自：科技导报

作者：黄彬城，陈思，高放，葛建军，吴雪玲

游戏不仅仅是游戏，更是对未来战争的演练，大型战争游戏由于具有安全、经济和可定制等特点，适合作为自主作战决策技术发展的孵化器。

《星际争霸》游戏对于研究未来作战自主决策技术有重要参考价值，本文分析了《星际争霸》战略、战术决策算法中面临的规划、学习以及不确定性等热点问题。

讨论了未来作战自主决策技术面临的瓶颈问题，并提出以打造大型战争游戏为手段，从关键技术出发，试图指出未来作战自主决策技术发展着力点，为自主决策系统的智能化技术开发和研究提供研究思路和理论基础。

人工智能技术的发展给未来军事战争样式带来了革命性影响，无人化、智能化平台的大量使用，给传统作战决策理念带来了方式创新。

未来作战自主决策技术是关键，“知识”的较量已成为战争主角，其本质就是决策算法之间的较量。

在当前阶段，各类游戏依然是训练和验证智能决策技术的绝佳平台。不仅因为其对未来战争模拟程度非常之高，更重要的是蕴含了当下人工智能在认知决策层面还没有很好解决的问题，对于未来群体智能研究将具有重要意义。

《星际争霸》分析

《星际争霸》是暴风雪游戏公司在1998年开发的一款即时策略性大型战争游戏，主要通过在不同的地图条件下，由多名人类玩家控制3种角色，利用装备、资源以及士兵数量，以摧毁敌方大量战争资源为目的的高强度博弈对抗行为。

《星际争霸》决策算法

战略和战术决策是实时战略游戏的两个关键方面，优秀的战略决策能帮助我方部队采集更多的资源、建立更多的战斗单位，而良好的战术决策能帮助我方部队在小规模战斗中赢得主动。

1、战略决策算法

1）基于案例的决策算法

基于案例的决策算法是将当前状态与历史案例数据进行比对，找到适合于当前状态的最优规划结果，如何降低计算空间的复杂性是主要的研究热点问题之一。

2）分层规划决策算法

分层规划决策方法可以在不同抽象程度下单独处理子状态空间的规划问题，子目标的规划结果可以从宏观目标到微观动作规划，并能很好地映射到全局规划结果中，通常与其他方法结合使用，分层任务网络结构构建是当前研究热点之一。

3）目标驱动决策算法

目标驱动决策算法是根据智能体的任务目标及周围环境变化，构建定量变化关系模型，只能通过手动赋值完成系统初始化。发生意外情况时，系统不但可以记录异常状态，还能做出反馈调整。

将基于案例规划法与强化学习结合，可以实现系统目标和领域知识的动态变化，如果领域知识发生变化，系统也会自动适应，但若领域知识过于简单，该方法的准确性不如目标驱动决策算法。

2、战术决策算法

1）典型战术决策算法

典型的战术决策算法研究对象可以分为己方和敌方两方面。其中敌方研究较少，仅以经济状况建模方法以及对手策略预测为主，而己方研究成果较为丰富，涵盖了协同编队控制、协同攻击决策、整体对抗策略生成以及智能体快速运动控制等方面。

编队控制结构示意

当前对敌方的研究较少，主要集中在对敌方经济状况预测以及敌方策略预测两方面。

对于时间维度，研究重点逐步从己方的决策控制问题向敌方策略预测过渡；从研究对象上，小规模同构智能体向大规模异构智能体过渡。对于混合异构智能体、大规模场景，特别是对不完全信息条件下的自主决策研究较少。

2）建造顺序预测算法

建造顺序是决定战争成败的核心因素，与己方经济发展速度、应对敌方战术袭扰密切相关，包括建筑物种类、建造数量以及建造位置三个方面，从研究方法上可以分为利用比赛录像和算法开发。

可以使用比赛录像来预测对手，并决定实际比赛中的我方建造顺序，结果显示该方法能够准确预测对手策略。

3）反应控制决策算法

反应控制是指利用不同算法对作战单元实现移动、攻击、侦察、撤退功能，在算法层面，主要有基因算法、蒙特卡罗算法、势流法、贝叶斯法和强化学习。

在作战单元移动方面，根据敌方目标的数量和类型，可使用势流法实现对作战单元的编队控制。

在作战单元攻击方面，可简化为多目标连续优化问题，构建仿真作战单元环境，使用基因算法控制作战单元实现最大化攻击和最小化伤害，依据环境条件选择合适的动作行为。

强化学习技术可使作战单元能够根据敌方的行为做出相应决策，研究发现作战单元能够在不同的游戏阶段做出最佳决策，但该方法仅适合特定场景下的决策。

在侦察方面，根据敌方目标的数量和类型，使用势流法对作战单元进行编队控制。

未来战争制智权的夺取，决策算法是关键。《星际争霸》与实际作战过程比较接近，是未来战争决策算法的孵化器。

通过分析对《星际争霸》算法研究，对于搞清多智能体博弈对抗决策机理，以及未来作战自主决策具有重要意义。然而，除去算法本身之外，未来作战自主决策技术的落地应用，仍然面临一些挑战。

未来作战自主决策技术面临的挑战

未来作战自主决策技术AI 复杂度分析

AI算法模型对样本数量和复杂度具有强烈的依赖性，学习对象越复杂，对样本数量要求也越高，如果要考虑攻击类型、能源以及科技研发等因素，那么复杂度会更高。

与《星际争霸》相比，真实战场的复杂度要高出多个数量级：作战单元种类和数量更多；作战单元行为控制更加复杂，作战单元往往需要设定大量的控制参数完成；作战域更加复杂，真实作战域已扩展为海、陆、空、天、网、电磁以及意识域；评价标准更为复杂。

未来作战自主决策技术可以尝试“分布式解决”模式，分解为具体的子问题，针对每个子问题运用对抗网络、模仿学习以及元学习等手段进行策略求解，最后将各个子策略进行集成。

未来作战自主决策技术瓶颈问题

1）缺乏足够的领域知识和样本数据

战场样本数据通常是指在实际作战、演习训练以及仿真过程中，产生的情报、通信以及作业数据等，需要清洗加工和标注标签等工序才能够用在学习模型中。样本质量包括数据本身的好坏及数据标签的准确性。

当前自动化标注方法面对战场纷繁复杂的态势信息灵活性不强，且数据的产生主要依靠演习训练和仿真试验，战术对抗激烈程度和灵活程度以及装备使用程度均不如实战。

2）缺乏科学的验证评价技术手段

模型通常需要使用大量的数据，但现阶段无法实现将模型放在实际战场中去测试。目前针对未来作战自主决策技术的效果验证，缺乏统一的量化指标和标准，即便面对实际场景，也很难有统一的量化衡量标准。

3）缺少多学科融合人才

在未来作战自主决策技术场景下，精通军事作战理论、熟悉装备性能、明确交战规则的领域专家，与掌握机器学习模型算法、强化学习训练技巧、深度学习网络构建经验的AI技术专家相结合，才能找到切入点和发力点，真正发挥未来作战自主决策技术效能。

基于大型战争游戏的

未来作战自主决策技术发展着力点

本质上，未来作战自主决策技术的瓶颈问题是“人”和“物”的矛盾关系。缺乏军事决策技术领域与人工智能算法跨领域专家，这个“人”，以及可以有效训练学习模型数据，这个“物”。

未来作战自主决策技术智能系统架构

未来作战自主决策技术智能系统架构主要由未来作战自主决策技术智能系统和作战单元两部分构成，两者相互配合、相互协同，前者发出决策指令，后者执行并将执行效果进行反馈。

未来作战自主决策技术架构

未来作战自主决策系统基本运行原理是通过对复杂战场环境进行建模，将战场资源虚拟化，构建虚拟-现实的实时映射关系。

根据战场实际态势，并基于构建的虚拟化战场模型，得到适合于当前战场情况下有利于我方的作战决策行为，其中虚拟资源构建的真实程度直接决定了智能AI模型的计算准确程度。

未来作战自主决策技术大型战争游戏AI虚拟建模技术

当前诸多大型战争游戏建模技术已较为成熟，具备精细化建模的能力，但与实战应用还有相当距离：缺乏包含作战规则、裁决模型等决定实际战争效果的军事应用规则模型的嵌入；缺乏仿真模型与实际战场环境的交互能力。

从担负的任务和规模看，可将未来作战自主决策技术分为战术级、战区级、战略级3个层次。

可从战术级入手，在当前游戏建模技术基础上，从作战概念模型和推演模型体系两方面搭建适合于仿真推演的虚拟模型。

未来作战自主决策技术大型战争游戏推演引擎技术

对于战争游戏引擎而言，更重要的是应从设计理念、引擎模式、应用方式3方面进行技术研发。

设计理念是指一款战争游戏涵盖不了战争的方方面面，要求以聚焦作战概念为核心，针对当前引擎架构设计基本方法，突出显示需要修改开发的地方，支持作战概念，设计开发战争游戏引擎。

引擎模式可以分为人在回路和人不在回路两种，前者是指作战人员可以指挥各个单元以及战场态势，在线实时修改游戏模型，后者指整个游戏推演过程完全由AI模型自主完成。

应用方式是指战争游戏引擎可以支持调试运行模式，根据指战员训练、推演以及实战需要，根据战场全局的某个片段、某个子任务进行重复调用、重复训练指挥。

未来作战自主决策技术大型战争游戏推演引擎技术逻辑框架

是游戏更是对未来战争的演练，从《星际争霸》看未来自主作战决策技术

正文

请到「今天看啥」查看全文