专栏名称: 产业智能官

用新一代技术+商业操作系统（AI-CPS OS：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

【强化学习】Open AI躲猫猫大战！3.8亿次游戏后，AI自创了新套路

产业智能官 · 公众号 · · 2019-10-16 06:05

正文

新智元报道

来源：venturebeat、OpenAI

【新智元导读】 OpenAI发表的新研究表明，一群AI智能体在虚拟环境中玩躲猫猫，能够自创出越来越复杂的作战策略，证明简单的游戏规则、多智能体竞争和标准的大规模强化学习算法可以刺激智能体在没有监督的情况下学习复杂的策略和技能。

每个小孩都玩过躲猫猫游戏，如果让一群AI来玩躲猫猫，会发生什么呢？

OpenAI近日发表的新研究表明，一群AI智能体在虚拟环境中玩躲猫猫，学会了越来越复杂的相互躲藏和寻找的策略。

在2500万场捉迷藏游戏后，AI智能体们掌握了四种基本的游戏策略。这是研究人员预料到的。

在总共3.8亿场捉迷藏游戏后，AI智能体们开发出了研究人员想不到在游戏环境中可能存在的策略——这是AI自己创造的 。这一点让OpenAI的团队感到十分惊讶。

AI通过强化学习来学习这一切。在这种学习方法中，AI智能体从随机行动开始。有时，这些随机的行为会产生预期的结果，并为它们带来奖励。通过大量的反复试验，他们可以学会复杂的策略。

在游戏环境中，这个反复试验的过程可以通过让AI自我对战来进行，以确保对手能够势均力敌。在这个过程中，任何出现的新策略都会迫使对手寻找对策。随着时间的推移，这种“自我游戏”相当于研究人员所说的“自主课程”(auto-curriculum)。

OpenAI的研究人员Igor Mordatch说，这个实验表明，自我游戏“ 足以让AI自己学习令人惊讶的行为——就像孩子们互相玩耍一样 。”

“在AI领域，创造能够解决各种复杂的与人类相关的任务的智能体一直是一个长期的挑战，”作者在论文中写道：“与人类特别相关的将是能够感知物理世界中的物体并与之互动的智能体。”

AI躲猫猫大作战：独创六种套路和反套路

捉迷藏AI依赖于强化学习，这是一种利用奖励来推动软件策略朝着目标前进的技术，通过反复试验来自我学习。近年来，强化学习与强大计算能力的结合取得了巨大的成功，但也有其局限性。指定奖励函数或收集演示来监督任务可能既耗时又昂贵。(最先进的方法要求对专家演示数据进行监督学习，并利用奖励进一步提高性能。)此外，单智能体强化学习任务的学习技能受到任务描述的限制；一旦智能体学会了解决任务，就没有多少继续提升的空间了。

在OpenAI的躲猫猫研究中，研究人员采用了一种被他们称为 “无向探索”(undirected exploration) 的策略。在这种策略中，智能体随着对游戏世界的理解自由进化，以设计创造性的获胜策略。这类似于DeepMind去年倡导的多智能体学习方法，在一项研究中，多个AI系统被训练来在游戏《雷神之锤3》中玩“夺旗”(Capture the Flag)。与这项研究一样，AI智能体事先并没有被告知游戏规则，但随着时间的推移，他们学会了基本的策略，并且最终超越了大多数人类玩家。

在捉迷藏游戏中，几个智能体扮演 躲藏者 ，必须在很短的时间内藏起来并躲开敌方(扮演“ 搜寻者 ”的智能体)的视线，而搜寻者被指示密切监视躲藏者。(这里的“视线”指智能体前方135度的范围。)如果搜寻者冒险离开游戏区域太远，被迫在随机生成的房间和墙壁中穿行，它们将受到惩罚；它们还可以捡起散落在整个环境中的物体(主要是箱子)，这些物体被锁定在某个位置。

AI捉迷藏游戏环境：