AI别笑，1v1的DotA比赛其实比围棋简单

雷峰网 · 公众号 · 科技媒体 · 2017-08-14 06:48

正文

关于OpenAI的DotA 2游戏人工智能在The International比赛上击败了人类玩家的消息，就像当时的AlphoGo一样，又一次刷屏了。我们仿佛看到了AI又在得意地笑。

这次比赛重要的是，像DotA这样的MOBA多人在线战术竞技游戏，以及星际争霸这样的RTS即时战略游戏，一直被视为超越了当前AI技术的能力，远非AI能掌握及击败人类的。这些游戏需要在比赛中有长时间的战略决策和多人合作，并具有比国际象棋、围棋等更复杂的状态和行动空间，后面的几种棋类游戏在过去几十年里，都逐一被AI技术攻略了。

雷锋网此前报道，DeepMind已经研究星际争霸2有一段时间了，前不久也发布了一些研究成果。国内的阿里巴巴也与伦敦大学合作，研究过AI与星际。但到目前为止，研究人员还没有取得重大突破，而且一般认为，我们距离让AI在星际争霸2中战胜人类还有至少1-2年。

这也是为什么OpenAI的消息如此震惊的原因。

但如果更多了解DotA 2的AI是怎么样的，它是如何训练的，它用了什么样的游戏环境，就会发现，它取得了不少令人印象深刻的研究成果，但不是想像中那样的突破性的AI技术。前Google大脑团队成员Denny Britz就在hacker news上发起了讨论，从他的分析和其他讨论中也可以看出不少端倪。

不久后OpenAI就会公布具体的研究细节。不过先来看看DotA 2的AI解决的问题在现实中有多难，以及它与AlphaGo比又怎么样。

1v1的难度与5v5没法比

一般玩DotA 2游戏，都是5v5的对局。这种玩法需要用到高级的策略制定，团队沟通和协调能力，通常会是45分钟左右一局。1v1游戏的限制就很多了，两名选手基本上沿着单线行动，试图杀死对方，游戏时间通常在几分钟内。1v1比赛需要的是机械技能和短期战术，不需要长期规划或协调，而后者才是对当前AI技术最具挑战性的。事实上，在1v1中可以采取的有用行动数量是少于围棋的。有效状态空间，即玩家对游戏中正在发生的情况的想法，如果以更有效的方式进行表征的话，应该比围棋要小。

AI可以得到更多信息

OpenAI的人工智能很可能是在游戏AI的API上开发的，这样它可以访问人类无法访问的各种信息。而且，即使OpenAI研究者限制了访问某些类型的信息，AI比起人类仍然可以得到更准确的信息。

例如，一项技能只能在一定范围内击中对手，而人类玩家必须看屏幕来估算与对手的距离。这需要练习，但AI就知道确切的距离信息，然后立即决定使用技能。获得各种精确的数据信息会带来很大的优势，比如在这次的游戏过程中，AI就有好几次是在最远距离上发动了技能。

反应时间优势

AI可以做到立即反应，但人类不行。如果反应优势再加上上面说的数据优势，就会形成另一大优势。比如，一旦对手逃出特定技能的使用范围，AI就可以立即取消使用，避免无效的技能施放，也不会耽误回复时间。

仅使用特定的游戏角色

DotA中有100多介角色，每个都有不同的能力和优势。这次比赛中，OpenAI的人工智能学习玩的唯一角色是“影魔”。它的技能一般直接攻击，而不是更复杂的让技能持续一段时间，这样就更容易从距离数据和快速反应时间这两个优势中获益，这正是AI擅长的。

部分规则写死

这次的游戏AI也不是一切从零开始训练的，它对游戏算是有一些“了解”。装备选择是写死的，押兵线这种技术也是，这些对比赛来说也很重要。根据现在的消息，AI学习的是与对手的互动。

总体来说，鉴于1v1比赛主要是机械技能的比拼，那人类玩家被击败也就不奇怪了。而且由于比赛环境有限制，加上人为限制了一系列可能的行动，以及几乎没有必要进行长期的规划或协调，结论也就显而易见了，即在这场1v1的DotA比赛中，AI击败人类冠军要解决的问题，实际上比围棋要更简单。

AI技术本质上没有出现突然的突破，它的成功是算法的成功，也是研究者的成功。研究者聪明地设置了问题，并用正确的方式避开了当前技术的限制，取得了想要的成果。

据称，OpenAI的人工智能的训练时间大概是2周左右。AlphaGo当时需要在Google的GPU集群上进行几个月的高度分布的大规模培训。自那以来技术上已经取得了一些进展，但还不足以将计算要求降低一个数量级。

或许不明真相的新闻讨论有些过度了，不过实际上这次的研究还有不少非常令人惊讶的成果。

完全通过自我对抗进行训练

这次AI不需要任何训练数据，它也不用从人类的演示中学习，而是完全从随机开始，并且不断与自己对战。虽然这种技术并不新鲜，但令人惊讶的是，AI学到了一些人类玩家已经在使用的技术，这已经很厉害了。或许AI会学会其他人类不曾用过的技术，就像我们在AlphaGo与人类的对局中看到的那样，人类玩家已经开始从AI不那么容易理解的下法中学习了。

AI加电子竞技有了很大进步

用DotA和星际这样具有挑战性的环境来测试AI技术，是很重要的。如果电子竞技社区和游戏开发商也对AI技术应用于游戏的价值很感兴趣，那在得到他们的支持抂，AI技术很可能会有进一步的进展。

部分可观察的环境

虽然OpenAI用游戏API开发的细节尚不清楚，但从人类玩家的角度来看，游戏中只能看到屏幕上显示的内容，玩家的视角受到了限制，比如说在上坡这样的地形上，就无法看清坡上的状况。这意味着，与围棋或象棋不同，对战游戏是处于一种部分可观察的环境中，无法了解有关当前游戏状态的完整信息。这些问题AI很难以解决，属于需要进行积极研究的领域。目前还不清楚1v1的DotA比赛中，环境的可观察性有多重要。

其实对于很多乍听起来耸人听闻的技术，都需要有清醒的认识。不出意料的，雷锋网发现马斯克也在Twitter对这一事件作了评价。

他说，“OpenAI第一次在电子竞技中击败了人类顶级选手，难度比象棋和围棋都要大得多”，随后开始谈论AI的危害，“没人喜欢被监管，但一切（汽车、飞机、食品、药品等）可能给公众带来危害的都受到了监管，AI也应如此”。

这些炒作当然不是OpenAI研究者的错，研究者对自己成果的局限一直有非常清晰和明确的认识。过度解读AI的进步反而会带来一些危害，我们期待OpenAI公布他们研究的技术细节，避免错误的猜测。

读者福利

IBM 日前内部分享了AI /认知计算、云计算、区块链、物联网以及对话机器人领域的趋势报告，从这些报告或许能给在在这些领域苦苦探索的你一些灵感。关注雷锋网微信（leiphone-sz），输入 “0629” 获得报告原文。

● ● ●

近期热门文章

我试驾了特斯拉 Model 3，这几个知识点你需要知道

兵贵神速，雷军趁出货量新高发起线下攻防战

凭阿里和腾讯实力，怎么今年才进世界500强？

国务院规划了新一代人工智能战略：2030年带动10万亿产业规模

烧光十亿清算离场，Jawbone 究竟是天作孽还是自作死？

联手诺基亚，雷军的千亿美金梦想又回来了

苹果中国的领导层，比预料中的更有故事