专栏名称: 数盟

数盟（数据科学家联盟）隶属于北京数盟科技有限公司，数盟致力于成为培养与发现“数据科学家”的黄埔军校。数盟服务包括：线下活动、大数据培训。官网：http://dataunion.org，合作：contact@dataunion.org

AI击败DotA顶级选手是不是突破？OpenAI放出了更多细节

数盟 · 公众号 · 大数据 · 2017-08-22 22:00

正文

周末，OpenAI在DotA 2全球顶级赛事TI7（The International）的中单1v1比赛中击败了顶级选手Dendi。OpenAI的发起人之一，硅谷钢铁侠马斯克还顺势连发三条twitter，赞赏OpenAI，谈监管，谈AI的风险。

但关于这个参赛的AI，大家并不是非常了解，因此对于这次胜利的解读，夸大其词者有，质疑其并非突破者也有。

直到今天，OpenAI终于在官方博客上公布了人工智能打DotA技术的进化历程、（部分）技术细节，以及和更多选手对战的视频，以及怎样打败这个AI。

成绩

我们在DotA 2上取得的结果表明，只要具备足够的计算能力，自我对抗可以使机器学习系统的水平超越人类（目前仅限于中单1v1）。

在1个月时间里，我们系统的水平从只能匹配高段玩家上升至能击败顶级职业选手。自那时以来，系统仍在继续得到优化。

有监督深度学习系统的性能取决于训练数据集，但在自我对抗系统中，随着系统变得更强大，可用数据也会自动得到优化。

下图是AI的TrueSkill得分：

随着时间发展，我们最好的AI的TrueSkill得分也在线性提高。TrueSkill是通过AI之间进行模拟游戏，观察胜率来计算的，相当于国际象棋的ELO评分。

TrueSkill得分的提高与系统各部分的改进都相关，为算法增加新功能、扩大规模都能提高得分。

AI怎样打DotA？

完整的DotA游戏是5v5对抗，但在某些巡回赛中也可以看到中单对抗。

我们的AI按照标准巡回赛规则来玩游戏，我们没有在1v1比赛中加入任何有利于AI的简化。

AI通过以下界面来操作：

观察：bot API功能使AI可以像人类一样观察，包括英雄、兵线和附近地形。游戏是部分可观察的。

操作：通过bot API进行操作，操作频率与人类选手相仿，具体操作包括移动位置、攻击其他单位，以及使用道具。

反馈：在获胜后AI可以获得激励。基于其他基本指标，例如血量和补刀，AI也可以获得激励。

我们将十余种装备合成方式列入白名单，供AI使用，并选择其中一种进行评价。我们还利用传统的RL技术来训练最初的控兵线技巧。

开发历程

项目进程如下所示。下文提到的MMR全称Match Making Rating，也就是比赛匹配分级，相当于天梯积分。在DotA 2中，15%的玩家天梯分低于1500，58%的玩家低于3000，99.99%低于7500。

3月1日：我们首个经典的增强学习系统配置于简单的DotA环境中。

5月8日：天梯1500分的测试者表示，他的水平提升速度要高于AI。

6月初：AI击败了天梯1500的测试者。

6月30日：击败了大部分天梯3000分的测试者。

7月8日：在对抗天梯7500分的半职业选手时，取得首胜。

8月7日：3比0击败Blitz（前职业选手，天梯6200）、2比1击败Pajkatt（职业选手，天梯8500）、3比0击败CC&C（职业选手，天梯8900）。他们都认为，SumaiL知道如何击败这个AI。

8月9日：10比0击败Arteezy（顶级职业选手，天梯10000）。他也认为SumaiL知道如何击败AI。

8月10日：6比0击败SumaiL（顶级中单职业选手，天梯8300）。他认为这个AI是无法击败的。在与8月9日的AI对抗时，他取得了2比1的成绩。

8月11日，2比0击败Dendi（前世界冠军、天梯7300的职业选手）。在对抗8月10日的AI时，这个AI取胜概率达到60%。