专栏名称: 数盟
数盟(数据科学家联盟)隶属于北京数盟科技有限公司,数盟致力于成为培养与发现“数据科学家”的黄埔军校。 数盟服务包括:线下活动、大数据培训。 官网:http://dataunion.org,合作:contact@dataunion.org
51好读  ›  专栏  ›  数盟

AI击败DotA顶级选手是不是突破?OpenAI放出了更多细节

数盟  · 公众号  · 大数据  · 2017-08-22 22:00

正文

周末,OpenAI在DotA 2全球顶级赛事TI7(The International)的中单1v1比赛中击败了顶级选手Dendi。OpenAI的发起人之一,硅谷钢铁侠马斯克还顺势连发三条twitter,赞赏OpenAI,谈监管,谈AI的风险。

但关于这个参赛的AI,大家并不是非常了解,因此对于这次胜利的解读,夸大其词者有,质疑其并非突破者也有。

直到今天,OpenAI终于在官方博客上公布了人工智能打DotA技术的进化历程、(部分)技术细节,以及和更多选手对战的视频,以及怎样打败这个AI。

成绩

我们在DotA 2上取得的结果表明,只要具备足够的计算能力,自我对抗可以使机器学习系统的水平超越人类(目前仅限于中单1v1)。

在1个月时间里,我们系统的水平从只能匹配高段玩家上升至能击败顶级职业选手。自那时以来,系统仍在继续得到优化。

有监督深度学习系统的性能取决于训练数据集,但在自我对抗系统中,随着系统变得更强大,可用数据也会自动得到优化。

下图是AI的TrueSkill得分:

随着时间发展,我们最好的AI的TrueSkill得分也在线性提高。TrueSkill是通过AI之间进行模拟游戏,观察胜率来计算的,相当于国际象棋的ELO评分。

TrueSkill得分的提高与系统各部分的改进都相关,为算法增加新功能、扩大规模都能提高得分。

AI怎样打DotA?

完整的DotA游戏是5v5对抗,但在某些巡回赛中也可以看到中单对抗。

我们的AI按照标准巡回赛规则来玩游戏,我们没有在1v1比赛中加入任何有利于AI的简化。

AI通过以下界面来操作:

观察:bot API功能使AI可以像人类一样观察,包括英雄、兵线和附近地形。游戏是部分可观察的。

操作:通过bot API进行操作,操作频率与人类选手相仿,具体操作包括移动位置、攻击其他单位,以及使用道具。

反馈:在获胜后AI可以获得激励。基于其他基本指标,例如血量和补刀,AI也可以获得激励。

我们将十余种装备合成方式列入白名单,供AI使用,并选择其中一种进行评价。我们还利用传统的RL技术来训练最初的控兵线技巧。

开发历程

项目进程如下所示。下文提到的MMR全称Match Making Rating,也就是比赛匹配分级,相当于天梯积分。在DotA 2中,15%的玩家天梯分低于1500,58%的玩家低于3000,99.99%低于7500。

3月1日:我们首个经典的增强学习系统配置于简单的DotA环境中。

5月8日:天梯1500分的测试者表示,他的水平提升速度要高于AI。

6月初:AI击败了天梯1500的测试者。

6月30日:击败了大部分天梯3000分的测试者。

7月8日:在对抗天梯7500分的半职业选手时,取得首胜。

8月7日:3比0击败Blitz(前职业选手,天梯6200)、2比1击败Pajkatt(职业选手,天梯8500)、3比0击败CC&C(职业选手,天梯8900)。他们都认为,SumaiL知道如何击败这个AI。

8月9日:10比0击败Arteezy(顶级职业选手,天梯10000)。他也认为SumaiL知道如何击败AI。

8月10日:6比0击败SumaiL(顶级中单职业选手,天梯8300)。他认为这个AI是无法击败的。在与8月9日的AI对抗时,他取得了2比1的成绩。

8月11日,2比0击败Dendi(前世界冠军、天梯7300的职业选手)。在对抗8月10日的AI时,这个AI取胜概率达到60%。







请到「今天看啥」查看全文