周末,OpenAI在DotA 2全球顶级赛事TI7(The International)的中单1v1比赛中击败了顶级选手Dendi。OpenAI的发起人之一,硅谷钢铁侠马斯克还顺势连发三条twitter,赞赏OpenAI,谈监管,谈AI的风险。
但关于这个参赛的AI,大家并不是非常了解,因此对于这次胜利的解读,夸大其词者有,质疑其并非突破者也有。
直到今天,OpenAI终于在官方博客上公布了人工智能打DotA技术的进化历程、(部分)技术细节,以及和更多选手对战的视频,以及怎样打败这个AI。
成绩
我们在DotA 2上取得的结果表明,只要具备足够的计算能力,自我对抗可以使机器学习系统的水平超越人类(目前仅限于中单1v1)。
在1个月时间里,我们系统的水平从只能匹配高段玩家上升至能击败顶级职业选手。自那时以来,系统仍在继续得到优化。
有监督深度学习系统的性能取决于训练数据集,但在自我对抗系统中,随着系统变得更强大,可用数据也会自动得到优化。
下图是AI的TrueSkill得分:
随着时间发展,我们最好的AI的TrueSkill得分也在线性提高。TrueSkill是通过AI之间进行模拟游戏,观察胜率来计算的,相当于国际象棋的ELO评分。
TrueSkill得分的提高与系统各部分的改进都相关,为算法增加新功能、扩大规模都能提高得分。
AI怎样打DotA?
完整的DotA游戏是5v5对抗,但在某些巡回赛中也可以看到中单对抗。
我们的AI按照标准巡回赛规则来玩游戏,我们没有在1v1比赛中加入任何有利于AI的简化。
AI通过以下界面来操作:
观察:bot API功能使AI可以像人类一样观察,包括英雄、兵线和附近地形。游戏是部分可观察的。
操作:通过bot API进行操作,操作频率与人类选手相仿,具体操作包括移动位置、攻击其他单位,以及使用道具。
反馈:在获胜后AI可以获得激励。基于其他基本指标,例如血量和补刀,AI也可以获得激励。
我们将十余种装备合成方式列入白名单,供AI使用,并选择其中一种进行评价。我们还利用传统的RL技术来训练最初的控兵线技巧。
开发历程
项目进程如下所示。下文提到的MMR全称Match Making Rating,也就是比赛匹配分级,相当于天梯积分。在DotA 2中,15%的玩家天梯分低于1500,58%的玩家低于3000,99.99%低于7500。
3月1日:我们首个经典的增强学习系统配置于简单的DotA环境中。
5月8日:天梯1500分的测试者表示,他的水平提升速度要高于AI。
6月初:AI击败了天梯1500的测试者。
6月30日:击败了大部分天梯3000分的测试者。
7月8日:在对抗天梯7500分的半职业选手时,取得首胜。
8月7日:3比0击败Blitz(前职业选手,天梯6200)、2比1击败Pajkatt(职业选手,天梯8500)、3比0击败CC&C(职业选手,天梯8900)。他们都认为,SumaiL知道如何击败这个AI。
8月9日:10比0击败Arteezy(顶级职业选手,天梯10000)。他也认为SumaiL知道如何击败AI。
8月10日:6比0击败SumaiL(顶级中单职业选手,天梯8300)。他认为这个AI是无法击败的。在与8月9日的AI对抗时,他取得了2比1的成绩。
8月11日,2比0击败Dendi(前世界冠军、天梯7300的职业选手)。在对抗8月10日的AI时,这个AI取胜概率达到60%。