人工智能Libratus是如何击败德州扑克顶级玩家的？

36氪 · 公众号 · 科技媒体 · 2017-02-04 08:29

正文

Libratus是个里程碑，这意味着从华尔街的交易到网络安全乃至于拍卖和政治谈判，这种AI都可以扮演角色。

文 | boxi

编者按： 1 月 30 日，宾夕法尼亚州匹兹堡Rivers赌场，耗时20天的德州扑克人机大战尘埃落定。卡耐基梅隆大学（CMU）开发的AI程序Libratus 击败人类顶级职业玩家，赢取了20万美元的奖金。尽管之前Google DeepMind的AlphaGo在与李世石的5番棋围棋大战以及在网络上跟顶级围棋选手的60番棋大战中出尽了风头。但相对而言德州扑克对于AI却是更大的挑战，因为AI只能看到游戏的部分信息，游戏并不存在单一的最优下法。那么CMU的Libratus是如何击败人类顶级的职业玩家的呢？《连线》杂志的这篇文章为我们揭秘。

在几乎3个星期的时间里，Dong Kim都呆在匹兹堡的一个赌场内跟一台机器玩扑克。但Kim不是普通的扑克玩家。跟他对垒的也不是普通的机器。而这场比赛也不是普通的扑克游戏。

28岁的Kim是全世界最好的扑克玩家之一。而那台由卡内基梅隆大学的两位计算机科学研究人员开发的机器，是一套运行在匹兹堡的一台超级计算机的人工智能系统。在整整20天的时间内，他们都在玩无限制德州扑克比赛，这是一种尤其复杂的扑克游戏形式，其投注策略往往要经过很多手。

这场比赛刚刚结束不久。大概赛程过半的时候，Kim开始觉得Libratus好像能看到他的牌。不过他说：“我不是指责它作弊。而是说它有那么好。”实际上好到击败了Kim及其他的3名全球顶级人类玩家——这是人工智能的第一次。

在这次比赛期间，Libratus的创造者对这套系统的运作方式显得遮遮掩掩，大家不清楚它是如何设法取得如此成功的，如何以其他机器前所未有的方式模仿了人类直觉的。但结果证明，该AI能达到如此高度是因为它不仅仅只是一个AI。

Libratus依靠了3套不同的系统的协作，这提醒我们现代AI并不是由一项而是多项技术驱动的。这段时间以来深度神经网络抓住了大多人的眼球，当然这也有很好的理由：它们为一些全球最大型的技术公司从图像识别到翻译乃至于搜索的一切提供了动力。但神经网络的成功也为大量其他帮助机器模仿甚至超越人类天才的AI技术注入了新生命。

比方说，Libratus就没有使用神经网络。它主要靠的是强化学习，这是人工智能的一种，一种极其强调试错的方法。其实质就是自己跟自己玩大量的游戏。Google的DeppMind实验室利用强化学习来开发AlphaGo，这套系统攻克围棋的时间比预期早了10年，但这两套系统之间有一个关键的不同。AlphaGo是通过分析人类玩家的3000万份棋谱来学习游戏的，然后才通过自己跟自己下棋来改进自己的技能。相对而言，Libratus却是从零开始学的。

通过一种名为反事实遗憾最小化（counterfactual regret minimization）的算法，它先是随机地玩，然后最终在经过几个月的训练以及玩了上万亿手扑克之后，它也达到了能挑战最好人类玩家的高度，不仅如此，它的玩法还是人类所不能的——它下注的范围要大得多，而且会对这些赌注随机化，这样对手就更难猜自己手上都有什么牌了。跟导师Tuomas Sandholm一起开发了这套系统的CMU研究生Noam Brown说：“我们只是向AI描述了这个游戏，但没有告诉它怎么玩。它完全是独立于人的玩法形成自己的策略的，而且它的玩法跟人的玩法会非常不一样。”

但这只是第一阶段。在匹兹堡的比赛期间，第二套系统会分析游戏状态并聚焦于第一套系统的注意力。这套系统属于一种“残局解算器（end-game solver）”，上周一Sandholm 和Brown发表的论文详细描述了它的细节。在第二套系统的帮助下，第一套系统再也不需要像过去那样跑完所有可能的场景了。它可以只试探其中的一些场景。也就是说，Libratus不仅仅是在在比赛前学习，而且还能在比赛中学到东西。

光靠这两套系统就已经很有效率了。但Kim等其他玩家仍然能够找出机器玩法的一些模式然后设法加以利用。为此，Brown和Sandholm开发了第三套系统。每天晚上Brown都会跑一个算法来识别出那些模式然后从策略中剔除掉。他说：“一个晚上它就能计算完然后在次日把一切准备就绪。”

如果这似乎不公平的话，好吧，AI就是这么干。这并不仅仅是AI跨越了许多技术。人类往往也频繁加入进来，积极地改进AI、跑AI或者增强AI。Libratus的确是个里程碑，展示了一种新型的AI，从华尔街的交易到网络安全乃至于拍卖和政治谈判，这种AI都可以从中扮演一定的角色。曾帮助Google设立中心AI实验室，现为百度首席科学家的吴恩达说：“扑克曾经是AI最难攻克的游戏之一，因为关于游戏状态你只能看到部分信息。扑克并没有单一的最优下法。相反，AI玩家必须让自己的行动随机化，这样它诈唬时才能让对方无法确定真假。”

Libratus把这一点做到了极致。它的下注非常的随机化，甚至超过了人类最好玩家的水平。而且如果这个方法不奏效的话，Brown晚上跑的算法就会弥补它的不足。金融市场交易员也可以采取相同的做法。外交官亦然。这是一个强大且相当令人不安的想法：机器可以用大赌注吓退人类。

推荐阅读

点击下方图片即可阅读

春节尾声，来看这份“职场人快速建立知识结构”的必读书单