攻陷围棋后,人工智能开始转向德州扑克。
谷歌的 AlphaGo 升级版刚刚在网络平台上连续 60 次击败各路世界顶尖围棋手。正如在 1997 年,IBM 的深蓝超级计算机击败国际象棋世界冠军卡斯帕罗夫那样,它已成为人工智能发展的里程碑事件。在下周,由卡耐基梅隆大学(CMU)开发的名为 Libratus 的人工智能系统即将开始一场新的挑战:试图在一对一、无限制投注的规则下击败世界最强的人类德州扑克玩家。
也许 Libratus 会很快与「深蓝」和 AlphaGo 相提并论,它正在试图解决与后两者大不相同的问题——围棋和国际象棋都是完全信息公开的博弈,玩家们可以看到棋盘上的每个旗子,考虑所有落子的可能性。相比之下,德州扑克属于不完整信息博弈,这对于人工智能来说更加具有挑战性。
「在完整信息博弈中,计算机可以在决策树中进行分析,」CMU 教授 Tuomas Sandholm 解释道,他与自己的博士生 Noam Brown 共同开发了 Libratus 系统。在国际象棋和围棋中,人工智能可以通过预测所有未来步骤的胜率来思考自己的下一步。「然而在不完整信息博弈中,事情就变得复杂起来了,你不知道对面手握什么底牌,」Sandholm 解释道。「这意味着你不能在决策树的架构下选择下一步了。而且,你也不知道发牌员在 flop、turn 和 river 上发出的下一张牌是什么。」
比宇宙中原子数量更多的组合可能性
不完整信息博弈早已被证明是难以攻克的计算机难题。对此,CMU 的人工智能研究者们专注于信息集(Tuomas Sandholm,2010),通过同时思考未知和已知变量各种可能状态的方式来进行预测。这需要强大的计算能力。「德州扑克有 10 的 160 次方个信息集,还有 10 的 165 次方个游戏树节点,」Sandholm 说道。这意味着牌局的可能性大于宇宙中所有原子的数量(目前可观测宇宙约有 10 的 75 次方个原子)。「而且即使宇宙中的每个原子是一个宇宙,所有原子的数量也无法与牌局的可能性数量相比。」
与 AlphaGo 不同,Libratus 系统不通过分析大量可能的下一步完成任务,这个 CMU 构建的新系统通过平衡风险与收益来决定自己的下一步——在纳什均衡定义中的完美游戏状态。John Nash,电影《美丽心灵》的原型,在 20 世纪 50 年代发展出了这一伟大理论,它随后成为博弈论的基石,并让 Nash 在 1994 年获得了诺贝尔经济学奖。
「在存在两名玩家的零和游戏中,如果有一人不遵从纳什均衡的策略,那么两名玩家获得的收益都将受损,但我们的系统不会这样,」Sandholm 解释说。「在此类游戏中,以纳什均衡的方式思考是最安全的。遵从规律的玩家将合理地获得受益,同时在任何地方都不会被对手利用。」
对于人类玩家而言是长时间的艰难折磨
对于和机器交手的人类玩家而言,他们面临的会是一个无情的对手。「我一直这样向大家描述当时的感觉,用一个词来描述:折磨。(与计算机交手的)最初的几天,我们每天都玩到了深夜,当我们打完牌回到酒店后,我们会继续研究几个小时再睡觉。然后我们会在早上 9 点起床,再度过这样的一天,」Jason Les 说道,他是 CMU 请来与 Libratus 原型版本交手的第一位职业玩家。这次比赛中,他将再次披挂上阵。
对于观众们来说,计算机与人类在德州扑克上的对决或许不如 AlphaGo 那样引人注目,后者曾创造了具有诡异美感的新棋风。「很多人把 Libratus 的策略视为只会防守,它想做的是避免被击败,然后在所有对手都有所疏忽的时候展开反击。」
人工智能采用了颠覆传统的玩法
但 Sandholm 很快指出,玩法传统并不代表安全。「这个扑克程序,以及一年半之前的 Claudico 程序,它们都想出了新花招。他们会玩出一些有经验的扑克玩家会认为很糟糕的玩法。」比如说,在一手扑克的第一轮,limping(注:在 Pre-Flop 只有跟注盲注而没有加注)表示你跟注对手,即用最小数量的钱继续玩一手。所有的扑克书上都说这是一种糟糕的玩法,但 CMU 的扑克 bot 有 7% 到 16% 的时间会选择 limping。
「这与这个游戏的民间智慧是真正矛盾的,」Sandholm 说,「这些算法是单纯从这个游戏的规则中总结出的这种玩法,我们没有给它们任何人类这样玩的历史数据。它们玩得就像火星人一样,它们想出了自己的策略。」这个人工智能还总是利用 donk betting(注:翻牌前只有跟注,翻牌后在没有位置时率先下注)来破坏规则,将主动权从之前一轮的最后一位玩家那里抢过来。
人类玩家也在学习人工智能的策略
「我认为它们向人类表明一些非传统的策略也是有效的,」Les 说,「但是,在现实中,如果没有计算机的帮助,它们实在太难效仿了。」
曾经在 2015 年与 CMU 以前的系统比赛过的 Dong Kyu Kim 就采纳其中一些奇怪的策略:「我从 Claudico 学到了很多来用在我自己的游戏中。」Kim 相信学习人工智能的策略可以让他在与人类对手比赛时获得优势。
来自阿尔伯塔大学的一个团队在 2008 年的时候就在有限制德州扑克(limit Texas Hold』em)上超过了最好的人类玩家,并且在 2015 年就几乎达到了完美的水平。而对于投注不受限的无限制德州扑克(No-Limit Texas Hold'em),情况可就复杂得多了,但曾经参与了那些比赛的职业玩家都认为机器的最终胜利也只是一个时间问题。
职业玩家知道机器超过他们只是时间问题
「我不认为扑克和国际象棋与围棋有什么不同,我认为最终计算机也将主宰这个游戏,」Jimmy Chou 说,「因为人类不确定的本质,我们可能偶尔会占优势,但从长期来看,我会愿意把钱压到机器的有效性上,因为它有数学和科学。」
Kim 同意这种观点:「作为职业扑克玩家,我不愿意承认这一点,但我确实相信机器将能在所有的扑克游戏中打败人类。这只是个时间问题。」
尽管深蓝和 AlphaGo 的胜利点燃了公众的想象,但能解决完美信息博弈的系统的应用范围还很有限。Sandholm 说:「大多数真实世界的交互都包含了多方信息和不完整的信息。」在这些类型的任务中打造一个能够超越人类的系统「从人工智能的角度来看要重要得多,从而让整个世界变得更好。」AlphaGo 的创造者也已经将目光投向了不完全信息博弈(imperfect-information games),比如无限制扑克游戏和《星际争霸 II》。
这种类型的人工智能可以击败黑客和癌症
Sandholm 见过类似他的团队所打造的这种系统被用于自动谈判或讨价还价,比如在一项复杂的交易之中作为消费者或企业的代表。这样的系统也可以在网络安全领域有所作为,可以帮助优化一个网络针对黑客攻击的防御。而且 Sandholm 还希望有一天能将其广泛应用于医疗领域。「我们已经在研究自身免疫疾病和癌症了。通过引导一个人自己的免疫系统来更好地对抗自己的疾病,」他解释说,「T 细胞实际上并不是对手,但你可以使用这些技术来应对它们。」
这场人机扑克大赛将于当地时间 1 月 11 日在宾夕法尼亚州匹兹堡的 Rivers 赌场开始。Jason Les、Dong Kim、Daniel McAulay 和 Jimmy Chou 这四位世界顶级的扑克职业玩家将会与 Libratus 在为期 20 天的赛程里面对玩 12 万手,争夺 20 万美元的奖金。如果你对这场比赛感兴趣,可以在 Twitch 上观看比赛直播。
©本文由机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者/实习生):[email protected]
投稿或寻求报道:[email protected]
广告&商务合作:[email protected]