周末想围观人机德扑大赛？这有10条观(zhuang)战(bi)指南

大数据文摘 · 公众号 · 大数据 · 2017-04-07 21:38

正文

授权转载自知乎，作者：李天放

“ ——

AI人机大战已经开战，来自中国的6位顶尖德扑高手对阵“冷扑大师”Libratus, 卡内基梅隆大学研发的无限扑克人工智能系统。点击查看相关推文《45小时德扑人机大战今日开战，冷扑大师多次受信号延迟之困》。

相信不少读者都想在周末观战一下这场人机大赛，尽管这场大赛的结局已颇明朗，在围观的时候还是有不少门道可以学(zhuang)习(bi)，如果你跟我一样，同时对AI和德扑都非常感兴趣，来，以下10条观战指南拿好不谢！

—— ”

关于德扑AI有两个核心问题: "它是如何工作的？" 和" 为什么这么玩能赢？" 对于第一个问题的答案是一些算法的名字(i.e. Counterfactual Regret Minimization）。对于第二个问题的答案是博弈论中的一些概念(i.e. Nash Equilibrium)。网上已经有很多好的文章，有兴趣的同学可以看看。

但如果你跟我一样，同时对AI和德扑都非常感兴趣，除此之外肯定还有一大堆跟进问题。出于好奇，我最近看了不少相关资料。以下是我认为一些比较有趣的问题:

1. 网上都说AI太厉害了，人基本上没有希望赢

这个比赛还有什么看点吗?

我认为还有好几个有趣的观察点。其中我最感兴趣的一个问题是: “中国队的最终结果是否能够接近于美国队的结果?”

美国的4个选手最终的结果是-14BB/100。也就是说，平均每跟AI打100手牌，就会输掉14个大盲注。中国战队是否可以超越这个成绩，还是很有悬念的。

2. BB/100是什么? 我只听说AI上次赢了好几百万

钱数是个虚荣数据，完全没有意义的。其实第一次比赛并没有用真钱，所以"几百万"只是一个为了传媒效应而随机选出来的倍数。如果当时他们玩的是1分/2分，结果也是一模一样的。只不过标题如果是“AI赢了人类73.2块钱”，听上去就没有那么厉害了。

真正评价一个选手的实力，也就是几个基本指标。比赛玩家最终看ROI(投资回报率)，现金玩家最终看BB/100。

BB/100就是每打100手牌，你平均会赢或会输多少个大盲注。例如，如果你平常跟朋友打5块/10块的局，每次buyin1000，每周打200手牌，打一年（~50周），然后最后水上5000块钱，那么你的胜率就是 5BB/100。

AI德扑让我最兴奋的一点，是我们终于可以去客观衡量一个牌手的实力。

国际象棋有ELO，围棋有段级，但德州扑克一直以来都没有级别标准。我们今天讨论某某德州高手，都还用一些大型比赛成绩来代表实力。这是非常不科学的。如果我们愿意承认AI已经接完美战略，那么每个人的对战结果其实就是一个可对比的实力分数。

3. 中国队和美国队的实力比起来如何?

首先这里有一个需要解释的关键点: 不同类型的德州扑克玩法是很不一样的。锦标赛和现金局不一样；1v1，6人桌，9人桌不一样；线上和线下比赛也很不一样。当然这些游戏之间有很多基础理论是相同的。十几年前，因为整体水平低，一个懂的基本理论的玩家无论玩什么游戏类别都有很大优势的。但如今因为竞争压力，很多职业选手都选择专研一两个垂直领域。

拿游泳做比喻: 一个优秀的游泳运动员在所有项目中都会比普通人快很多。但在奥林匹克级别竞争中，400m的自由泳世界冠军也很难在50m蛙泳中拿到好成绩。

国外的德州扑克生态环境近年来并不好，能赚钱的地方越来越少，竞争也越来越激烈。美国比赛的4位选手都是线上1v1专家。

中国土豪多，可以支持良好的线下现金局和线下多桌锦标赛。在这两种形式中，中国也有世界级高手。但跟AI玩的是1v1。

我跟这次战队中一半的选手认识，并一起打过牌。毫无疑问的是他们都有超强的学习能力。不管是打德扑，做企业，做投资，他们都可以在很短时间内成为行业专家。听说杜悦老师在带队急训1v1打法，希望他们可以创造奇迹!

4. 这次比赛有多少运气成分？

美国比赛打了12万手牌，这次中国比赛“只”打3万手牌，虽然如此，运气成分还是是非常少的。

3万手的概念大概是这样的：假设你每天晚上都跟一帮朋友打4个小时牌，一周5次，一年也打不了3万手。

另外Libratus的比赛环境还有一些降低随机性的功能。

5.AI的打法跟人有很大差别吗?

我们大概可以把德州扑克玩家分为三类：

Group 1: 初学者 - 懂得基本游戏规则，赔率。

Group 2: 业余玩家 - 懂得EV，和一些其它的基本游戏元素（比如筹码量，位置，和牌力等因素的运用）。

Group 3: 高手/专业玩家

Group 2 与 Group 1的最大差别是学会怎样用期望价值（EV）来做决策。Group 3与 Group 2的最大区别是意识到不能只考虑当下手牌，而要考虑整个范围（range），并达到战略上的平衡。

有趣的是，AI的思维方式跟顶级高手是相似的。区别是AI可以做到更精准的范围推测与计算。

6. AI会诈唬 (bluff) 吗？

当然。这个问题背后有个错误假设，就是诈唬的关键在于心理与勇气。其实诈唬更多是一道数学题: “对于我的范围与对手的范围，如果这手牌重现10次，我诈唬 0次，3次，或10次，哪个期望价值最高?”

7. AI可以读牌吗？

周末想围观人机德扑大赛？这有10条观(zhuang)战(bi)指南

正文

授权转载自知乎，作者：李天放

请到「今天看啥」查看全文