2017年,腾讯AI夺冠围棋的时候
(网友呼吁我们进军麻将)
2019年,腾讯AI打赢王者职业选手的时候
(网友呼吁我们进军麻将)
2020年,腾讯AI获得AI足球世界冠军的时候
(网友呼吁我们也进军麻将)
腾讯麻将AI在日本麻将天凤平台特上房
达到稳定段位10.68段。
刷新了 AI 在麻将领域取得的最好成绩,这代表着腾讯研发团队在决策AI方向上取得了业界领先的成绩和突破。
先给大家介绍一下天凤平台:
“天凤”,是知名的日本麻将竞技平台,拥有较为体系化的竞技规则和专业段位规则,受到职业麻将届的广泛认可。
全世界的麻将AI基本都在这里进行训练
和打段
。
(既然要出道,就要在AI最多的平台取得成绩并出道)
“段位”,就有点类似于我们打王者荣耀,根据参与的局数和不断累积的积分,判定你的段位,王者有:青铜……钻石、星耀、王者、荣耀王者。
天凤则按照1段—11段来进行排位,10段就相当于王者荣耀里的荣耀王者段位。
天凤平台,7段以上3037人,约占百分之一,而能达到 10 段的只有 27 人(含AI),只占不到万分之一。
天凤稳定段位bootstrap的分布,绝艺LuckyJ显著强于之前最强的两个日本麻将AI(Suphx,NAGA)LuckyJ vs Suphx p value=0.02883;LuckyJ vs NAGA p value=3e-05
这
是目前排名前三的麻将AI,绝艺LuckyJ花了一千多局,就达到了10段,在特上房所有对战数超过1000把的注册玩家,稳定段位历史排名第一。
天凤十段,日本麻将战术研究家,yousei(来自日本),天凤ID:黒猫@ぺろぺろ☆ :
LuckyJ看起来“完全没有漏洞”!
一方面通过保留安全牌等策略降低事故率。
另一方面,即使手牌中同时存在多个和牌方向,LuckyJ也可以在这些复杂的分支中顺利的进行下去。
值得一提的是,绝艺LuckyJ不仅达到日本麻将天凤十段,而且之前还在国标麻将线下邀请赛中战胜了6位国标麻将职业选手。
(麻将在中国早已经成为了一项专业的运动,有着一大批参加专业赛事的选手)
成为首个战胜国
标
麻将顶尖职业选手的麻将AI。
杨磊,国标麻将职业选手,标榜麻将运动协会会长,最好成绩:2007年中国牌王赛牌王,2007年王中王比赛
冠军:
经过数月与腾讯麻将AI的对抗测试,通过分析AI对局,AI无论在进攻还是防守都让我印象深刻。
在进攻端,AI可以呈现出快速成型、保持变化、根据场况做出最佳选择;在防守端,从初期的控制节奏和方向,到后期可以精准调整、果断变张,可谓做到了违害就利、大破大立。
我们通常所谓的妙手、灵光一现,甚至基于经验和感觉做出的置之死地而后生的选择,对于AI来说可能算是常规操作。
第二个问题。
为什么这么长时间,才进军麻将?
因为麻将对于AI来说——
难
。
相对于围棋和象棋,双方的棋子都在桌面上,所有人都可以看到全局信息,这种情况叫
完美信息博弈
。
而像德州扑克和麻将,两者的共同点是有隐藏信息,玩家手牌都不可见,这种叫
非完美信息博弈
。
不管是完美信息博弈还是非完美信息博弈,过去棋牌类AI有两大核心技术要素。
离线训练:
其目的在于通过强化学习或其他算法,让AI学会玩游戏,并得到一个固定的离线策略。
(离线策略:生成自己的对战策略,什么状态下应对什么动作)
在线搜索:
在线对战的时候,在线搜索技术可以通过强大的计算力来无穷枚举各种可能性,在离线策略的基础上进行实时调整,搜索到制胜路径。
也就是在和你下围棋时,你走了1步,AI脑海里已经想了1万步,然后从中挑选出最优的一步来和你下棋。
大家都知道的围棋AlphaGo采用的方法就是
强化学习+蒙特卡洛树搜索。
但是,针对完美信息博弈的技术并不适用
于
非完美信息博弈场景。
具体来说,传统强化学习并不能收敛到非完美信息博弈的最强策略。
另外,蒙特卡洛树搜索又要求对手手牌可见。
所以,德州扑克AI采用的方法就是
遗憾值最小化算法+安全子博弈搜索
。
德州扑克只有2张不可见手牌,计算复杂度没有特别高,可以借用计算机的算力来满足传统的算法。
而麻将有136张牌,手牌只有13张牌,存在着巨量隐藏信息,是德州扑克的
几亿……亿
倍。
如
上图所示
,横坐标信息集数目表示可观察状态的多少,即牌面的信息,纵坐标信息集平均大小表示隐藏信息多少,即其他所有对手的手牌的可能性。
此外,在麻将除了正常的摸牌、打牌之外,还要决定是否吃牌、碰牌、杠牌以及是否胡牌。
任意一位玩家的行为都会改变摸牌的顺序,涉及了大量的决策。
总之,在麻将面前,过去的方法并不完全适用:
传统离线策略训练方法,要么算的快但算不好
(强化学习)
,要么算的好但算不快
(遗憾值最小化算法)
。
传统的在线搜索算法,要么不适用
(蒙特卡洛树搜索)
,要么计算复杂度太高
(安全子博弈搜索)
。
所以,麻将AI要打好麻将,就得另辟蹊径,找到一种方法:
既能训练强大的离线策略还要满足高效的在线搜索。
要什么有什么。