专栏名称: 极客公园

科技创新者的大本营。汇聚优秀的产品报道、评测视频和高质量的线下活动。

人机对战简史：从国际象棋到德州扑克

极客公园 · 公众号 · 科技媒体 · 2017-04-08 15:36

正文

二十年的时间里，从国际象棋到德州扑克，人机对战背后，机器是怎样进化的？

作者 | 一柳一柳是否一柳邓婧

文章转载自顶楼TopView

长按二维码关注顶楼TopView

2017 年 4 月 6 日到 10 日，由卡内基梅隆大学开发的人工智能 Libratus（“冷扑大师”）将在海南与六位中国的德州扑克选手进行为期五天，累计长达 45 个小时的德州扑克人机对战。

这是继 AlphaGo 在围棋领域大杀四方之后，AI 对人类新的挑战。本文将为您梳理，在过去二十年的历史中，人机对战经历了哪些关键节点，AI 又发生了怎样的进化？

国际象棋人机对战

关键词：计算力

1996 年 2 月，美国费城，一场在当时被称作 “世纪大战” 的较量。

国际象棋世界棋王卡斯帕罗夫面对的挑战者，并不是人。

卡斯帕罗夫的对手是 IBM 的超级国际象棋电脑 “深蓝”，为了这次较量，后者早已做足了准备。

在国际象棋每一个回合中，一个玩家可以有大约 35 种不同的行棋选择，这些选择推导结果是单线程的，从 A 到 B 到 C 的推导选择。随机不可控因素更小，也不存在局部的输赢影响整体战局的关系。对局双方的决策能够更直接地控制整个局面的走势。

也就是说，国际象棋的比赛，很大程度上是棋手计算力的较量。

为了能比对手——世界棋王卡斯帕罗夫——多算准一步，深蓝中，用C语言输入了一百多年来优秀棋手的两百多万场对局。这台电脑重 1270 公斤，有 32 个节点，每个节点有 8 块专门为进行国际象棋对弈设计的处理器，运行速度达一亿次每秒。

1997 年电脑深蓝首次战胜国象棋王卡斯帕罗夫

然而在 1996 年的这场 6 局比赛中，深蓝最终以 2:4 落败。

首次挑战失败后的一年里，IBM 的工程师们将 “深蓝” 的运算速度又提高了一倍，达到两亿次每秒。但深蓝并非计算机的王者。事实上。深蓝的运算能力当时在全球超级计算机中居第 259 位。即便这样，深蓝仍然可以算出所有路数来选择最佳策略：新的深蓝靠硬算可以预判 12 步，而卡斯帕罗夫只能预判 10 步。

1997 年 5 月，深蓝再次挑战棋王卡斯帕罗夫。在前五局 2.5 对 2.5 打平的情况下，棋王第六盘决胜局中仅仅走了 19 步，就败给了深蓝。最终深蓝电脑以 3.5:2.5（1 胜 2 负 3 平）获胜，成为首个在标准比赛时限内击败国际象棋世界冠军的电脑系统。

比赛结束后，“深蓝” 小组公布了一个秘密，每场对局结束后，小组都会根据卡斯帕罗夫的情况相应地修改特定的参数，“深蓝” 虽不会思考，但这些工作实际上起到了强迫它 “学习” 的作用，这也是卡斯帕罗夫始终无法找到一个对付 “深蓝” 的有效办法的主要原因。

电视问答节目对战

关键词：自然语言理解，数据库，计算力。

2011 年 IBM 的超级计算机 Watson，宣布参加美国综合挑战节目《危险边缘》。这档电视问答节目自 1964 年开播，游戏里的问题包罗万象，几乎涵盖了人类文明的所有领域。

节目《危险边缘》中 Watson 遥遥领先

人类选手詹宁斯和鲁特都是这个领域的顶级高手。前者曾创下连续 74 场赢得比赛的纪录，后者在比赛中共拿到 325 万美元奖金，但仍然不是 Watson 的对手。比赛进行到第三天，Watson 以 41413 美元的分数锁定胜局，而两位人类选手分别仅获得 19200 美元和 11200 美元。

Watson 的胜利背后，是一个挑战和两个优势。

Watson 面临的首要问题就是自然语言理解。能否与主持人互动，理解主持人自然语言的语义和语气，甚至区分问题里的双关，隐喻等信息，是 Watson 能够做出回答的前提。

突破了这一关之后，Watson 就如鱼得水了。首先，它拥有一个强大的信息来源。其中包括百科全书、字典、词典、新闻和文学作品，还包括数据库、分类学和本体论。虽然在比赛中没有连接互联网，4TB的磁盘上仍有2亿页结构化和非结构化的信息供其使用。

其次，它还有强大的计算能力。

Watson 基于 16TB 内存、2880 个 Power 7 系列处理器——当前架构中最强的处理器。这就意味着 Watson 的快。第一是检索快，它能够在 3 秒内检索数百万条信息，并选择三个可能性最高的答案；第二是判断快，它能够迅速结合场上情况做出抢答与否的决策；第三是抢答快，当其中一个答案的可能性超过 50% 后，立即启动抢答。它超越人类的抢答速度主导了整场比赛。

AlphaGo与围棋人机大战

关键词：深度学习，神经网络

围棋曾经是人工智能遥不可及的战场。

国际象棋中，平均每回合有 35 种可能，一盘棋可以有 80 回合，而围棋每回合有 250 种可能，一盘棋可以长达 150 回合。同时，一场围棋比赛中出现的不同局面多达 3 的 361 次方种。

李世石与 AlphaGo 对决以 1：4 告负

此外，围棋博弈是多个局部战争合成的最终结果，同时局部之间相互影响，无法被算法穷举。更专业点说，围棋难的地方在于它的估值函数非常不平滑，差一个子盘面就可能天翻地覆。

谷歌的 AlphaGo 程序突破了传统电脑的 “固定” 程序逻辑，融入了深度学习和神经网络的能力。这个深度神经网络由策略网络和值网络两部分组成，策略网络负责减少搜索的宽度——面对眼前的一盘棋，有些棋步是明显不该走的。这样 AI 就可以重点分析那些有戏的棋着。值网络负责减少搜索的深度——AI 会一边推算一边判断局面，局面明显劣势的时候，就直接抛弃某些路线，不用一条道算到黑。

AlphaGo 利用这两个工具学习了人类所有的棋谱，经过了几千万次的自我对弈与学习，不仅能够模仿人类棋手的思考，甚至已能够超越。2016 年 3 月，在与 AlphaGo 对决的人机大战中，来自韩国的世界围棋冠军李世石以 1：4 告负。

除了计算能力外，这场比赛还暴露出机器的其他优势：赛场上，人会因为比赛环境和压力等外部或情绪因素影响判断，而机器不会；在数小时的鏖战中，人会因疲倦而分神，机器却能永远保持专注。赛场外，人每天可做的练习是有限的，AI 则能以上万倍于人类的速度练习。

李世石在比赛后接受采访时说道：“要适应与 AlphaGo 的比赛，首个挑战就是心理方面，需要非常专注。我继续和它下不一定能赢，因为无法比它更专注，这些方面是赢不了它的。”

2017 年 3 月，AlphaGo 的升级版 Master 横空出世，通过下快棋连胜职业高手 60 盘，其中就包括了中国最强棋手柯洁。

AlphaGo2.0 发布于 2017 年年初，相比于 1.0，这个版本能称得上真正的 “自我学习”。1.0 版本的 AlphaGo 以人类所有棋谱为蓝本，AlphaGo 再怎么走也只是算出了人类棋手曾走过的某一步，顶多算是个完美的 “人类棋手”。而 2.0 版本 AlphaGo 就利用这个“完美棋手”的估值函数自我对局和 “深度学习”，超出了人类棋谱的范围，是真正机器算出来的棋法。

2017 年 4 月，AlphaGo 还将有一场与柯洁的人机对战，这或许将会是人机在围棋领域的最后一战。

德州扑克人机大战

关键词：不完美信息的博弈

2017 年 1 月 11 日至 1 月 30 日，美国卡内基梅隆大学开发的人工智能 Libratus（“冷扑大师”）与 4 名人类顶尖德州扑克选手之间的 “人机大战” 在美国匹兹堡进行，经过了为期 20 天，总计对战 12 万手牌的赛程，最终人工智能取得胜利。

与之前和人类在棋类的竞赛中比拼智力不同，AI 在德州扑克项目上挑战人类反映了 AI 更值得关注的进化方向。

围棋、国际象棋比赛中双方所有信息一览无余，本质上是对称信息的博弈，而德州扑克是信息不对称的博弈，每个选手只能看到自己的手牌。这就决定了人工智能首先需要面对大量不完整的信息。

因此，德扑背后是一个大型的 AI 谈判算法。“冷扑大师” 并不基于大数据、深度学习、强搜索等传统 AI 方法；而是基于博弈论，直接在比赛同时动态优化胜率最高的数学模型。这其中不仅包含了概率统计和运筹策略，也包含了巨大的信息处理计算量。CMU 计算机学院院长 Andrew Moore 在接受采访时说道：“冷扑大师的程序如果要让人类去计算，大概得花人类 1000 万个小时。”

与此同时，冷扑大师也面临着挑战。德州扑克更接近人性，因为信息是有隐藏的，牌手可以诚实地表达，也可以欺骗地表达，即德州扑克中的诈唬（bluff）技术。而机器明显无法通过对手的动作表情判断对手牌的强弱，也无法通过肢体、神态表演来蒙蔽对手。

在对赛中，冷扑大师无法使用德州扑克中的诈唬技术

百度首席科学家吴恩达（Andrew Ng）就曾指出，“扑克（不完美信息博弈）是人工智能最难攻克的游戏之一。每一步没有所谓的最优解，人工智能要采取随机的策略，这样它诈唬的时候对方才会吃不准。”

相比围棋 AI，德州扑克 AI 应用空间更广泛。现实世界中，不完美信息博弈才是常态，例如在商业谈判、医疗方案制定等领域，这些过去被认为人类拥有独特优势的领域，未来都会面临机器的挑战。

结语：

从 1996 年到 2017 年，人工智能与人类的四次竞赛从侧面反映出了 AI 的进化：从计算能力超越人类到学会自然语言理解，再到深度学习直至掌握不完美信息博弈的能力。在这 21 年中，机器不仅智商越来越高，在情商上也越来越不输于人类。尤其是当 AI 在其最难攻克的游戏德州扑克上与人类叫板，这意味着什么，又将带来哪些机会和挑战？

4 月 10 日上午 10 点到 12 点，极客公园将携手创新工场，和德州扑克 AI “冷扑大师” 背后的主创团队卡内基梅隆大学计算机系教授 Tuomas Sandholm ，创新工场董事长李开复博士及五位国内科技公司创始人一起探讨 “冷扑大师” 背后的技术逻辑以及 AI 会在未来产生哪些更深层次的影响。

这是极客公园前沿社组织的第一次闭门交流。极客公园前沿社是一个企业家社群，通过前沿的技术交流和最有效率的学习机制，帮助企业家自我提升，发现商业创新的新可能！欢迎关注极客公园前沿社公众号和访问官网 f.geekpark.net，在这里收获独家深度内容，共同思考，一起刷新认知。