专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
人工智能那点事  ·  一店铺未按要求彻夜亮灯被撬锁开灯?多方回应! ·  13 小时前  
宝玉xp  ·  //@钱钱_P大数学病院患者:llama之类 ... ·  昨天  
宝玉xp  ·  //@高飞:OpenAI也是神奇,和谷歌的产 ... ·  2 天前  
量子位  ·  DeepSeek华为火线联手!硅基流动首发即 ... ·  3 天前  
宝玉xp  ·  OpenAI 今天下午在 Reddit ... ·  4 天前  
51好读  ›  专栏  ›  机器学习研究会

AlphaGo的制胜秘诀:蒙特卡洛树搜索初学者指南

机器学习研究会  · 公众号  · AI  · 2018-03-27 23:03

正文

长久以来,计算机在围棋领域不可能达到人类专家的水平一直是学术界的主流观点。围棋,被认为是人工智能的“圣杯”——一个我们原本希望在未来十年努力攻克的里程碑。


二十年前,“深蓝”就已经在国际象棋上超越了人类,二十年过去了,计算机却依然无法在围棋这一项目上战胜人类。围棋的运算的复杂性一度让人们将其称为“数值混沌”。甚至有人据此创作了一部科幻惊悚电影《圆周率》。


然而,出乎很多人意料的是,AlphaGo ——一个由谷歌 Deepmind 发明的围棋 AI 于 2016 年以 4:1 的成绩击败了韩国围棋冠军李世石。AlphaGo 的出现结束了围棋不可战胜的局面。一年之后,Alpha Go Zero 又以 100:0 的成绩击败了 Alpha Go Lee(击败李世石的那个)。我们不禁怀疑,人类还能追上 AI 吗?



作为人类工程学上的杰作,Alpha Go Zero 将多种方法集于一体,其核心组件包括:


  • 蒙特卡洛树搜索 ——包含了用于树遍历的 PUCT 函数的某些变体

  • 残差卷积网络 ——其中的策略和价值网络在游戏中被用于棋局评估以及落子位置的先验概率估计

  • 强化学习——通过自我博弈来训练网络

 

在本文中,我们将就 AlphaGo 中的蒙特卡洛树搜索(MCTS/Monte Carlo Tree Search)进行专门介绍 ,这也是所有现代围棋程序的最核心算法。


本文内容目录如下:


1 介绍

  • 1.1 有限双人零和回合制博弈

  • 1.2 如何表示博弈?

  • 1.3 如何选择最优胜率下法? 极小化极大算法(Minimax)和剪枝算法(alpha-beta)

2 蒙特卡洛树搜索的基本概念