专栏名称: CDA数据分析师
CDA数据分析师品牌官方微信,开放、创新、分享。
目录
相关文章推荐
数据派THU  ·  ICLR 2025 | ... ·  2 天前  
数据派THU  ·  DeepSeek-R2曝5月前上线!第三弹D ... ·  昨天  
大数据文摘  ·  Claude 3.7 ... ·  3 天前  
数据派THU  ·  原创 ... ·  4 天前  
51好读  ›  专栏  ›  CDA数据分析师

柯洁又输了,关于人工智能AlphaGo你需要知道些什么

CDA数据分析师  · 公众号  · 大数据  · 2017-05-25 18:42

正文


【CDAS 2017 数据体验票】


C君带你进会场,5张499元门票任性送,优惠码“mJdUIew”,凭此优惠码即可“0元”购买本次峰会价值499元的数据体验票一张。 数量有限,先到先得。(会议详情点下图,报名点阅读原文)


(说明:本票为数据体验票,仅限499元数据专场。含大会全天论坛及企业创新体验展,不含午餐;提供大会精美礼品一份;大会前排坐席)


原作者 Mirek Stanek
编译 CDA 编译团队
本文为  CDA 数据分析师原创作品,转载需授权

前言

本月 23 日- 27 日,在乌镇主办“中国乌镇·围棋峰会”中,备受瞩目的要数中国围棋现役第一人、天才少年柯洁与 Google AlphaGo(阿尔法狗)人工智能机器人的巅峰对决。AlphaGo与柯洁对弈的三局比赛,分别于 5 月 23 、25、27 日进行。


在 23 日和 25 日的对决中,柯洁虽然发挥神勇,但还是两局均战败。AlphaGo 2-0 领先,已经赢得了三番棋的胜利。


对于人类来说,这看上去不太妙。


那么,AlphaGo 究竟是什么?关于 AlphaGo 我们需要了解些什么呢?


AlphaGo 和数字


AlphaGo 是由 Google DeepMind 开发的围棋程序 ,并在2015年欧洲围棋锦标赛中它以 5:0 赢得了樊麾,在历史上第一次打败顶尖职业围棋选手。


在 AlphaGo 出现在公众视野之前,有人预测根据如今的科技水平出现具有 AlphaGo 水平(击败人类职业棋手)的人工智能大约还需要 10 年的时间。


早在 20 年前,人工智能就在国际象棋上战胜了人类,而东方古老的围棋似乎成了人类最后的坚持。


但事实让人类失望了。


一切皆关于其复杂性。



围棋和象棋都是完全信息博弈游戏 ,这意味着每个玩家都完全清楚之前发生的所有事件。而完全信息博弈,通常能被简化为寻找最优值的树搜索问题。它含有 b 的 d 次方个可能分支,在国际象棋中有 b≈35,d≈80,即10¹²³ 种;而在围棋中 b≈250,d≈150 即10³⁶⁰ 种。多核兆赫处理器一般可以每秒钟进行 10⁹ 次操作,这意味着计算所有可能的步数的时间不可估量——数学就是这么残酷。


AlphaGo 的最高目标是有效的减少搜索路径数量,具体是这在合理的时间内( AlphaGo 每一步计算时间为 5 秒),计算出可能的步数(直到游戏结束)。


为了对博弈状态进行预判,AlphaGo 使用蒙特卡罗树搜索(MCTS)——通过对搜索路径的随机抽样来扩展搜索树来分析最可能赢的选项。在博弈游戏中,MCTS 的应用是基于各种玩法,通过随机选择的方式来玩到最后。每一次的结果都被用来对博弈树的节点进行加权,这样更好的节点更有可能在之后的博弈中被选择。


通过额外的策略(例如预测职业棋手的动作)强化 MCTS ,使其达到更强的水平。


进一步的改进则基于良好的预先训练的深卷积网络。这些被广泛应用于图像分类、人脸识别或游戏中。


在 AlphaGo 中使用的神经网络的目标是:有效位置评估(价值网络)和行为抽样(策略网络)。


这也意味着 AlphaGo 的下棋方式除了学习别人的对局外,还可以自己跟自己下棋,通过对不同下法产生结果的分析来改善自己的下棋方式。这也就是说,学习时间长、学习案例好的 AlphaGo 赢的可能性更大一些。


策略网络


在机器学习中为了训练策略网络,有以下步骤。


第一阶段:

监督学习(SL),即模仿学习。 通过在 KGS (网络围棋对战平台)上最强人类对手,百万级的对弈落子去训练大脑。这就是 AlphaGo 最像人的地方,目标是去学习那些顶尖高手的妙手。AlphaGo 落子选择器能正确符合 57% 的人类高手。(其他研究团队的最高正确率为44.4%)。


第二阶段:

强化学习(RL),即自主学习。 尽管SL策略网络在预测下一步时很有效,但 RL 有助于预测最佳的(获胜)步。在这一阶段,AlphaGo 跟自己对弈,自己训练自己。


强化学习与监督学习策略对决取胜率高达 80% ,与 Pachi 获胜率为 85% ,Pachi 是一个基于蒙特卡罗树搜索法的人工智能,在 KGS 业余段位排名第二。以往 SL 与 Pachi 对决胜率仅为 11% 。


价值网络


最后阶段的训练集中在位置评估(估计当前步数获胜的概率)。基于 KGS 数据集的训练会导致过度拟合(价值网络倾向于记住游戏结果,而不是采取新的步数),因此避免这一现象,新的训练是进行自我博弈(有 3000 万个不同的位置,每个都从单独的游戏中取样)。


经过训练的价值函数比使用走棋策略的蒙特卡罗更精确,它的单次计算也与使用强化学习的蒙特卡罗的计算更相似(但计算量会少 15000 次)。


策略和价值网络搜索


AlphaGo 在蒙特卡罗搜索树中使用了策略和价值网络的组合。游戏树在模拟中被搜索,由以下阶段组成:




在获取棋局信息后,AlphaGo 会根据策略网络(policy network)探索哪个位置同时具备高潜在价值和高可能性,进而决定最佳落子位置。在分配的搜索时间结束时,模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后,AlphaGo 的搜索算法就能在其计算能力之上加入近似人类的直觉判断。


结语








请到「今天看啥」查看全文