「人机大战」一轮初定 | AlphaGo 2.0首局击败柯洁

CSDN · 公众号 · 科技媒体 · 2017-05-24 10:12

正文

请到「今天看啥」查看全文

5月23日，“中国围棋峰会”在乌镇拉开帷幕，备受关注的世界第一棋手柯洁与AlphaGo 2.0的第一场比赛于10:30正式开始， 下午14:50，三番棋第一局，AlphaGo 执白1/4子胜，比分0-1 。AlphaGo目前在实力上已经有了较为明显的优势，基本上掌控着全场比赛的局面，较为平稳地击败了柯洁。新版AlphaGo摈弃了人类棋谱，只靠深度学习的方式成长起来挑战围棋的极限，直播地址： http://events.google.com/alphago2017/ 。

整体赛程如下：

5月23日柯洁 VS AlphaGo
5月24日时越+陈耀烨+芈昱廷+唐韦星+周睿羊(相谈棋) VS AlphaGo
5月25日柯洁 VS AlphaGo
5月26日古力+AlphaGo VS 连笑+AlphaGo
5月27日柯洁 VS AlphaGo

柯洁与AlphaGo的对战现场

DeepMind创始人Demis Hassabis、柯洁与Google董事长Eric Emerson Schmidt

开赛前夜，柯洁更新微博表示“现在的AI进步之快远超我们的想象，可它始终都是冷冰冰的机器，与人类相比，我感觉不到它对围棋的热情和热爱，无论结果，这将是我最后的三盘人机大战”。

AlphaGo是什么？

AlphaGo 是第一个击败人类职业围棋选手并战胜围棋世界冠军的程序，是围棋史上最具实力的选手之一。2016 年 3 月，在全世界超过一亿观众的关注下，AlphaGo 经过5局对弈，最终以 4 比 1 的总比分战胜了围棋世界冠军李世石，这场比赛成为了人工智能领域的一个重要里程碑。过去曾有专家预测人工智能需要十年的时间才有可能战胜人类职业选手，在这场比赛之后，AlphaGo 凭借其“充满创意而又机智”的下法，跻身围棋界最高职业称号——职业九段行列，成为历史上首个获得这一荣誉的非人类棋手。

近期，AlphaGo的升级版本以”Master/Magister”的称谓与世界顶级的围棋选手进行了60场线上快棋对局，并取得了全胜的出色战绩。

AlphaGo如何进行训练？

一直以来，围棋就被认为是传统游戏中对人工智能最具挑战性的项目。这不仅仅是因为围棋包含了庞大的搜索空间，更是因为对于落子位置的评估难度已远远超过了简单的启发式算法。

为了应对围棋的巨大复杂性，AlphaGo 采用了一种新颖的机器学习技术，结合了监督学习和强化学习的优势。通过训练形成一个策略网络（policy network），将棋盘上的局势作为输入信息，并对所有可行的落子位置生成一个概率分布。然后，训练出一个价值网络（value network）对自我对弈进行预测，以 -1（对手的绝对胜利）到1（AlphaGo的绝对胜利）的标准，预测所有可行落子位置的结果。这两个网络自身都十分强大，而 AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索（MCTS）中，实现了它真正的优势。最后，新版的AlphaGo 产生大量自我对弈棋局，为下一代版本提供了训练数据，此过程循环往复。

AlphaGo 如何决定落子？

在获取棋局信息后，AlphaGo 会根据策略网络探索哪个位置同时具备高潜在价值和高可能性，进而决定最佳落子位置。在分配的搜索时间结束时，模拟过程中被系统最频繁考察的位置将成为 AlphaGo 的最终选择。在经过先期的全盘探索和过程中对最佳落子的不断揣摩后，AlphaGo的搜索算法就能在其计算能力之上加入近似人类的直觉判断。

AlphaGo 的棋风

AlphaGo最强大的地方，并不体现在具体某一手棋或者某个局部变化中，而是它在每一局棋里所展现出来的独特视角。虽然AlphaGo的棋风本身并不容易总结，但是总体来说，AlphaGo更倾向于使用一种自由、开放式的行棋风格。在它的世界里，没有什么先入为主的概念，也没有什么必须要遵守的规则，这让它得以打破常规，发现当前棋局中最高效的一手。