一文带你了解谷歌AlphaGo是怎样炼成的？

网易科技 · 公众号 · 科技媒体 · 2017-04-10 18:45

正文

李世石对战AlphaGo惨败之后，期待中国选手柯洁为人类围棋而战的呼声就越来越高，从未停止！

如今，柯洁终于来到舞台中央，将于5月23日-27日在中国乌镇围棋峰会与AlphaGo一战高下！届时，AlphaGo与世界排名第一的柯洁将完成三番棋对弈，此次比赛除了AlphaGo与柯洁的世纪对战之外，还会采用团队赛、配对赛的多种形式，中国围棋代表队其他成员也将参与。那么，AlphaGo究竟是什么？它是如何炼成的？网易智能带您一一解读。

AlphaGo是什么?

AlphaGo是第一个击败人类职业围棋选手，第一个战胜世界冠军的程序，是围棋史上最具实力的选手之一。2016年3月，在全世界超过一亿观众的关注下，Alpha Go经过3局对弈，最终以4比1的总比分战胜了围棋世界冠军李世石，这场比赛成为了人工智能领域的一个重要里程碑。

过去曾有专家预测人工智能需要十年的时间才有可能战胜人类职业选手，在这场比赛之后，AlphaGo凭借其"充满创意而又机智"的下法，跻身围棋界最高职业称号——职业九段行列，成为历史上首个获得这一荣誉的非人类棋手。近期，AlphaGo的升级版本以“Master/Magister”的称谓与世界顶级的围棋选手进行60场线上快棋赛，并取得了全胜的出色战绩。

AlphaGo是如何进行训练的？

一直以来，围棋就被认为是传统游戏中，对人工智能而言最具挑战性的项目，这不仅仅是因为围棋包含了庞大的搜索空间，更是因为对于落子位置的评估难度已远运超过了简単的启发式算法。为了应对围棋的巨大复杂性，AlphaGo采用了一种新颖的机器学习技术，结合了监督学习和强化学习的优势，通过训练形成一个策略网络（policy network），将棋盘上的局势作为输入信息,并对所有可行的落子位置生成一个概率分布。

然后，训练出一个价值网络（value network）对自我对弈进行预测，以-1(对手的绝对胜利)到1(AlphaGo的绝对胜利)的标准，预测所有可行落子位置的结果。这两个网络自身都十分强大，而AlphaGo将这两种网络整合进基于概率的蒙特卡罗树搜索（NCTS）中，实现了它真正的优势。最后，新版的AlphaGo产生大量自我对弈棋局，为下一代版本提供了训练数据，此过程循环往复。