专栏名称: 环球物理

环球物理，以物理学习为主题，以传播物理文化为己任。专业于物理，致力于物理！以激发学习者学习物理的兴趣为目标，分享物理的智慧，学会用物理思维去思考问题，为大家展现一个有趣，丰富多彩的，神奇的物理世界！

【人工智能】绝望！人类玩了4000年的围棋，原来是瞎玩！阿尔法狗的弟弟阿尔法元来了！自学成才，三天秒杀它哥！

环球物理 · 公众号 · 物理 · 2017-10-20 21:04

正文

一年前，一只阿尔法狗横空出世，它在学习了几百万册人类棋谱后，以4-1打败了人类世界的围棋冠军李世石，震惊世界，由此引发了一系列对于人工智能的讨论。

最近，它的弟弟阿尔法元再一次刷新人们的认知，没看过一本棋谱，自学成才，3天时间，它就以100：0的成绩战胜了哥哥，刷新围棋领域的排名！

伦敦时间10月18日18：00，研究团队 DeepMind再次在《自然》（Nature）杂志上发表了一篇关于AlphaGo的文章，称新一代AI程序AlphaGo Zero（阿尔法元）在没有任何人类输入的情况下，可以自学成才。

旧版AlphaGo在今年5月战胜柯洁后宣布退役，但DeepMind公司仍在继续研究AlphaGo系列产品，此次发表的论文就是为了推出迄今为止的最强版AlphaGo，代号AlphaGo Zero。

这只新的阿尔法狗不简单，它在完全没有人类帮助的情况下，自学成才。而且，从“一张白纸”到“顶级高手”，它只需要短短3天时间！

在某种意义上可以说， 人类把阿尔法狗教坏了！ 它再也不需要人类的“教育和帮助”了。

戳视频，看看Zero到底厉害在哪里。

不使用人类的围棋数据，AlphaGo Zero是如何实现自学的呢？那就要先说说Zero与“旧狗”有哪些不同。

旧版Alpha Go需要先学习数百万份人类棋谱，还要经过几个月的密集训练，从而进行自我训练，实现超越。

新版Zero却能够“无师自通”

，完全不需要任何历史棋谱的指引，也不需要人类的任何先验知识，完全靠自己的强化学习（reinforcement learning）。

研究团队事先没有给Zero学习任何人类棋谱，只告诉它围棋的规则，就让它自己在棋盘上下棋，与自己进行对弈，从一次次试验和失败中吸取经验教训，摸索规律，在实战中提高棋艺。

另外， Zero使用了单一的神经网络 。此前版本的AlphaGo都是用了两种神经网络，一种用来预测下一步棋最好的走法，另一种用来计算，根据这些走法，谁更有可能获胜。

而Zero把这两种网络合二为一，只让神经网络预测获胜者，从而能够得到更高效的训练和评估，就好像让一个围棋高手来预测比赛结果一样。

（Zero强化学习下的自我对弈）

此外， Zero也不再使用快速而随机的走子方法。 打个比方“旧狗”像是走一步看三步、步步为营的棋手，而Zero更像是纵观全局、成竹在胸的围棋大师。

DeepMind团队称，Zero用更新后的神经网络和搜索算法重组，随着训练加深，系统的表现不断进步。自我博弈的成绩也越来越好。同时，神经网络也变得更准确。

Zero的学习很好地反映了人类棋手学习的过程。像初学者一样，开始只是贪婪地想要吃掉对方的棋子。但是经过3天训练，它就能掌握人类围棋高手所使用的复杂的技巧，“它重新发现了人类几千年的知识”，哈萨比斯说。

从下图可以看出，Zero的胜率一直在提升。3天后能战胜李世石，21天后能战胜AlphaGo Master，而40天后，就能超过AlphaGo此前的所有版本。