专栏名称: 环球物理
环球物理,以物理学习为主题,以传播物理文化为己任。专业于物理,致力于物理!以激发学习者学习物理的兴趣为目标,分享物理的智慧,学会用物理思维去思考问题,为大家展现一个有趣,丰富多彩的,神奇的物理世界!
目录
相关文章推荐
51好读  ›  专栏  ›  环球物理

【人工智能】绝望!人类玩了4000年的围棋,原来是瞎玩!阿尔法狗的弟弟阿尔法元来了!自学成才,三天秒杀它哥!

环球物理  · 公众号  · 物理  · 2017-10-20 21:04

正文


一年前,一只阿尔法狗横空出世,它在学习了几百万册人类棋谱后,以4-1打败了人类世界的围棋冠军李世石,震惊世界,由此引发了一系列对于人工智能的讨论。


最近,它的弟弟阿尔法元再一次刷新人们的认知,没看过一本棋谱,自学成才,3天时间,它就以100:0的成绩战胜了哥哥,刷新围棋领域的排名!




伦敦时间10月18日18:00,研究团队 DeepMind再次在 《自然》(Nature)杂志上发表了一篇关于AlphaGo的文章,称新一代AI程序AlphaGo Zero(阿尔法元)在没有任何人类输入的情况下,可以自学成才。


旧版AlphaGo在今年5月战胜柯洁后宣布退役,但DeepMind公司仍在继续研究AlphaGo系列产品,此次发表的论文就是为了推出迄今为止的最强版AlphaGo,代号AlphaGo Zero。


这只新的阿尔法狗不简单,它在完全没有人类帮助的情况下,自学成才。而且,从“一张白纸”到“顶级高手”,它只需要短短3天时间!


在某种意义上可以说, 人类把阿尔法狗教坏了! 它再也不需要人类的“教育和帮助”了。


戳视频,看看Zero到底厉害在哪里。



不使用人类的围棋数据,AlphaGo Zero是如何实现自学的呢? 那就要先说说Zero与“旧狗”有哪些不同。


旧版Alpha Go需要先学习数百万份人类棋谱,还要经过几个月的密集训练,从而进行自我训练,实现超越。


新版Zero却能够“无师自通”

,完全不需要任何历史棋谱的指引,也不需要人类的任何先验知识,完全靠自己的强化学习(reinforcement learning)


研究团队事先没有给Zero学习任何人类棋谱,只告诉它围棋的规则,就让它自己 在棋盘上下棋,与自己进行对弈,从一次次试验和失败中吸取经验教训,摸索规律,在实战中提高棋艺。


另外, Zero使用了单一的神经网络 此前版本的AlphaGo都是用了两种神经网络,一种用来预测下一步棋最好的走法,另一种用来计算,根据这些走法,谁更有可能获胜。


而Zero把这两种网络合二为一,只让神经网络预测获胜者, 从而能够得到更高效的训练和评估,就好像让一个围棋高手来预测比赛结果一样。

(Zero强化学习下的自我对弈)


此外, Zero也不再使用快速而随机的走子方法。 打个比方“旧狗”像是 走一步看三步、 步步为营的棋手,而Zero更像是纵观全局、成竹在胸的围棋大师。


DeepMind团队称,Zero用更新后的神经网络和搜索算法重组,随着训练加深,系统的表现不断进步。自我博弈的成绩也越来越好。同时,神经网络也变得更准确。



Zero的学习很好地反映了人类棋手学习的过程。像初学者一样,开始只是贪婪地想要吃掉对方的棋子。但是经过3天训练,它就能掌握人类围棋高手所使用的复杂的技巧,“它重新发现了人类几千年的知识”,哈萨比斯说。


从下图可以看出,Zero的胜率一直在提升。3天后能战胜李世石,21天后能战胜AlphaGo Master,而40天后,就能超过AlphaGo此前的所有版本。







请到「今天看啥」查看全文