还记那个由谷歌旗下 DeepMind 团队开发的人工智能 AlphaGo 吗?
它在2016年3月与围棋高手李世石一战成名 ,让全世界认识了它的名字;随后又以“Master”的名字,于2017年1月 在网络上以30秒快棋连胜全球数十名围棋高手 ,包括当时世界排名第一的柯洁;随后在2017年5月于乌镇举行的比赛上,柯洁全力迎战 AlphaGo 但却惨遭三战全败。
AlphaGo和李世石的对局
在乌镇与柯洁的对局
至此,一度被认为人类最不可能被战胜的围棋也被人工智能拿下,AlphaGo 已经站在了这个项目的巅峰,可谓是独孤求败。
但它终究还是败了,而且是 100:0 的惨败。
究竟谁能让它连一局都赢不了?
答案是 DeepMind 的下一代人工智能:AlphaGo Zero。
在今天出版的《自然》杂志上,DeepMind 团队详细介绍了他们在2016年击败李世石的 AlphaGo,因为它是史上第一个在围棋项目上击败人类的机器,这毫无疑问是人工智能技术一项新的里程碑。而在这之后,他们又开发出了新一代的人工智能:AlphaGo Zero。
如果说,上一代的 AlphaGo 是通过分析人类目前留下了成千上万场对决和赛局来学习围棋的规律和制胜方法的话,那么使用了强化学习技术(reinforcement learning)的 AlphaGo Zero 则更加简单,它只需要知道游戏规则,就可以开始自我学习。
DeepMind 的首席执行官 Demis Hassabis 表示:“它的学习方式就是自己和自己玩,从完全没有任何规律的随机游戏开始。在这个过程中,它很快就超过了人类水平,并最终以 100:0 的战绩击败了论文中提到的上一代 AlphaGo。”
“这项技术比上一代 AlphaGo 更强就在于他不受限于人类的知识。它可以从零开始自己学习,直到击败世界上最强的围棋选手:AlphaGo 自己。”
AlphaGo Zero的自我强化学习
在经过72小时,但是上百万次的自我对弈之后,AlphaGo Zero 仅仅使用4个 TPU 就击败了48个 TPU 的 AlphaGo Lee,也就是上面提到2016年击败李世石的版本。此时它对阵 AlphaGo Master 的成绩为压倒性的 89:11,Master 则是上面提到打败柯洁的版本;而经过40天的自我对弈之后,它最终以100战全胜的成绩全面超越了 AlphaGo Master。
此外,研究人员还发现,由于不再受限于人类现存的棋局数据和理论,AlphaGo Zero 的棋路非常奇特,经常会出现人类从来没有下过的变种棋法。短短几十天,它不仅掌握了人类上百年来积累的围棋技术,而且还有了全新的理解与开拓。
Demis Hassabis 表示:“当前的最强版本,AlphaGo Zero 向我们展示了即使不用人类的数据,即使只用更少的计算资源,也能够取得长足进步。当然,我们最终的目的是用这些技术进展去解决现实问题,如蛋白质折叠或者新材料设计。如果我们能够在这些问题上取得同样进展,这将会而改善每个人的生活,并且给人类的知识带来长足的进步。”
曾经不可想象的未来,似乎离我们又近了一步呢,现在突然很好奇下一个被人工智能拿下的领域将会是什么呢?
微信内搜索VGTIME2015
关注「游戏时光VGtime」
长按图片下载游戏时光App,获取更多精彩内容。