3月19日,在第10届UEC杯世界计算机围棋赛上,决赛中由腾讯 AI Lab(腾讯人工智能实验室)研发的围棋人工智能程序“绝艺”(Fine Art)击败日本开发的“DeepZenGo”(天顶),以11战全胜的战绩夺冠。
今年共有30支软件参加此次大赛。继18日的循环积分赛中,“绝艺“以七局全胜战绩进入16强后,又以四连胜战绩夺得本届UEC杯冠军,日本“DeepZenGo”获亚军。
为此,雷锋网特地采访了腾讯AI Lab高级总监、绝艺团队负责人刘永升,内容关于绝艺团队的组成、未来在其他领域的应用、背后的云计算、鲁棒性优化,AI面对围棋打劫等问题。
雷锋网:腾讯围棋AI“绝艺”打败日本的DeepZenGo,赢得了UEC电脑围棋大赛。“绝艺”获胜展示了一个什么样的AI技术水平?
很高兴‘绝艺’能够在UEC杯夺冠,这次比赛中有许多优秀的围棋AI团队,比如deepzengo,我们尊敬这些对手和同行。这次比赛是非常难得的宝贵经验。绝艺”参加UEC比赛包括和一力辽下棋,实际上更多的是为了学术交流,也让“绝艺”在和高手的对决中更好地成长。
绝艺涵盖了人工智能最热门的研究领域——深度学习和强化学习,经过人类棋谱和机器自对弈的学习过程,算法基于策略网络与价值网络两大核心,并创新性大幅提升了后者精度。
当然,绝艺的研究对腾讯AI Lab的价值也不止于围棋AI本身,它帮助我们在深度学习、强化学习方面进行了非常有价值的探索和创新,这些都将为将来的研究奠定很好的基础。
雷锋网:“绝艺”的团队组成是什么样的,有哪些技术人才?
AI Lab隶属于腾讯技术工程事业群TEG旗下,TEG一直以来是腾讯技术的基础设施大本营,为其他BG提供技术支撑。AI Lab于2016年成立,专注与AI领域的基础科学研究和应用探索,目前有50余位世界知名学院的AI科学家(90%为博士)、及200多位经验丰富的工程师。
团队是由13位年轻人组成的。一半人做算法研究,一半人做算法实现。所有成员全部隶属腾讯AI Lab。“绝艺”项目除了有腾讯围棋上的围棋高手指导,在公司内部中还有一些行家,比如AI Lab负责人姚星是业余2-3段、TEG总裁卢山总是业余五段,我们后期还请到罗冼河九段来做“绝艺”的陪练。
雷锋网:谈谈“绝艺”的训练过程和“绝艺”几个关键性的迭代和野狐平台训练的作用?就是不断发现问题,修复问题的过程。围棋AI不比其他,必须要像罗洗河老师这样不仅棋力水平超过,并且懂计算机的天才,才能很好的发现AI对弈过程中存在的问题。
迭代方面,绝艺最初的id是“虎虎有生气”,主要和业余强手下,对野狐9段的胜率大概是70%左右;9月份开始,开始使用“野狐扫地僧”,主要和弱职业(指棋手段位)、强9下,胜率大概是80%左右;10月份使用“天下无狗“的ID,还是和弱职业、强9下,胜率可以到90%。绝艺在11月份输给 炼心(时越)之后闭关,主要是大幅度提升了价值网络的精度,随后是以刑天的id亮相,短暂使用过“刑天”和“郦龙”两个名字。“绝艺”这个id登录是从去年11月1日开始登录,截至昨日在野狐围棋上对战388胜,120负,胜率76%。
“绝艺”与其他围棋AI最大的不同之处,是在成长上得到了世界超一流棋手的指导。在高手云集的腾讯围棋(野狐围棋)平台上,它与人类棋手不断交流,在对战中学习,腾讯围棋(野狐围棋)上强手如云的竞技氛围给予很大帮助。这也是AI Lab对于绝艺的期待——希望它能与人类棋手积极互动,从而激发更多关注并传承围棋这一中国传统文化。这是我们的一种科技责任感。
雷锋网:细化到棋谱层面,你们用哪些棋谱来训练绝艺的?相比而言是错综复杂且多样化的普通棋谱重要,还是高手与高手之间的顶级棋谱更重要?你们在训练期间如何分配两类棋谱的比例?
都很重要,AI自对弈棋局的量会比人类棋局多非常多。
雷锋网:“绝艺”这次参加的是电脑围棋比赛,这与人机对战有什么不一样?
人比较狡猾,但人容易犯错;机器比较老实,但几乎不犯错。
UEC杯是世界权威的计算机围棋大赛,由日本电气通信大学于2007年创办,承载了计算机攻克围棋项目的使命。一直以来,UEC杯都是人工智能领域的一项盛事,既是各国人工智能研发的实战演练机会,也是世界各团队间技术交流的平台。大赛活跃的团队DeepZenGo、疯石、石子旋风等都是水平很高的明星程序。
比赛对于活化围棋领域、促进AI科技发展有重大作用,并不是单纯为了决出最强AI,我们参与UEC比赛也是抱着与同行交流切磋的心态。
雷锋网:“绝艺”背后的硬件配置什么样的?在绝艺这个项目上,腾讯云对内提供了哪些能力?这些能力是如何转化为产品和服务?对其他参赛团队来说,此事背后的腾讯云有哪些技术优势?
“绝艺”的学习主要包括人类棋谱数据库和机器自对弈,它的算法基于策略网络与价值网络两大核心,并创新性地大幅提升了价值网络的精度,使其大局观表现更好。通俗的说,“策略”指每一步博弈时,各种选择的取舍,选好棋弃差棋,这是偏微观评估;而“价值”则指能看懂棋局,判断给定棋局是不是能赢,这是偏宏观的评估。
“绝艺”背后,是深度学习和强化学习这两个机器学习十分热门的研究领域,它的总体框架遵循AlphaGo去年1月在《Nature》上发表的文章,是一个纯机器学习系统,但在实践中做了超出论文的创新。
举例来说,现代强化学习的核心,是用先进的机器学习算法作模拟器,生成高质量、实际有效的数据(experience replay) - 这个过程在围棋AI中被称为自对弈。通过这个方法,可以让得学习到的模型不断通过强化生成的数据来自我提高。
在训练“绝艺”的机器学习模型过程中,我们探索了一些全新、而且非常有效的强化学习方法,能创造出更优质的自我模拟数据,从而导致了更强的模型。比如,和很多其他围棋AI相比,绝艺的对杀能力会更强。AI Lab构造“绝艺”的经验,积累了一系列有效的方法,可以通过自我学习产生高质量的强化学习数据。这些方法可以应用在很多别的场景之中。
至于大家很关心的硬件系统,“绝艺”的线上系统有单机版和多机版:单机版差距和多机版没有大家想的那样大。而多机版所用的机器资源比DeepMind公开数据所透露的要少,所以绝艺不用靠资源取胜。
此外,在训练中绝艺利用了腾讯的云计算资源生成高质量数据,提升了提算法创新速度。这些计算资源在行业内都可以通过腾讯云对外服务直接获取。
雷锋网:绝艺在2月10日时在野狐围棋被几位棋手连杀几局,随后被下线调整。当时遇到了哪些问题,你们为此做了哪些调整?
我们在测试 布局、中盘、官子三个阶段的平衡,加强中盘之后,对杀问题就不存在了。
雷锋网:AlphaGo与李世石的第四场对战期间,第78手后连续出现了严重的错误,这里就涉及到机器鲁棒性的问题。那么绝艺是如何优化鲁棒性的?
不管是人还是AI,关键时刻犯错,那都是致命的。提升鲁棒性,关键还是要提高策略网络、估值网络的精度,这是一个缓慢提升的过程。
雷锋网:周志华教授之前提到围棋中的“打劫”手段会让价值网络崩溃,微软的郑宇也说到没有了价值网络的AlphaGo其实水平也就职业3段左右,很多人也发现AlphaGo确实会有意避开打劫。那么绝艺在解决“打劫”问题方面有哪些研究?
绝艺在大量的实战中从来不会规避打劫,从来没有碰到打劫奔溃的现象。和超一流高手交手中,绝艺的打劫表现出非常高的水平。我们并没有针对打劫做优化,AI不会打劫更待商榷。
雷锋网:你们打算将“绝艺”系统的相关技术应用于哪些领域?李开复曾说 “AlphaGo 其实做了相当多的围棋领域的优化,除了系统调整整合之外,里面甚至还有人工设定和调节的一些参数,因此还不能算是一个通用技术平台,不是一个工程师经过调动API就可以使用的,而且还距离比较远。”绝艺除了围棋外,要应用在其他领域需要解决哪些问题?
从应用价值上,短期看,腾讯围棋是本身国内最大、最活跃的的围棋平台之一,做得好,可能马上就会有很多人能用上;中期看,AI Lab关注四大应用方向:内容AI、游戏AI、社交AI和平台工具型AI,围棋AI就和其中的游戏AI密不可分,是比较独有且创新的应用场景;长期来看,‘绝艺’背后‘精准决策’的AI能力,也能在无人驾驶、量化金融、辅助医疗等地方应用。如果从围棋AI的完美对称博弈系统,进化到不完美对称博弈系统,也就是能处理现实中更常见的不确定性问题时,这里的想象空间非常巨大,当然也是比较长远的应用了。
通过打造“全面AI能力”,腾讯的愿景是让真正的人工智能未来无处不在(Make AIEverywhere),深入到生活中,用AI提升人类的生活品质。AI的未来,不仅仅是提供更安全、高效、便捷的智能工具,更要成为每个人心中的超级英雄“大白”,让小朋友更“被理解”,不会因父母不在身边而缺少陪伴;让成年人更“被保护”,不会因工作的危险让自身安全没保障;让老年人更“被照顾”,不会因身处偏远山区而得不到及时治疗。
雷锋网:对非AI公司以及普通大众来说,绝艺取得大赛冠军这件事有哪些意义,应该怎么看待这个事情?
比赛并不是单纯为了决出最强AI,而是对于活化围棋领域、促进AI科技发展有重大作用。AI Lab对于绝艺的期待也是如此,希望它能与人类棋手的积极互动,能激发更多关注并传承围棋这一中国传统文化。这是我们的一种科技责任感。
在未来我们也会将绝艺的技术开放出来,助力围棋AI的技术研究,从而更好地传承围棋文化。