编辑:熊笑
【新智元导读】
群殴也无济于事
!乌镇围棋对抗战,AlphaGo 力克五名围棋高手的团队攻势,再取一胜。人与机器的对战三连败。
上午结束的“古力+AlphaGo输给了连笑+AlphaGo。就此,AlphaGo 此次中国之行只剩下明天与柯洁的最后一场比赛,但是毫无疑问已经成为最大赢家。新智元带来颜水成、田渊栋和邓侃的精彩点评。
新智元获得的最新消息,在刚刚结束的五名中国棋手(陈耀烨、时越、芈昱廷、唐韦星、周睿羊)对阵 AlphaGo 的比赛中,人类棋手执黑告负,继柯洁两连败之后在人机pk中再输一场。
在上午结束的围棋界历史上首次人机协作大战中,连笑和 AlphaGo 的组合中盘第220手执白战胜古力和 AlphaGo 的组合。
在五人团体赛中,人类棋手的每一步棋,都由五名棋手讨论后决定。
五个人类真的能抵上一个“阿老师”吗?就此问题,新智元采访了几位专家。
Facebook 研究员田渊栋表示:”这种下法当然很有意思,不过五个人可能不能提高胜算,主要是意见不会太统一。大家想不到的招,五个人一起也一样(想不到)。”
360首席科学家颜水成表示:“如果配合好,后续算棋时可以算得更准。(机器)有些招式人开始理解不了,只能后面反推才能明白。”
对于上午的人机配合比赛,
田渊栋说:“人和机器的协调是挺有意思的。很多时候人不理解机器的意图,回头想来觉得机器还挺有道理的,如果机器太强,可能人帮不上什么忙,如果机器有明显弱点,那人可以补上。“
资深技术专家、CMU 博士邓侃说:群殴也无济于事。五个人的脑子合在一起,算力能抵得过 TPU 吗?(这种下法能够)营造热闹的比赛气氛,提高观赏性,吸引注意力。
古力在解说本场比赛时透露,团队赛中棋手团队派出周睿羊为代表,是因为他对 AlphaGo 的棋局有着深入的研究,有“Alpha羊”之称。古力还透露,柯洁曾自告奋勇要为棋手团队执子,担任“机械臂”,但因棋手团队担心
“柯氏机械臂”
自作主张而作罢。
和 5 对 1 的比赛相比,上午的人机协作大战也许更值得玩味。
在上午结束的围棋界历史上首次人机协作大战中,连笑和 AlphaGo 的组合中盘第220手执白战胜古力和 AlphaGo 的组合。
比赛过程首先是一次人与 AI 的沟通过程。两方的 AlphaGo 都走出了一些本方搭档不能理解的招数,让连笑与古力两位人类选手有些无所适从。而当人类选手出招发难时,AI 似乎也不能完全理解人类的意图,并不能完全配合。
这种感觉就像玩实况足球时,你拿球看到空档,AI 控制的队员却迟迟不懂跑位。唯一的区别是,在围棋中,我们现在更倾向于相信,更聪明的那个是 AI。
有趣的细节有三点:
-
比赛进行到中盘,连笑和 AlphaGo 的组合明显处于下风,解说员和现场观众纷纷认为胜负已定。此时连笑的 AlphaGo 队友招数明显变得激进;不难想象,在 AlphaGo 左右互搏自我训练的寂寞时间里,AlphaGo 内部经常有这样的激烈对招,AlphaGo 因此才成为了今天的 AlphaGo。而今天的比赛,对 AlphaGo 来说,不过是自我对弈过程的外化;
-
此后,连笑和 AlphaGo 的配合忽然非常顺畅,连笑对 AlphaGo 棋路的理解,至少从当时的局势看,似乎在古力之上,而这一点,也成为了致胜的关键;
-
比赛进行到最后,古力的 AlphaGo 队友已经提出认输,却被古力拒绝;在这之后,古力的 AlphaGo 队友招数明显变得保守而消极,正如很多观战的人士指出的,古力的 AlphaGo 队友似乎在“逼”古力认输。
David Silver 在乌镇的演讲上曾经表示:“这一代 AlphaGo
如此强大的原因之一,是我们使用了最好的数据——AlphaGo 自我对弈的数据。所以,AlphaGo 实际上成了自己的“老师”,每一代生成的数据都成为下一代、更强一代的训练材料。我们使用这一过程,训练了更强大的策略网络和价值网络。”
“具体说,我们让AlphaGo自我对弈,也就是通过强化学习,生成大量数据,训练下一代的AlphaGo。这时,策略网络就使用它自己生成的数据,在不进行任何搜索的情况下,自己训练自己得出最强大的走法,由此得出了目前最强大的策略网络。”
这里的问题在于,今天对战双方的 AlphaGo,都不知道自己在协同作战。在整个过程中,只有两位人类选手清醒地认识到他们是在协作,他们会去主动配合 AI 的走法,并预测自己 AI 队友的招数。而对于两台 AlphaGo 来说,今天的比赛和它们无数次进行的自我对弈没有区别。
简言之,它们只是根据最新的棋盘局面,去考虑接下来自己该怎么走。它们没有意识到,接下来的每一步,都仍然需要配合完成。
目前确实还没有官方消息,显示 DeepMind 为此役对 AlphaGo 进行了哪些算法上的调整。但无论是今天场上的局面看,还是从时间点上判断,这一算法和与柯洁对弈的 AlphaGo 单打独斗版本没有太大区别。
实际上,关于多智能体协作的研究一直在继续,但 DeepMind 似乎并未本次参赛的 AlphaGo 上加入相关研究成果,正如新智元此前在文章中报道的,DeepMind 此来,本就是醉翁之意不在酒。
此前新智元给大家介绍过,阿里巴巴认知计算实验室与伦敦大学学院计算机系合作,以游戏“星际争霸1”(下简称“星际”)中的微观战斗场景为测试环境,深入地研究了多个 AI 智能体之间的协作问题,旨在通过协作智能解决人类不擅长的问题。