专栏名称: 虎嗅APP
有视角的商业资讯交流平台
目录
相关文章推荐
36氪  ·  小米YU7,能否延续爆款奇迹? ·  2 天前  
36氪  ·  南极游,出境最顶流 ·  3 天前  
新浪科技  ·  【#蛇元素年货热销# ... ·  3 天前  
51好读  ›  专栏  ›  虎嗅APP

百度AI负责人林元庆复盘征战《最强大脑》

虎嗅APP  · 公众号  · 科技媒体  · 2017-01-23 22:15

正文



2016年12月14日,虎嗅对百度深度学习实验室(IDL)主任林元庆及其率领的团队进行了采访,主题是“小度”参与江苏卫视《最强大脑》的前台幕后。

彼时,我们已获悉相关节目将于2017年1月6日到1月20日间分三期播出,到场的四家媒体签署了保密协议,承诺不会提前泄露比赛结果及任何细节。
 
之所以提前半个多月接受采访,是因为深度学习团队刚从南京归来,兴奋劲儿尚未消退,讲述者记忆犹新,听者身临其境。
 
这三期节目播出后,“水哥”等明星选手的完败令粉丝们失望至极,网络推手借机煽情,似乎全人类都成了输家。
 
缘起
 
《最强大脑》是江苏卫视推出的大型科学竞技真人秀节目,原型是德国的《Super Brain》。
 
2014年开播以来,观众认识了一个又一个奇人。例如郑才千在4.5万个色块组成的“魔方墙”中“找茬”;“水哥”从同质、同量、同源的520杯水中找到拿给自己看过的那杯;“迷宫行者”鲍橒因“强到没对手”而退赛;“记忆大师”王峰用1小时记忆620张扑克牌;8岁的“辨音神童”孙亦廷从装满水的气球落地的声音精准判断坠落高度……
 
2014年-2016年,《最强大脑》连播三季,取得相当不错的成绩:
 
2014年,第一季播出,收视率从1.4%攀升到最后一期的2.7%,全年均值为1.7%;
 
2015年,第二季的收视率均值为2.1%,峰值出现在第十期为2.38%;
 
2016年,第三季的收视率均值为2.1%,峰值出现在第十一期为2.55%。
 
但观众总有审美疲劳的时候,《最强大脑》已经风光了三年,第四季如果还是老一套,收视率可能出现断崖式下跌。
 
犹豫2017年还要不要搞时,阿尔法狗的挑战令人工智能受到空前关注,江苏卫视抓住“救命稻草”。
 
但先要搞清楚“人机大战”能不能成立。对《最强大脑》稍微有了解就会知道,许多项目人类只能被机器碾压。比如王峰可以在1小时内记忆1984个数字,而低档PC能记多少个G全看硬盘容量。再比如识别牛身上的黑白花纹,随便一个破手机就能完胜人类“最强大脑”。
 
在科学家“外脑“参与下,江苏卫视花了一番功夫设计了三场“人机大战”:跨年龄人脸识别、语音识别、复杂条件下人脸识别。
 
江苏卫视向多家科技公司发出过“英雄帖”,最终百度接下这张“帖子”。
 
林元庆说百度并未参与比赛形式设计,只是和其它选手一样事先被告知比赛的大致方向,如“跨年龄人脸识别”,筹备时间只有两三个月。
 
江苏卫视设计“人机大战”的基本原则是让人和机器在能力相当的领域较量。如果让人与机器比识别二维码或10位数乘以10位数,就贻笑大方了。题目的展示形式也尽量平衡人、机双方的特长,比如使用彩色照片是照顾了机器,而在展示时间和次数方面则迁就了人类(对机器来讲千分之一秒就足够了)。
 
回顾
 
第一场:比的是跨年龄识别,王峰出战“小度”
 
原定由郑才千出战。但是面对镜头,他突然说没有戴眼镜,无法比赛。另一位人脸识别高手李威说昨晚只睡了两小时……选手间推诿之际,队长王峰从评委席起身表示要参赛。郑才午、李威又说可以比,最终魏教授选择了王峰。
 
第一轮,展示20位“蜜蜂少女队”的动态表演录像(平均每人3秒),由嘉宾(章子怡)挑选其中两位4岁以前的照片,要求与录像中的女孩匹配。
 
 比赛时,三张很小的照片在屏幕上展示一下,接着音乐响起,唱唱跳跳上来20个姑娘,每个姑娘在摄像机面前定格几秒钟。人和机器都是通过屏幕看到的。
 
第一张童年照的主人被双方轻松确认;

第二张王峰答错、“小度”却没有马上输出答案,林元庆说当时团队紧张到了极点。

百度科学家和Dr.魏一起去看,发现“小度”识别出来两个人,她们之间仅有万分之一的差异。原来节目组背着所有选手在20位少女中安插了一对儿双胞胎。章子怡恐怕是“托”,不然就是偶然选到双胞胎中一人的童年照片。根据这张照片,“小度”在20位少女中发现两个“疑似目标”,她们与照片的匹配度相差0.01%(即万分之一)。谜底揭晓后现场哗然,鼓掌雷动,为“小度”喝彩。

第二轮,先观察一位30岁以上的观众,随后将他从30张小学集体照(共有超过1000张脸)中找出(跨度将近20岁)。王峰、“小度”都顺利发现目标。
 
第一场比赛“小度”以3:2获胜。
 
第二场:比声纹识别
 
比赛时,先用帘子先挡着,大家都不知道后面有多少人。嘉宾周杰伦与其中3人通了电话,机器和人类选手听到的声音是被干扰的,模仿手机信号不好声音飘忽、断续的效果。然后帘子拉开,20多人表演大合唱,要我们把与周杰伦通话的“线人”识别出来。

第一名“线人”,孙亦廷、“小度”都没能识别出来。现场单独回放该人的话音的歌声时,普通人都能感到些“端倪”。这一方面是心理暗示在起作用,另一方面是21位专业歌手唱“单声部”,她们的声音融合得太好难以分辨。
 
第二名“线人”被孙亦廷听了出来,“小度”失手。
 
第三名“线人”没有被孙亦廷识别出来,“小度”成功扳回一局。
 
两场比过,1胜1平的“小度”立于不败之地。

在这种情况下,1月20日播出的第三场比赛被一部分观众视为“人类尊严之战”。
 
第三场:“弱光动态人脸识别”,由“水哥”披挂上阵
 
节目预设是3个盗贼带着口罩和帽子在灯光很暗的环境下抢劫,被高位摄像头、行车记录仪和手机偶然拍到。拍摄光线弱、人在迅速移动而且面孔被口罩、大沿帽遮挡。选手要从30名群众演员中找到3个“盗贼”。

最终“小度”以2:0获胜,但“水哥”三道题的备选答案中都包括正确选项。

这正是人与机器的得大不同:人会疲劳、会冲动、会心神不安、会有一念之差,机器不会。换一个时间、地点或者心情,“水哥”可能做出不同的选择。
 
深度学习
 
以跨年龄人脸识别为例,林元庆讲解了“深度学习”的原理。
 
众所周知,人的五官在长大后会变,脸型也有可能会变,还有可能整容。
 
王峰在现场发问:“这些志愿者里面,会不会有人整过容?”嘉宾回答:“这个不能说。整容与否这个因素,对人和机器都是一样的障碍,所以比赛依然是公平的。”

因此跨年龄“人脸识别”考验的不单纯是图像比对。

林元庆介绍说,他们做了一个深度学习框架:把人脸分为七个部位,给机器大量存在相互关系的照片以供训练、学习(AAA号、DFK号与ABX号都是同一个人的照片),让机器自已总结哪些特征能够跨过岁月。在比赛前,百度机器人已经“学习”了2亿张照片,总结出72个关键点,进一步得到128维的特征。
 
“水哥”解释为什么失利时说:我每组都留下了两个备选答案(此次比赛,正确答案都包含其中)。二选一时,我就不看五官了,只用耳朵和鬓角的细节去校正。节目组后来告诉我,照片是一个月前拍的,“一个长了青春痘,一个刚刚理了发,另一个一直没理头发,头发长长了!”
 
学习了2亿张照片的“小度”经验更丰富,没有受“青春痘”、“头发长长”的影响。
 
值得注意的是,远不如机器“勤奋”的“水哥”只是惜败。说明人类,特别是有专长的人,有一些只可意会不可言传的能力。

“人机大战”下半场
 
去年王兴“中国互联网已经进入下半场”之论甚嚣尘上,也有许多人不以为然:没人知道整场比赛的全貌,凭什么断定上半场结束了?
 
“人机大战”倒是可以分为上、下半场:
 
上半场,人类为自己的败绩感到幸喜。从1776年瓦特发明蒸汽机,人类幸福地败于火车、汽车、飞机……二十世纪四十年代计算机被发明了出来,人类在引以为傲的智力领域又屡尝败绩,记忆、运算、应变……
 
下半场,人类对机器的每场胜利感到忧心忡忡。

其实只要机器仍能为人类所用,“可以替代人类工作”就一点不可怕。别的不说,各种交通工具(汽车、火车、轮船、飞机……)运输的货物用人力搬运就得用几十亿人。

在“人机大战”下半场,我们会痛并快乐着。一方面享受人工智能、深度学习的“福利”,另一方面担心机器人“功高震主”。

各式各样的比赛也会层出不穷,奥运会项目可以一个个拿来玩,比如和“人形机器人”打羽毛球、乒乓球……