专栏名称: 造就
发现最有创造力的思想。
目录
相关文章推荐
老张投研  ·  狂揽800亿订单,国电南瑞,摊牌了! ·  6 天前  
老张投研  ·  狂揽800亿订单,国电南瑞,摊牌了! ·  6 天前  
聚创大咖汇  ·  出单快还稳定,每天30-200不等,好项目, ... ·  1 周前  
51好读  ›  专栏  ›  造就

【了不起】这八年,李飞飞改变了人工智能界的一切

造就  · 公众号  · 科技自媒体  · 2017-07-29 18:00

正文


2006年,李飞飞开始反复思考一个想法。


当时刚刚成为伊利诺伊大学厄巴纳-香槟分校(UIUC)计算机科学教授的她发现,自己在人工智能学术界和产业界的同侪都在同一个概念的指导下苦心专研:更好的算法能够做出更好的决策,而数据并不重要。


但李飞飞意识到了这种观念的局限性:如果算法用来学习的数据没有反映现实世界的状况,那么即便是最好的算法也无法发挥作用。


她的解决方案是:创建一个更好的数据集。


“我们决定要做一些绝对史无前例的事情。”李飞飞说道,这个“我们”,指的是最初跟自己共事的小团队,“我们要标注出由对象构成的整个世界。”


这个想法最后造就了一个名叫ImageNet的数据集。该研究成果在2009年以学术海报的形式被首次公之于众,它被张贴在迈阿密海滩一处会议中心的角落里。


很快,ImageNet发展成为一场年度比赛,要看一看哪种算法能够以最低的错误率识别出数据集图片中的对象。很多人认为,ImageNet正是当今这轮人工智能热潮的催化剂。

 

ImageNet挑战赛发展到后来,参赛者遍布科技世界的每个角落。2010年首届比赛的优胜者如今都已在百度、谷歌和华为担任高级职务。


马修·泽勒(Matthew Zeiler)基于自己赢得2013年比赛的作品创建了Clarifai公司,并拿到4,000万美元风投。2014年,谷歌跟来自英国牛津大学的两位研究人员共同折桂,这两人很快被谷歌招入麾下,加入了该公司新近收购的DeepMind实验室。


目前,李飞飞本人是谷歌云(Google Cloud)的首席科学家,斯坦福大学的教授,并同时担任该大学人工智能实验室的主任。


周三,她登上CVPR大会的舞台,最后一次介绍了ImageNet挑战赛的年度结果——2017年是该比赛的最后一年。在短短7年时间里,优胜者识别数据集对象的准确率从71.8%上升到了97.3%,超越了人类的能力;同时有效地证明,更多的数据能够让算法做出更好的决策。

 


即便ImageNet挑战赛划上句号,但它的遗产已经成形。自2009年以来,数十个新的数据集被引入了人工智能研究的子领域,比如计算机视觉、自然语言处理以及语音识别。

 

“ImageNet带来的思维范式转变在于,在关注算法模型的同时,也要关注数据。”李飞飞说,“数据将重新定义我们对模型的看法。”


ImageNet是什么?

 

在上世纪80年代末,美国普林斯顿大学的心理学家乔治·米勒(George Miller)启动了一个名为“WordNet”的项目,他的目标是为英语这种语言创建一种层级结构。那有点像是一本字典,只不过单词是根据和其他单词的关系进行索引,而不是依照字母顺序。


例如,在WordNet当中,“狗”这个词会被置于“犬科”之下,而“犬科”又将被置于“哺乳动物”之下,以此类推。这是一种基于机器可读懂的逻辑来组织语言的方式,WordNet据此积累了逾15.5万个有索引的单词。


ImageNet的层级结构派生自WordNet。


在UIUC教学期间,李飞飞一直在努力解决机器学习存在的核心矛盾之一:过度拟合和泛化。


当一种算法只适用于它熟悉的数据时,我们就说该算法模型对数据是过度拟合的;这时候,除了那些熟悉的实例之外,算法无法理解其他更加普遍的东西。另一方面,如果一个模型在数据之间找不出正确的模式,那它就是过度泛化。

 

李飞飞说,我们距离找到完美的算法似乎很遥远。她看到,以前的数据集并未体现世界的变化多端——即便只是识别猫的图像,那也是无限复杂的。但是,通过向算法提供更多展示世界复杂性的实例,那么从数学意义上说,它们将能拥有更好的表现。


如果你只看5张猫的图片,那你只能看到5种相机角度,5种光照条件,甚或5种不同的猫。但如果看过500张猫的图片,那么就能从多得多的实例中总结猫的共性。

 

于是李飞飞开始搜索相关文献,想要了解其他人是如何尝试用数据来对世界进行合理表达的。这个过程中,她找到了WordNet。

 

在2006年访问普林斯顿大学期间,已经了解过WordNet的李飞飞结识了克里斯蒂安·菲尔鲍姆(Christiane Fellbaum)教授,后者对WordNet的后续研究颇有影响。菲尔鲍姆有过这样一个想法,即WordNet可以为每一个单词找到一张相关图像,但这更多的是作为一种参考,而不是创建一个计算机视觉数据集。


从那次见面中得到灵感,李飞飞构想出某种更宏大的东西——一个大型数据集,为每个单词都找到很多实例。

 


数月之后,李飞飞回到母校普林斯顿大学任教。在2007年年初,她启动了ImageNet项目,并组成了一支团队。最先被招募进来的是另一位教授李凯。随后,李凯又说服博士生邓嘉转到李飞飞的实验室。邓嘉一直协助运营ImageNet项目,直至2017年。

 

“对我来说显而易见的是,这跟其他人当时正在做的事、正在关注的焦点有很大的不同。”邓嘉说,“我清楚地知道,这将改变计算机视觉研究的游戏规则,但我那时候还不知道它会如何改变。”

 

ImageNet包含的对象既有熊猫和教堂这样的实存物体,也有爱情那样的抽象概念。

 

李飞飞的第一个想法是,招募本科生手动查找图片并将其添加到数据集中。但在粗略估算之后,它很快就意识到,这种靠人力处理图片的速度,这件工作需要90年时间才能完成。

 

这让李飞飞团队又回到了起点。如果计算机视觉算法可以从互联网上选取图片,然后由人类对这些图片进行整理,效果会怎样?但在把算法鼓捣了几个月后,该团队得出结论,这种技术同样是不可持续的——等到数据集制作完成时,它所训练的未来算法将受到限制,只能识别以前那些算法能够识别的东西。

 

本科生手动收集耗时,算法有缺陷,而且团队还没钱——李飞飞说,她为这个项目申请的所有拨款都被驳回。

 

最后,一个解决方案偶然间浮出水面。在李飞飞有一次跟某位研究生闲聊时,后者问她是否听说过亚马逊的“土耳其机器人”(Mechanical Turk),这是一项让世界各地很多人坐在电脑前完成琐碎在线任务并获得小额报酬的服务。

 

“他给我看了那个网站,我可以毫不夸张地告诉你,就在那一天,我知道ImageNet将变成现实。”她说,“突然之间,我们找到了一件可以进行大规模处理的工具,那是我们光靠本校学生人力根本做不到的。”



亚马逊土耳其机器人用于对图片进行分类的后端。

 

收集图片的大部分工作由李飞飞的两位博士生——邓嘉和奥尔加·拉沙考夫斯基(Olga Russakovsky)——负责指派,但土耳其机器人也带来了自己的一大堆问题。


例如,每张图片需要经过多少人过目?也许两个人就可以确定一只猫是一只猫,但一张哈士奇小狗的图片可能需要经过10轮验证。还有责任心的问题,一些人可能只想蒙混过关骗取报酬。

 

即使有了土耳其机器人这个众包平台,ImageNet数据集仍然花了两年半的时间才最终完成。它由320万张经过标注的图片组成,这些图片被分成5,247个类别,并被划归到“哺乳动物”、“车辆”和“家具”等12个子树之下。

 

2009年,李飞飞团队发表了关于ImageNet的论文,并公开了这个数据集,但却反响寥寥。李飞飞回忆说,CVPR大会(这是计算机视觉研究领域的顶尖会议)只允许他们贴出一张学术海报,而不是口头介绍。


于是,该团队在会场分发印着ImageNet字样的笔,以此引起人们的兴趣。在那个时候,对于“更多数据有助于开发出更好算法”这一理念,业内人士是持怀疑态度的。

 

“当时有一些评论说:‘如果你们连一个对象都做不好,为什么去做数千乃至数万个对象呢?”邓嘉回忆道。

 

如果说数据现在被奉为“新时代的石油”,那么它在2009年时仍然被视为恐龙化石。

 

ImageNet挑战赛

 

2009年末,在日本京都举行的一场计算机视觉会议上,一位名叫亚历克斯·伯格(Alex Berg)的研究人员找到了李飞飞,并向她建议在ImageNet挑战赛中添加一个额外的要求,即参赛的算法不仅要识别到对象的存在,还要找到图片中对象的位置。


李飞飞的回应是:来跟我一起做吧。

 

李飞飞、伯格和邓嘉基于数据集先后撰写了五篇论文,对算法如何释读如此庞大的数据进行了探讨。他们的第一篇论文成为了算法如何对数千种图片类别做出反应的基准,这也是ImageNet挑战赛的前身。

 

“我们意识到,要让这个理念普及开来,我们需要接触更多的人。”李飞飞在谈及第一篇论文时说道。

 

然后,她联系了欧洲知名图像识别大赛PASCAL VOC的组委会,后者同意跟ImageNet合作,并对他们的比赛进行联合冠名。PASCAL是在业界颇有名气的比赛和数据集,但它代表的是以前的思维方式。PASCAL比赛中图片的标注类别只有20个,而ImageNet挑战赛的这个数字是1,000个。

 

随着比赛在2011年和2012年继续进行,ImageNet挑战赛很快成为一项标杆,被拿来评估图像分类算法在面对当时最复杂的视觉数据集时的表现。


ImageNet在线数据库的截图


不过,研究人员也开始注意到一些比赛之外的事情发生了:当他们使用ImageNet数据集对自己的算法进行训练时,算法的表现会变得更好。

 

“令人惊喜的是,在ImageNet上训练模型的人可以利用它们快速启动用于其他识别任务的模型。你可以从ImageNet模型开始,接着调整一下用于另一项任务。”伯格说,“这既是神经网络的突破,也是整个识别技术的突破。”

 

2012年,在首届ImageNet挑战赛的两年之后,一件更重要的事情发生了。事实上,如果说如今这场人工智能热潮可以被归功于某个单一事件的话,那就是2012年ImageNet挑战赛结果的公布。

 

杰弗里·辛顿(Geoffrey Hinton)


来自加拿大多伦多大学的杰弗里·辛顿(Geoffrey Hinton)、伊利亚·萨斯基弗(Ilya Sutskever)和亚历克斯·科里捷夫斯基(Alex Krizhevsky)提交了名为AlexNet的深度卷积神经网络架构以极大的优势夺得冠军,其错误率比第二名低了近10个百分点。


对辛顿和他的两位学生来说,ImageNet挑战赛真可谓恰逢其时。自上世纪80年代以来,辛顿一直在从事人工神经网络研究。然而却苦于找不到能展示其身手的应用场景。


2012年的ImageNet挑战赛,辛顿及其团队向世人展示,他们的网络可以基于较小的数据集执行较小的任务,比如笔迹检测,但这需要多得多的数据才能在现实世界中变得有用。多年来,辛顿一直在呼吁同侪认真对待卷积神经网络。但现在,他掌握了这些网络有能力打败其他技术的证据。

 

“很显然,如果你可以在ImageNet拥有上佳表现,你就可以解决图像识别的问题。”萨斯基弗如是说。

 

如今,这类卷积神经网络已经遍地开花: Facebook用它们来标注用户的照片;自动驾驶汽车通过它们来检测物体;基本上,所有能够从图片或视频中识别对象的技术都用到了它们。


“更令人惊奇的是,人们能够通过深度学习不断改进它。”萨斯基弗说道,他指的是多层神经网络实现处理更复杂模式的方法,这现在已经成为人工智能领域最流行的方法,“深度学习就是我们要的东西。”

 

2012年ImageNet挑战赛的结果促使人们纷纷复制这个过程。纽约大学的博士生马修·泽勒(Matthew Zeiler)曾师从辛顿,他在获知比赛结果后通过这一层关系率先看到了论文和代码。他跟纽约大学的罗伯·费格斯(Rob Fergus)教授取得合作,后者也是神经网络方面的研究人员。两人开始为2013年的挑战赛开发参赛作品,为了集中精力,泽勒甚至提前结束了在谷歌的实习工作。

 

功夫不负有心人,泽勒和费格斯赢得了2013年的比赛。据李飞飞称,到2014年的时候,所有获得高分的参赛者都使用了深度神经网络。


“毫无疑问,正是2012年ImageNet挑战赛的胜利引发了如今的人工智能大爆炸。”泽勒说道。


2012年,只有一支参赛队伍的错误率低于25%。到了2017年,38支参赛队伍中有29支队伍的错误率在5%以下


如今,很多人认为ImageNet提出的问题已经得到解决——错误率最低已经达到不可思议的2%左右。不过,算法只是在进行分类,或者是识别一张图片中有哪些对象。这并不意味着算法知道对象的属性、来源、用途、制造者,以及它如何跟周围环境进行交互。


简而言之,算法没有真正理解自己看到的东西。这个问题同样存在于语音识别当中,甚至于自然语言处理也是如此。虽然如今的人工智能在识别对象方面非常厉害,但让它们在现实世界语境下理解这些对象仍是尚未得到实现的下一步,我们还不清楚人工智能研究人员要怎样才能走完这一步。


后ImageNet

 

尽管ImageNet挑战赛已经划上句号,但ImageNet数据集将继续存在下去——经过多年更新,该数据集现在拥有超过1,300万张图片。

 

伯格透露,2014年的挑战赛增进想要撤掉一项要求,但遭到谷歌和Facebook等公司的集体反对。因为这项竞赛要求已经如此受到认可,以至于这些公司可以把它作为自身技术水平的评价标准。

 

自2010年以来,包括谷歌、微软、Facebook和亚马逊在内的众多科技巨头纷纷开始创建自己的内部数据集,使用的正是每天被上传和分享到自家平台的数百万图片、语音片段和文本片段。甚至连初创公司也在开始构建自己的数据集。

 

“从视频到语音到游戏,再到所有的一切,各种各样的数据集如雨后春笋般冒了出来。”李飞飞说道。


2016年,谷歌发布了Open Images数据集,其中包含了900万张图片,它们被标注成6,000个类别。


最近,谷歌对该数据集进行了更新,标注出每张图片中特定对象的位置,这也是2014年之后ImageNet挑战赛的主要任务之一。


位于伦敦的DeepMind——该公司已被谷歌收购,成为Alphabet体系的一员——最近也发布了自己的数据集,里面是人们在做各种动作的视频。

 

“ImageNet让人工智能领域发生的一个变化是,人们突然意识到,创建数据集这种吃力不讨好的工作是人工智能研究的核心。”李飞飞说,“人们真正承认了数据集的重要性,它跟算法一样居于研究工作的中心位置。”


翻译:何无鱼

来源:Quartz