专栏名称: 络绎科学
专业的科创成果产业化社区,与青年科学家同行。
目录
相关文章推荐
新播报  ·  刚刚!大S已“平安到家” ·  2 天前  
新播报  ·  刚刚!大S已“平安到家” ·  2 天前  
掌中淄博  ·  蒋勤勤、舒淇、黄晓明……发文悼念! ·  4 天前  
掌中淄博  ·  蒋勤勤、舒淇、黄晓明……发文悼念! ·  4 天前  
阜阳交通广播  ·  大S徐熙媛病逝 ·  4 天前  
阜阳交通广播  ·  大S徐熙媛病逝 ·  4 天前  
金陵早知道  ·  突发!大S去世 ·  4 天前  
51好读  ›  专栏  ›  络绎科学

华裔科学家李飞飞:她看见的世界和她改变的世界

络绎科学  · 公众号  ·  · 2024-04-14 20:59

正文


首发来源:知识分子


李飞飞 是人工智能领域最重要的科学家之一。她最重要的贡献,是创建了数据库  ImageNet,有人工智能领域的从业者评论,“没有 ImageNet,就没有现在的深度学习革命”,李飞飞也因此被誉为 AI 教母。

图源:斯坦福大学

她以女性细腻的笔调, 讲述她作为女儿、科学家、移民和人道主义中眼中的世界,讲述了一个亚裔移民成长为美国三院院士、斯坦福大学终身教授的故事。

以下是她新出版的的新书《我看见的世界: 李飞飞 自传》(中文版已上市,由中信出版集团出版)的摘编,回顾了在 AI 寒冬的年代,她是怎样在一片反对声中找到她的北极星,创建人工智能领域早期最重要的数据库 ImageNet 的过程。



“我听到的劝阻之声多得够我用一辈子”

每当我与同事们讨论 ImageNet 的想法,我就越发感到孤独。虽然有西尔维奥(注: 李飞飞 的丈夫)的鼓励,但这么庞大的工程刚刚起步,就遭到了几乎所有人的一致反对,真是不祥之兆。我需要一群志同道合的伙伴,但现在似乎一个队友都找不到。最糟糕的是,不管我是否同意,我都无法否认他们批评的合理性。

毫无疑问,在 2006 年,算法是计算机视觉的中心,而数据这个话题并不十分吸引人。数据生活在算法的阴影之下,仅仅被视为训练工具,就像成长中的孩子玩的玩具一样。

我听到的劝阻之声已经多得够我用一辈子了(可能下辈子也够了),最后我终于遇到了第一位支持者。李凯教授是微处理器架构领域的领军人物。微处理器架构是一门将数百万纳米级晶体管排列到世界上最复杂的设备中的艺术,因此他比大多数人都更了解指数思维的力量。他相信我的方向是正确的。尽管我们都在计算机科学领域,但领域之间没有太多交集,所以他无法直接为我做出贡献,但他知道我们需要强大的计算能力才能启动。他毫不犹豫地为我们的研究捐赠了一套工作站。这正是我所需要的支持。

不巧的是,他即将休长假,这缩短了我作为他的年轻同事的时间。不过,他的离开也不完全是坏事。他有一个极聪明的一年级研究生叫邓嘉,他要给邓嘉找个新导师。据李凯介绍,邓嘉是一个完美的合作者,他年轻有为,工程天赋出众,对新的挑战充满渴望。

除了聪颖过人,我也注意到,邓嘉是计算机视觉领域的新人。他的背景与众不同,因此他不仅具备一般计算机视觉专业学生难以拥有的工程技能,同时还完全没有背负期望的包袱。这个项目不同于传统的研究项目,甚至可以说充满风险,与当时的领域潮流格格不入。对于这一切,邓嘉并不知情。

于是,我们两人组成团队,开启了这个似乎需要成千上万甚至更多贡献者的项目。大多数同事对我的假设都不屑一顾。单从理论上讲,这一切确实说不通,但这是我人生中第一次感受到一种毋庸置疑的自信。无论需要多长时间,我确信我们正在做一件大事,一件也许具有历史意义的大事。

我的新办公室位于普林斯顿大学的计算机科学大楼,虽然已经搬过来快四个月了,但地上依然堆满了半开的纸箱,墙壁上也空空如也。我靠在扶手椅背上,大声呼出一口气,转了转椅子。邓嘉坐在我对面的沙发上——这是我到目前为止为办公室添置的唯一家具。

于是我们确定了一个目标,为每个物品类别搜集 1000 张不同的照片:1000张不同的小提琴照片、1000 张不同的德国牧羊犬照片、1000 张不同的抱枕照片,直到涵盖全部 2.2 万个类别,也就是一共需要大约 2000 万张图片。但即便是这个数字,也只是最终成品数据库的情况。我们可能需要从数亿张照片,甚至 10 亿张照片中筛选,才能达到目标。

邓嘉面露疑色。“我从理论上能理解,但这个工作量也太大了,属于天文数字,可不是谷歌搜索几次就能完成的。”

他说的当然没错,但是我们需要拥抱现实,而不是逃避现实。我们的目标是捕捉完整的现实世界。如果这个总数不能吓到我们,那才奇怪呢。

“邓嘉,我们希望算法能够看到的一切事物都存在于这个世界的某个地方。在我们说话的这一刻,就有人在拍摄这所有的细节。现在人人都有翻盖手机,每个人的圣诞节礼物都是数码相机。想象一下,如果把所有这些照片都放在一起,我们会看到什么,我们会看到整个世界的缩影啊!那就是从世界一头到另一头的日常生活的全部。”

“就算我们想办法组织好了图片,”他补充说,“这些图像本身也没有任何作用,对吧?它们需要先标注,才能用于模型训练,而且每一个标签都必须是准确的。”邓嘉暂停了一下,好像才感受到自己说的话有多么重要,“听上去又是一个浩大的工程。”

“是啊,是啊。”我回答说,“让我们一次只创造一个奇迹吧。”



完工时间大概是 19 年,
我不能等那么久才拿到博士学位

我和邓嘉在实验室一角,看着一排本科生不断地点击鼠标、敲击键盘。本周早些时候,我们发出了邮件,招募愿意帮忙从网上下载和标注图片的本科生,工作时间灵活,每小时 10 美元。我们很快就收到了一些回复。这看起来很公平 我们朝着机器智能的新时代迈进了一步,而大学生也能赚到一些啤酒钱。一时间,我们感到心满意足,但没过多久,现实就给我上了一课。

“邓嘉,是我的错觉吗,还是进展确实有点儿太慢了?”“对,我也很担心。我对他们的速度做了几分钟计时,计算了一下。”

不妙。

“按照目前的速度,预计 ImageNet 的完工时间是……”

我用力咽了一下口水。他注意到了。

“没错,差不多要 19 年吧。飞飞,我很看好这个项目,真的,只是我不能等那么久才拿到博士学位。”

“那我们该怎么办呢?”他问,“再多找些本科生?”

“这当然是一种选择,但是得花不少钱。如果真要 19 年的话,我觉得我们实验室的预算也是不够用的。”

不管怎样,显然我们需要更多的大学生。当年做 Caltech101 的时候,招募的大学生勉强够用,而那次的工作量不过是 ImageNet 的零头。看来,我们必须采取新的策略了。

做 ImageNet 已有一年时间,我感觉我们已经步入正轨。有了标注团队的工作,还有邓嘉在不断努力优化标注流程,我确信我们已经有所突破。我很好奇进展如何,而邓嘉知道我的想法(他经常能知道我在想什么)。

“你在想我们多久能完成 ImageNet?我已经重新预估时间了。”我正准备问他这个问题。于是我兴奋地跑到他的办公桌前。

“好的,如果我们把所有因素都考虑在内 我们所有的优化和快捷方式,再加上已经标注的图片,我们已经设法将 19 年的预计时间缩短到……”

我突然失去了勇气,因为我预感结果会很糟糕。“……大约 18 年。”

邓嘉虽然才华横溢,但巧妙地传达坏消息、减轻它对人的打击并不是他的技能之一。这么久以来,我第一次不知道接下来该怎么办了。

“飞飞,你现在有自己的实验室了,最近在忙什么呢?”这是我最害怕听到的问题,但这个问题来自吉滕德拉——彼得罗的导师,也是我的“师爷”,他是我此行最想遇到的人。我们已经好几年没有面对面交流了,我知道他会出席计算机视觉与模式识别大会这样的活动。ImageNet 项目停滞不前,我的学术生涯前途渺茫,我需要见见熟人。他也不是第一次在这种场合鼓舞我的斗志了。

“说实话,吉滕德拉,这个话题有点儿让人郁闷。”“哎呀。”

我把一切都如实告诉了他 我和克里斯蒂安的谈话,第一次见到 WordNet 时的情景,我和邓嘉所做的决定——每个决定都比上一个更艰难,以及这一年来我们为实现一个不可能实现的目标所经历的苦苦挣扎。

“还真曲折呀。”他回答道,语气一反常态地平淡。如果他对我目前介绍的进展情况有什么意见的话,他会选择闭口不谈。

“是的。最糟糕的是,这一切归根结底是个后勤问题,而不是科学问题。我始终确信,ImageNet 正是计算机视觉所需要的,要是我们能把这玩意儿搞出来就好了。”

“飞飞……”他开始小心翼翼地组织语言,“当然,没有人会不认同数据起着一定的作用,但是……”他停顿了片刻,然后继续说道,“坦率地说,我觉得你们在这个想法上投入得过多了。”

我浅浅地吸了一口气。“科学的诀窍是跟随着你的领域一起成长。不要太超前。”

这真是出乎我的意料。吉滕德拉竟然站在反对者的一边,让我深受打击。这种打击不仅仅是在个人层面 等到我将来需要请人写终身教职推荐信的时候,我原本计划请他做我的推荐人之一(虽然在这样巨大失败的阴影笼罩下,能获得终身教职的可能性已经变得非常渺茫)。出于多方面的原因,他的观点很重要。

我几乎可以看到我的北极星在逐渐暗淡下来,我的道路又陷入了黑暗之中。一个可怕的想法开始在我心头升起 我承担的风险比我意识到的更大,而现在回头已经为时太晚。

在计算机视觉与模式识别大会之后的几个月里,我都不知道应该如何处理 ImageNet。要担心的事情有很多,但我总会想起邓嘉。他进入计算机视觉领域时才气过人却又稚气未脱,他信任我,让我担任他的导师。现在,我能感觉到他的挫败感越来越强,我知道他在担心自己的博士之路,我完全能理解他。我还记得自己在研究生时期的种种挣扎,一想到现在要把自己的学生引入歧途了,我的胃里就阵阵难受。

当然,科学研究上的挫败也同样令人痛苦。在经历了如此漫长的旅程之后,我无法接受我的直觉居然导致了错误的道路。我们突然失去了方向,仿佛头顶上是一片空荡荡的天空,在黑色波浪中漂泊。



没有哪个个体的智慧能有意外之力的一半强大

然而,一切都还没有结束。

“打扰一下,飞飞。”我正在赶去教职工会议的路上,马上就要迟到了,一个叫孙民的研究生突然出现在我面前。他能看出我在赶时间,但他看上去非常想要跟我聊聊,说话的时候甚至显得有些不安。

“请问你现在有空吗?”他没等我回答。我对他比较了解,知道他说话时一般都是轻声细语的。看他今天的表现,显然是有大事压在心头。“昨天我跟邓嘉在一起,”他继续说,“他跟我说了你们在项目标注问题上遇到的麻烦。我有一个你俩还没试过的办法,真的可以帮你们提高速度。”

我立刻忘记了自己还在赶时间,耳朵竖了起来。邓嘉还有社交生活?

孙民问道 “你听说过众包吗?”

他解释说,在线平台可以将任务分配和结果收集过程自动化,有效组织远程的临时工作团队,规模小到个人,大到数百万人的团队。

“如果你感兴趣的话,亚马逊就在提供这种服务,叫作’土耳其机器人’。”

“请求者”可以发布“人类智能任务”,由贡献者完成,这些贡献者被称为“土耳其人”(Turker),他们可能来自世界上的任何地方。从理论上讲,这个模式很合理,似乎可以提供我们想要的一切 既有人工标注图片带来的智慧成分,又有与自动化相当的速度与规模。有趣的是,亚马逊称之为“人工人工智能”,这个名字相当贴切。

我急匆匆地穿过走廊找到了邓嘉,但他并没有像我这般兴奋。在经历了种种挫折之后,他有充分的理由对再次碰运气保持警惕。但在经历了这一切之后,他可以看到,这真的可能是我们一直在等待的救命稻草。他看起来既犹豫又宽慰。最终他同意了 亚马逊土耳其机器人值得我们再试一次。

ImageNet 之所以能够存在,要归功于互联网、数码相机和搜索引擎等众多技术的融合。现在,一个一年前还几乎不存在的平台提供的众包服务,成为让我们的项目臻于圆满的关键因素。这件事就是最好的例证,它让我深刻了解到,任何一个科学家的默认立场都应该是绝对谦卑,他们应该明白,没有哪个个体的智慧能有意外之力的一半强大。

亚马逊土耳其机器人改变了一切。它把我们起初的大学生标注员队伍变成了一个由数十人、数百人、数千人组成的国际团队。随着我们获得的支持不断扩大,邓嘉给出的预计完成时间急剧缩短,先是 15 年,然后是 10 年、5 年、2 年,最后不到 1 年。这为我们提供了全新的视角来看待预算,彻底颠覆了 ImageNet 的成本效益。曾几何时,我们的预算只能招到几个标注员,连一个房间都站不满,而现在足以聘请一支遍布全球并通过互联网连接的众包团队。

就这样,每天都有成千上万张新图像被标注出来。在 ImageNet 发展的高峰期,我们是土耳其机器人平台上最大的雇主之一,这一点从我们每月的服务账单上也能看出。成本的确很高,但效果也很显著。

然而,我们的预算困境还没有结束。虽然土耳其机器人价格合理,但 ImageNet 规模实在太大,所以我们很快发现自己再一次接近预算极限。

在两年多的时间里,我们的财务状况一直岌岌可危,那是一段痛苦的日子,哪怕是路途中的一个小颠簸,都有可能让我们人仰马翻、一蹶不振,但 ImageNet 日臻完善,终于成为我和邓嘉一直憧憬的研究工具。我们实验室自然是第一个将其投入使用的。即使是在未完成的状态下,它的影响力也让我们备受鼓舞。完工在即,我们不再需要依靠想象力;大家第一次清楚地意识到,我们正在创造一个值得与全世界分享的东西。

在 2009 年,我决定再次前往西部,邓嘉和我的大多数学生也跟随我转学。斯坦福大学成了我们新的学术家园。

2009 年 6 月,ImageNet 的初始版本终于完成了,这在很大程度上得益于斯坦福大学提供的新研究资金。尽管我们一路上遇到了许多挑战,但我们最终成功达成了目标 收集了 1500 万张图片,涵盖了 2.2 万个不同类别。这些图片筛选自近 10 亿张候选图片,并由来自 167 个国家的 4.8 万多名全球贡献者进行了标注。

ImageNet 不仅在规模和多样性上达到了我们多年来梦寐以求的水平,还保持了一致的精确度 每张图片都经过了手工标注,并在层次结构中进行了组织,经过了三重验证。

从数量上看,我们已经实现了既定目标,建立起了当时人工智能史上最大的人工编辑数据集。但在这些数字之外,最让我感动的成就是我们所构建的真实世界本体。这个本体是人类从零开始策划的,既包含视觉图像,又能传达逻辑概念,其唯一的目的就是教导机器。

我们实验室所做的每一件事都充满了活力。有一次,我们利用 ImageNet 快速训练了数百个图像分类算法的实例,让它们识别一组日常事物,然后将所有实例应用在一张照片上。实验目的并不是简单地检测单个物体的存在,而是通过寻找物体组合来诠释整个场景。例如,如果检测算法发现了一个人、一艘船、一只桨和一片水域,它就会将照片作为一个整体归类为“划船”。这是一种更深层次的理解,可以说接近于原始的视觉推理。

就像我们那个时代的许多实验一样,我们使用的算法准确性很不稳定,还有很大的改善空间。毕竟,就连简单的图像识别也仍处于起步阶段。但困难只会进一步激发我们的冒险精神。我们的研究大胆且具有前瞻性,虽然并不完备,但能引发思考,其中很多在概念上也很简单。但直到 ImageNet 出现,一切才变得切实可行起来。

与此同时,邓嘉也开始在学术领域崭露头角。在 ImageNet 发布后一年左右,他发表了题为《对超过 10000 个图像进行分类能告诉我们什么》的论文,总结了 ImageNet 出现后图像识别领域发生的根本性变化。尽管论文技术性很强,但其中所蕴含的哲学思想使它有别于一般的学术论文。这篇论文宛如一个预言,甚至触及了存在的本质。邓嘉认为,ImageNet 不仅代表了规模的扩大,还代表了分类逻辑的转变,类似于物理学领域的“相变”,在这种转变中,甚至现象的最基本属性也会发生变化。ImageNet 极大地拓宽了算法面临的可能性,但因为规模太大,也给算法造成了挑战(相比而言,小型数据集就不会有这个问题)。

“你知道我最喜欢 Caltech101 哪一点吗?”亚历克斯的话把我拉回了现实,“除了里面的训练数据,它还让我有机会用完全相同的图像,把我的研究结果和你的进行比较,做同类对比。”

“相当于一个基准。”我回答道。

“没错,这样就很容易衡量进展。还有什么比这更能激励研究人员呢?就像是发起了一个挑战,就像打赌一样。”

就像打赌一样,我喜欢这个说法。

“那么……如果我们用 ImageNet 做同样的事呢 ”我问道,边思考边说,“或者,干脆我们就用 ImageNet 搞一个完整的竞赛怎么样

“你是说像 PASCAL 那样的吗 ”PASCAL 视觉对象类别数据集(通常称为PASCALVOC)是一个欧洲研究团队汇编的数据集,包含大约1万张图片,分为 20 个类别。PASCALVOC 与 Caltech101 类似,但有一个重要区别 PASCALVOC 是年度计算机视觉大赛的基础数据集。该大赛始于 2005 年,每年都有来自世界各地的参赛者提交经过 PASCALVOC 训练的算法,然后用这些算法去识别一组以前没有见过的新图片,最后根据分类的准确度对算法进行排名,错误率最低的即为获胜算法。比赛既具有协作性,又具有竞争性,吸引了各方对计算机视觉领域最新进展的关注。而参赛者所使用的数据集仅有 ImageNet 的千分之一大小。

“那就有意思了。”亚历克斯回答道,“我都可以想象研究人员在互相交流新想法的时候问 ‘它在 ImageNet 上的表现怎么样?’”

这样一来,ImageNet 也成了计算机视觉领域的北极星了,我想。

如果邓嘉论文的核心思想是正确的,如果 ImageNet 真的会引起一场大洗牌,带来新的规则、新的直觉,甚至全新的范式,那么还有什么比通过比赛来探索这个数据集更好的方式呢?激烈的竞争压力可以激发合作的集体力量。比赛要遵循一定的规则,但又要有探索性。即使经过多年的努力创建了 ImageNet,仅仅是想像着把它做成比赛,也为它注入了新的生机。

这也意味着将 ImageNet 推向世界的工作尚未结束。



黎明前的黑暗

一回到美国,我就开始了比赛的筹备工作。比赛的正式名称为“ImageNet 大型视觉识别挑战赛”(ImageNet Large Scale Visual Recognition Challenge,ILSVRC),对所有人开放,获胜者会即刻获得认可。首届比赛将于 2010 年举行, 5 月开放报名,9 月统计结果,同年晚些时候,会在克里特岛举行的欧洲计算机视觉大会(European Conference on Computer Vision,ECCV)研讨会上公布获胜者。

然而,现实却与我们的期望背道而驰。

获胜算法来自一个由 NEC 实验室、罗格斯大学和伊利诺伊大学的研究人员组成的联合团队。这个参赛算法的表现确实可圈可点,我们对每位参赛者的努力表示赞赏。不过,与计算机视觉领域其他方面的前沿工作相比,这些算法只能算略有改进,很难说开启了新的时代。

在 ImageNet 的发展历程中,有很多令人泄气的时刻,这次就是其中之一。如果说 2010 年的比赛虎头蛇尾的话,那么 2011 年的比赛则给人一种末日之感。2011 年的获胜算法来自法国施乐研究中心,也是一种支持向量机算法,识别表现虽然比前一年有所提高,但也只是将准确率提高了 2 个百分点左右。

我开始意识到自己可能误判了。正如我猜测的那样,大多数算法都难以应对 ImageNet,但支持向量机比我想象的要强大,它为参赛者提供了安全的避风港,阻碍了我梦寐以求的激进创新。连续两年,司空见惯的算法都只是在能力上略有提升,几乎没有任何真正的进步。最糟糕的是,参赛人数也出现急剧下降 第二年的报名人数从 150 人减少到 96 人,参赛算法也从 35 个减少到 15 个。愿意为此付出努力的人似乎越来越少,也许这并不奇怪。

说这种经历“让人羞愧”已经远远不足以描述我们的心情了。为了推动 ImageNet 的发展,我们倾注了多年的心血,搜集的图片数量远远超过以往的任何数据集,还精心策划了一场国际竞赛来探索它的能力,但结果却只是简单地重复了现状。如果说 ImageNet 是一场赌注,是时候开始思考我们是不是已经输了。

2012 年 8 月,让我夜不能寐的事情终于不再是 ImageNet 了——我们的孩子出生了,我的生活主题变成了哺乳、换尿布和永远不够的断断续续的睡眠。

这一年,ImageNet 挑战赛的结果将在意大利佛罗伦萨宣布,因为孩子的原因,我本不打算亲自去参加,但有一天,邓嘉深夜打来电话。这个时间点很不寻常,我的第一反应是出了什么事。

“喂?”听得出他很激动,但感觉不像是痛苦,而更像是兴奋,准确地说,
是迷茫而兴奋。因为邓嘉一向淡定,所以他的语气让我格外留意。“是这样的……我们一直在评估今年的参赛作品,其中的一个算法是……我的意思是……”

他迟疑了一下。



正名时刻

“怎么了?是什么?”我问道。“好吧。获胜的团队使用了非正统的算法,是一种神经网络算法。

你敢相信吗?”我的耳朵竖得更直了。如果说刚才我的注意力还没有完全集中在他的身上,那么现在我肯定百分之百地在听他说话了。“感觉像是……老古董。”

“真的吗?是神经网络算法?”“是的,但还不止这些。飞飞,你不会相信算法的表现有多好。”

我一直在思考这次的获胜算法。它的识别准确率高达 85 %,比上一年的冠军高出 10 个百分点,创造了计算机视觉领域的世界纪录。可以用一个数据来说明这个准确率的意义 我所看到的研究表明,人类的平均识别准确率约为 97 %,而这还是对简单得多的二元选择而言(比如判断一张照片上是否有动物)。相比之下,算法需要筛选上千个选项才能找到正确答案。因此,虽然这个算法还没有达到人类的水平,但已经比其他任何算法都更加接近,而且差距已经小到惊人。

冠军算法名为 AlexNet,是向这项技术和项目的主要作者、多伦多大学研究员亚历克斯·克里热夫斯基( Alex Krizhevsky )致敬。

AlexNet 是卷积神经网络(Convolutional Neural Network,CNN)的一个实例。卷积神经网络的叫法源于图形卷积过程。在这个过程中,一系列滤波器在图像上扫过,寻找与网络所识别事物相对应的特征。这是一种独特的有机设计,灵感来自休伯尔和威塞尔对哺乳动物视觉系统的观察,即视觉处理在多个层次上进行。就像在自然界中一样,卷积神经网络的每一层都会逐渐整合更多的细节信息,从而形成越来越高层次的感知,最终将真实世界的物体完整地呈现在我们的视野中。

当然,这些并不是什么新的创意。自从贝尔实验室成功将卷积神经网络应用于手写邮编, 杨立昆 多年来一直对卷积神经网络保持着惊人的忠诚。在 AlexNet 诞生时,他已经花了 20 年时间坚持不懈地完善算法、发表研究成果,但一直没有必要的资源来充分实现这些成果。现在,几乎在一夜之间,这种常被视为误入歧途的执着似乎变得极具先见之明。杨立昆把自己的卷积神经网络算法巧妙地命名为 LeNet(呼应他的英文名 Yann Le Cun),其指导理念在 AlexNet 中熠熠生辉,宛如重生般焕发生机。

这种联系让 AlexNet 背后的三人团队备受瞩目。他们都是多伦多大学的研究人员,负责人是与项目同名的亚历克斯·克里热夫斯基,以及他的合作伙伴伊利亚·苏茨克维(Ilya Sutskever)。这两个聪明的年轻人资历尚浅,仍在建立自己的声誉。然而,第三个名字立刻引起了我的注意 杰弗里·辛顿。

就是这位辛顿,在 20 世纪 80 年代中期开发了反向传播技术,成为早期机器学习的先驱。反向传播的突破性方法首次实现了对大型神经网络的可靠训练。就是这位辛顿,曾经指导过彼时还是他实验室学生的杨立昆。和他的学生一样,辛顿拒绝放弃对神经网络的研究,即使这让他在同事中显得形单影只。看来,AlexNet 绝不仅仅是一个参赛算法。这是一个历经四分之一个世纪的正名时刻。

事实上,在 ImageNet 的帮助下,AlexNet 焕发生机,它贪婪地吸收着ImageNet 的内容,在 ImageNet 规模和多样性的土壤中生根发芽,茁壮成长。一直以来,神经网络并不需要更花哨的数学公式和更奇特的抽象概念。我们期待神经网络能够理解世界,而它们只是在等待我们提供更加清晰的图景,等待一些真正有学习价值的东西。大数据训练了 LeNet 去理解复杂的人类笔迹,现在它也在训练 AlexNet 去理解万物。

后来我才知道,在 2012 年之前的几年里,辛顿重拾激情,想要证明神经网络的可行性。2011 年,他认为自己比以往任何时候都更接近转折点,于是开始以一种既对抗又合作的方式与同事沟通,他的表达方式听起来更像是提出挑战,而不是提出问题。他跟同行探讨下一步行动计划,其中一个同行就是吉滕德拉。虽然他们两人早有交情,但吉滕德拉一直对辛顿的项目持怀疑态度。

“我要怎么做,才能让你相信神经网络是未来的趋势?”辛顿问道。

“你真的想打动我吗,杰弗里?那就让我看看它们能不能处理一些真正的任务。”

“比如?”

“比如物体识别,真实世界中的物体识别。”无论吉滕德拉对 ImageNet 有什么看法,他的确相信视觉分类的力量,这一点我在加州理工学院时就了解到了,“你参加过 PASCALVOC 吗?”

“参加了啊。但没什么用,他们的数据集太小了,例子不够,所以我们给神经网络展示新图片的时候,泛化效果并不好。”

“那你就需要更大的数据集。你关注过飞飞的实验室吗?等你准备好迎接真正挑战的时候,可以看看她组织的比赛。”

不管吉滕德拉是真的对我的项目改变了看法,还是只是想打老朋友的脸(这两种情况似乎都有可能),辛顿都认真地听取了建议。

ImageNet 的数据广泛而全面,覆盖了世界上绝大多数物体。现在看来,AlexNet 和 ImageNet 也属于相互成就。简而言之,这就是最大的不同——现在算法可以探索的数据范围大大增加了。一想到训练完成后 AlexNet 的层级中包含的内容,我就惊叹不已 形状、边缘、图案、纹理,涵盖我们多年来从互联网上捕捉到的所有人物、动物和物体。现实世界中幽灵般的碎片,以恰到好处的方式组织起来,供算法来查看。






请到「今天看啥」查看全文