来源:谷歌 I/O 大会官网
编译&整理:文强
【新智元导读】北京时间今天凌晨,谷歌的 I/O 大会第三天的论坛《人工智能和机器学习的过去、现在和未来》由谷歌云负责人 Diane Greene 做主持,嘉宾包括刚加入谷歌不久,负责谷歌云 AI 团队的李飞飞教授;谷歌的 Francoise Beaufays;谷歌 Fernanda Viegas,以及 Coursera 联合创始人、现 Alphabet 旗下号称要“治愈衰老”的 Calio 部门首席计算家 Daphne Koller。几位语音、视觉的专家,她们从各自的角度,结合实际例子,分析了 AI 和 ML 的变化及趋势。
视频长度近 1 小时,谷歌 5 位 AI 女性代表齐聚,共论 AI 和 ML 的过去、现在和未来。建议在 WiFi 环境下观看哦~
Diane Greene
:大家好,我是 Diane Greene,我负责谷歌云这一强大的部门,是 Alphabet 董事会成员之一。今天非常荣幸能够在这里主持这场论坛,嘉宾都是来自人工智能(AI)和机器学习(ML)领域的顶级研究人员和专家。我们的论坛内容构成将是讨论 AI 和 ML 的过去、现在和未来,以每位的个人对整个行业及个人职业生涯的反思作为结尾。
在讨论开始前,我先快速介绍一下论坛的嘉宾。从左往右,首先是谷歌首席研究员、谷歌语音识别项目组负责人 Françoise Beaufays,她加入谷歌已有 12 年,我们每个人都会用到她开发的产品。
其次是谷歌云首席科学家李飞飞,她致力于将 AI 和 ML 推广到整个谷歌以及世界;加入谷歌前,李飞飞是斯坦福 AI 实验室主任,开创了 ImageNet,后者对如今 AI 中深度学习的发展做出巨大贡献,她在 STEM 教学中表现优异,是 AI For All 的创始人。
接下来是谷歌高级主任研究员 Fernanda Viegas,她也是一位计算设计师(computational designer),关注整个信息可视化方面的研究,也是谷歌大脑“大数据可视化团”队的联合领导人;关于 Fernanda 最著名的是她的一些基于信息可视化的作品,被纽约现代艺术博物馆(MoMa)收藏为永久展出的一部分。
最后是 Daphne Koller,她现在 Alphabet 旗下致力于延长人类寿命和让生活更健康的部门 Calico 实验室工作,担任首席计算管;在此之前,她在斯坦福工作了 18 年,是当时斯坦福 AI 团队的联合负责人;Koller 还与人联合创办了 Coursera,也是目前最大的开源 MOOC 在线教育平台。你们知道 Daphne 2012 年入选《时代杂志》“最有影响力的100 人”榜单,凭借优异的计算机能力,Koller 在运营首届 ACM 计算奖期间赢得了麦克阿瑟奖学金;此外,她还是美国科学院和工程院的成员,这些都是说明她能力卓越的一些证明。
从机器学习、计算机视觉、语音识别、数据可视化 4 大方面看深度学习的变迁及其影响
Diane Greene
:从历史的角度开始,Daphne 你作为 ML 领域最著名和多产的作者之一,能谈谈你对我们现在转变到深度学习的现象怎么看吗?
Daphne Koller:
我认为深度学习革命是真正令人激动的强大作用,解决了现实世界中很多时候很多方面的问题。但是,这场革命源于很早之前的 ML 研究,是这些研究为深度学习提供了基础。大概在过去 10 到 15 年之间,我们努力研发了很多更为手工制作(hand crafted)的模型,这些模型需要更多的先验知识,你必须想清楚具体细节以及模型与领域之间的关系,因为当你没有很多数据的时候,你必须更多依靠人类的直觉去解构模型。
随着文本、图像等领域的数据越来越多,我们开始用大量的数据去替代这种直觉,我认为在这方面需要做一些平衡。很多 10 到 15 年前研发的方法,比如优化算法,到如今依然至关重要,也是深度学习之所以取得成功的关键因素之一。现在我们大概认为大数据能够解决一切问题,但某些领域仍然只有中等乃至小型的数据体系,因此,我认为在人类对领域知识方面的直觉和不断涌现的数据之间必须取得平衡,模型要将结合这两部分的最佳优势。
Diane Greene:飞飞,你负责斯坦福的人工智能实验室,你领导的 ImageNet 项目又如此成功。现在你在探索如何将 AI 带入世界的每家公司。你对此有什么看法呢?
李飞飞:
谢谢 Diane。首先我想简单回顾一下,在人类文明进程中,AI 实际上是一门非常年轻的科学,只有 60 年的历史。但在我看来,从人类文明诞生之初我们就一直在追寻智能究竟是什么,想知道灵感是从何而来。所以,在 60 年前几期开始做简单计算的时候,像阿兰·图灵这样的思想家就已经对全人类提出了这个问题——“机器能够思考吗?机器也具有智能吗?”同样,在大约 60 年前,像马文·明斯基、约翰·麦肯锡这样的计算机科学宗师,还有很多人聚在一起,思考这个问题。
如今掀起热潮的 AI,与 AI 的众多奠基人从技术上看是非常不同的。但是,核心思想都是让机器能够思考,能与人交流。AI 经历了几次起起伏伏,从最初的命令逻辑到专家系统,再到早期机器学习浪潮,最后到今天的深度学习革命,我认为过去 60 年 AI 是处于一种“in virtual”的状态,在实验室里。在这 60 年的过程中,我们打下了基础,发展了对 AI 而言至关重要的领域,比如机器人技术、计算机视觉、自然语言处理、语音处理等等。同时,我们也衡量对数据的理解,发明很多工具,因此在 2010 年左右,统计机器学习工具的成熟和互联网、传感器带来的大数据有幸融合在一起,再加上摩尔定律让我们拥有了更好的硬件设备,也即强大的计算力,这三者合在一起,共同支撑起了如今 AI 的发展,也就是我所谓的“invivo AI”,对现实世界产生实际影响。如今由 AI 和 ML 给谷歌云带来的转变,我认为这才是 AI 的历史时刻,AI 将对更多产业造成实质上的影响。但是,我想强调这一切都还只是开始。
我们目前所发明的方法,目前探知的 AI 好比大海中的几滴水,我们不能过分夸大。不过,我认为前面有许许多多令人振奋的工作在等待着我们。
Diane Greene:我非常同意你的观点。现在很多公司都在用 AI 去做一些以前我们完全无法想象的事情,而且涉及的范围还很广,AI 似乎随处可见,不仅仅在云里。
如果我们看到问题的更深一些的层面,Françoise 你是做语音识别的。现在语音识别可以说是最普遍的 AI 应用之一。你能分享你对这一转变的看法吗?
Françoise Beaufays:
我 12 年前加入谷歌时,我们一帮人有个梦想,就是用语音识别做一些既有用又好玩的东西。语音识别实际上很早就有了,但我们想做一些与众不同的东西,这在当时很困难,因为那时候的语音数据没有今天这么多。于是,我们从很小的产品开始做起,不能识别太复杂的东西。我们不断尝试去拓展,但又不能往前推进太多,毕竟我们需要作出让人想用的成功的产品,然后开始收集数据,构建模型,再不断迭代。
我不知道你们还记不记得一款叫“Google 411”的产品,当时只是一个很简单的电话应用,你拨打一个号码,系统会告诉你这是哪个州哪个城市,然后你说你对什么东西感兴趣,系统会问你具体对什么公司(business)感兴趣,你告诉系统一个具体的名字,它就会自动将那个州那个城市的那家公司跟你连接起来。
要知道那是 12 年前,没有 iPhone 也没有安卓手机,只有翻盖机,能做的事情非常有限。但好在谷歌领导层对这一技术针对是非常有远见,很积极地鼓励我们研发,我们才得以继续探索。
后来,iPhone 和安卓手机的出现让一切都变了样。很显然,视觉反馈成为最主要的,于是我们开始设想其他的应用,最后想到的就是语音搜索。
所以,谷歌语音搜索是那个时候起,才真正开始有专人全心投入。随着手机上的麦克风位置不断变化,能用声音做的事情也变得越来越多。最近,我们开始研发将手机上的语音识别转移到 Google Home 这样的家居设备上,因为人们对使用语音完成任务的需求越来越多。这可以说是打开了整个语音助理行业的入口。能用语音完成的任务越来越多,你可以用自然语言与机器交互,不再需要很麻烦的键盘输入。
Diane Greene:谢谢。Fernanda,你之前提到想要普及将数据可视化,这跟数据之间有着密切的关联。如何实现你的目标?你是怎么看数据可视化分析的?
Fernanda Viegas:
我 10 多年前开始从事数据可视化,当时条件要艰苦困难得多,无论是机器的性能,还是可以获得的公开数据,都不能与现在同日而语。但如今,人们似乎处处都通过数据可视化的方法沟通交流,我看见新闻业中使用数据可视化真的很开心,当说起很复杂的与统计学相关的故事时,我们总是开玩笑说,数据可视化就像是统计学“入门毒品”(gateway drug),就好像你正在做统计学但完全没有意识到你在做统计学一样,因为我们人类实在是太擅长在通过视觉识别模式、看出重点等等。
所以数据可视化的方法渐渐得到推广普及,而且我认为我们在将数据可视化的能力和工具方面也不断提升。例如 AI 在数据可视化的发展当中就起到了飞跃性的作用,像 Hinton 和他的学生在可视化方面取得的巨大成功。
这让我明白了高维空间系统中的数据对人类而言很难理解,因此,数据可视化是试图去理解在这些系统里发生了什么的一种方法。例如 Hinton 发明的技术能够让我们明白数据是怎么聚集在一起的,不同的概念之间有什么区别,这些系统是如何吸收数据的。这一点我认为是十分重要的进步。
所以,我觉得我们正处于一个开始,可视化能够帮助我们更好地理解 AI。
李飞飞:计算机视觉的下一个突破在“Vision + X”
Diane Greene:接下来我们的话题会转向技术层面。Françoise 你先说一下在语音识别中最大的技术转变是什么吗?目前最大的技术挑战又是什么?
Françoise Beaufays:
好的。要知道语音识别是很复杂的,每个人都有不同嗓音、不同口音,在不同环境中每个人说话,这导致了语音数据多种多样。我认为很大程度上语音识别一直是基于机器学习的,也不是说哪种机器学习,总之随着机器学习的发展,语音识别也在不断进步。过去 10 年很重要的一点,我认为是使用了神经网络,大约在 8 年前的样子吧,或者更早。
实际上神经网络很早就出现了,有很多相关的研究,也取得了一些不错的结果,但当时的计算力不足以支撑得到现在这样好的结果,所以神经网络被抛弃了一段时间。与此同时,语音识别继续使用更加基础的方法,比如高斯混合模型。
当我们真正涉及深度神经网络后,在工程的角度上我们需要全新的视角,应对延时问题,还有训练等等。再后来,当深度神经网络变成现实,我们开始实际使用并真正在产品上应用的时候,打开了一条全新的通道,因为现在我们有强大的计算能力,能够快速的将一个神经网络转移到另一个架构上。于是,我们开始探索递归神经网络(RNN),比如 LSTM,还有CTC 建模,我们有了一系列的序列建模。
因此,转向神经网络开启了全新的可能,让我们从技术的核心去创新,驱动系统,持续优化,比如提供多种语言,提升识别的精确度。
Diane Greene:好的,说完了深度神经网络对语音识别的影响,Daphne 你能谈谈神经网络在让我们更健康、延长寿命方面有什么作用吗?这是个相当开放的问题了。