专栏名称: AI科技评论

「AI科技评论」是国内顶尖人工智能媒体和产业服务平台，专注全球 AI 业界、学术和开发三大方向的深度报道。

李飞飞：我把今天AI所处的发展阶段称为“AI in vivo”

AI科技评论 · 公众号 · AI · 2017-05-21 22:39

正文

AI科技评论按：在谷歌 I/O 2017 的最后一日，主场馆海岸线圆形剧场迎来了本届 I/O 最具重量级的机器学习讲座：由四位分属不同领域的 AI 女性大牛展开巅峰对话，漫谈 AI 的过去、现在与将来。四位嘉宾分别是 语音识别、计算机视觉、数据可视化和生物计算 领域的顶级 AI 学者与工程师。而本场对话无关技术，纯是几位杰出科学家对各自领域深度学习发展历程的反思，以及对将来趋势的思考。

四位嘉宾是：

Francoise Beaufays，谷歌语音识别技术研发带头人
李飞飞，谷歌云首席科学家，斯坦福 AI 实验室负责人
Fernanda Viegas，计算式设计（computational design）专家，谷歌 Big Picture 数据可视化部门负责人之一
Daphne Kolller，Calico Labs 首席计算官，Coursera 联合创始人

本讲座由谷歌云副总裁 Diane Greene 主持（以下称”主持人“），分为三个环节，每个环节的话题分别对应 AI 的过去、现在与将来。

话题一：AI 技术是如何发展到深度学习时代，走到今天这一步的？

Daphne Kolller： 我认为，深度学习革命让我们得以解决当今各领域的许多现实难题，它让这一切成为可能。

这场革命，是一系列机器学习研究进展的结果——深度学习来临之前，大约有 10 到 15 年相当艰辛的研究，用于研发人工设计的模型。构建这些模型需要大量其它领域的专业知识，以及深入细致的思虑考量。研究人员需要人工雕琢模型的大量细节，由于缺乏数据，往往要用我们的直觉判断作为构建模型的依据。

而当我们得到更多数据，尤其在文字、图像、语音领域，就逐渐开始用数据来替代这些主观洞察力。但是，过去这 10 到 15 年间的技术研究成果，在今天仍然很有价值。这里有两个方面：

在研究方法上，优化算法便是那时发明出来的，是深度学习得以成功的关键技术之一。
另一方面，如今我们一厢情愿得相信，大数据是解决一切的方案。但这仅仅对应部分领域。对其它领域而言，我们掌握的数据量充其量不过是中等，有的甚至可说是小规模。因而， 仍需要在人类直觉和数据之间做平衡，充分利用两者的长处。

李飞飞： 我来稍微谈一谈历史背景。在所有人类的科学领域里，AI 是一门相当年轻的学科，大约有 60 岁。但在我的观点里，AI 启蒙思想的根源，即对于智能的求索，可追溯到人类文明诞生的黎明时期。

大约 60 年前，机器刚刚能处理简单的算术。但以计算机科学之父阿兰-图灵为代表的思想家，已开始提出挑战人类社会的问题：“机器是否能思考？机器是否能拥有智能？那时，马文·明斯基、John McCarthy 等计算机先驱聚到一起，创立了如今的人工智能学科。AI 之父们眼中的 AI，在技术上讲，与今天十分不同。但核心的愿望是一致的：让机器能学习、思考、感知、有逻辑，能开口说话，与我们交流。

AI 已经经历了几波技术发展：从一阶逻辑（first-order logic），到专家系统（expert systems），然后是早期机器学习，再到如今的深度学习革命。

过去的 60 年，我把它称为”in-vitro AI“，或者“AI in vitro” （雷锋网注：可理解为“试管阶段的 AI”）。这一阶段为 AI 研究的基础问题以及众多子学科打下了基石。后者包括机器人、计算机视觉、自然语言处理、语音处理、生物保护学（conbio）等等。这同样是一个研究人员们不断理解数据、寻找工具集的过程。

而 2010 年左右是一个分水岭。这时，三个不同领域的进步终于达到了一个前所未有的里程碑高度：统计机器学习领域工具的成熟、互联网和传感器带来的大数据、摩尔定律预测的硬件计算性能提升。 这三者的合力，把 AI 从 “in vitro”阶段，推上了一个被我称为 “in vivo” （雷锋网注：可理解为“胚胎阶段的 AI”） 的全新阶段 。

“AI in vivo”，是一个 AI 技术向世界做出实际贡献的阶段。当下这个时间点，还仅仅只是个开头——“It‘s just the begining”。我们在谷歌云所观察到的每一个行业，都在数据、AI、机器学习的推动下经历着革命性的转变。在我眼里，这是一个历史性的时刻：AI 终于开始发挥现实影响力，改造无数个行业。

我想要再强调一遍：一切刚刚开始。现在 AI 领域的工具和革命性技术，仅仅是广袤海洋中的几滴水。剩下的可探索空间，即我们能借助 AI 实现的事情，几乎是无限的，再怎么夸大也不为过。对此，如果你感到兴奋激动，或许是应该的——有许多工作等着我们去做，来实现 “AI in vivo”。

主持人：Francoise，你处在语音识别研究的最前沿。当下，语音识别技术已经普及开来，能否向我们介绍下这一发展历程？

Francoise Beaufays： 当然。12 年前我加入谷歌，那时，我们都想用语音识别技术做点有用、好玩的事。但这相当得难——当时语音的质量完全不能和现在比。因此，我们从极其有限的产品着手，这样识别一个人说的话并不过于复杂，然后一点一点地突破极限。我们需要做的，是打造一个成功的产品，让用户愿意使用；然后以此为基础，不断收集新数据导入模型、不断迭代，每次提高一点点。

按照该思路，我们开发了 GOOG-411，我不知道有多少人还记得它。它是一个手机 APP：你拨打一个号码，它会问你：查询哪个城市或州？回答之后，它接着问：“查询哪家公司？”说出名字之后，它会拨通该公司的电话。请注意，12 年前，没有 iPhone 也没有安卓，大家用的还是功能机。所以 GOOG-411 的功能也很基础。幸运的是，谷歌高层对该技术的前景抱有憧憬，支持我们尽可能得打破技术极限。

当时我们很成功。然后 iOS 和安卓诞生，一切都变了——用户有了视觉反馈。于是我们开始构想其他的 APP 产品，那便是 Voice Searchv用语音进行谷歌搜索。我们开始做语音转录，把麦克风整合进手机功能的各个入口，让用户可以用语音做任何事。

更后来，我们试图把语音识别技术带到家庭场景，比如 Google Home 这样的设备。用语音来处理日常任务，是一个呼声很高的诉求。我们认为智能助手是一个很好的入口。相比用口头命令做简单的事，智能助手可以用日常的自然语言与用户问答，而不是麻烦的键盘打字输入，使谷歌真正成为用户的个人助手。

主持人：Fernanda，你曾表示要让数据可视化民主化。如何才能实现？必要性在哪里？数据可视化分析又是如何进化的？

Fernanda Viegas： 十多年前，我已经在从事数据可视化。当时的情况很不一样：研究非常困难，设备和现在不能比，能获得的数据也很少，大多数并不公开。

这情况逐渐改善，现在，数据可视化已可说是无处不在。比如，媒体也喜欢在数据可视化的帮助下，用统计数字表达复杂的新闻事件。我们喜欢的一个玩笑是： “对于统计，数据可视化是一道毒品” ——你可能都不会意识到自己在做统计，因为数据可视化是如此善于在视觉上找规律、找异常。

数据可视化一直在一条更加民主化的轨道上。长久以来，AI、机器学习有一项重大挑战：如何让我们人类理解超高维数据。这方面，Geoffrey Hinton 和同事们搞出的 t-SNE，堪称是 AI 领域的革命性数据可视化工具。它在数据可视化发展史上是一项相当关键的里程碑。我和飞飞有类似的感觉：我们正处于如何利用数据可视化技术推动 AI 进步的起点。

话题二：AI 在当下面临的技术挑战

F rancoise Beaufays： 语 音识别从来都是基于机器学习，与更早期无关机器学习的技术没什么关系。 过去三十年间，机器学习技术一直在进化，语音识别也不断进步，其中一个大转折点是神经网络的采用。这距今不到八年，但基于神经网络的语音识别研究在很久以前就已开始。只是由于计算能力的限制，这条路在产生大量成果之后被学界放弃，直到几年前重新采用。这期间，语音识别基于更基础的技术，仍然在发展提升，例如 Gaussian 混合模型。

在技术上，采用深度学习确是一项较艰巨的工作，牵扯到延迟、规模、训练能力等问题。当基于深度学习的语音识别技术在生产环境部署，这打开了一扇崭新的大门，背后是一系列的提升。另外，由于有了强大的计算硬件支持，我们能快速地从一个神经网络架构转换到另一个。因此，我们开始探索 RNN（比如 LSTM）、CNN、基于 CTC 的序列建模等其他模型。简而言之，采用神经网络，为我们开启了在支撑谷歌产品的核心技术上不断创新的新空间。

主持人：这是用于语音识别的神经网路，我们再来听听能延长寿命、让我们更健康的神经网络。Daphne，给我们讲讲为什么 Calico Labs 需要你这位世界最顶级的分子生物学与机器学习专家之一，你在那做什么？

Daphne Kolller： 很多人可能没听说过 Calico，我们的曝光很少。做个简介，Calico 是最早剥离谷歌，直接归属 Alphabet 的子公司。Calico 的目标是理解衰老，帮助人们活得更长、更健康。

衰老其实是我们所面临的最大的死亡风险，没有之一。这对几乎所有 40 岁之前发生的疾病都成立：当患者一年一年老去，死于该病的风险会指数级得增长，糖尿病、心脑血管疾病、癌症均是如此。

但讽刺的是，没人真正知道为什么。

没人知道为什么在 40 岁之后，每一年过去，都会给我们增加死于这些疾病的风险。为了对此进行理解，我们很有必要研究导致衰老的生物系统机制，从分子层面一直到系统层面。虽然我不认为我们能永生，但也许通过技术手段介入，我们能活得更久更健康。

Calico 早期有一名研究人员，其研究显示： 仅仅某单个基因的变异，就能延长机体 30%-50% 的寿命。 而且，我们不仅会活得更长，还会以更年轻的面貌、更饱满的健康状态生活。

但实现这些需要搞清楚许多尚不明了的东西，还需要收集所有生物系统在所有年龄状态下的海量数据，包括酵母、虫子、苍蝇、老鼠、人——为什么这些不同物种在分子层面发生着同样的事？

幸运的是，过去二十年间，科学家们发明出一整套衡量机制与方法，收集数据并试着帮我们理解衰老中的机体。这包括基因测序技术、微流体、跟踪设备，记录机体如何随衰老发生变化。但是，没人能把这些不同测量机制所产生的、从微分子层面一直到人口学层面的数据整合到一起。

如何整合所有信息，精确描绘出人体如何衰老的过程？

这就需要生物学家和机器学习专家之间的合作，后者能建立模型，整合所有信息。

我属于少数极幸运的人，能在该领域的萌芽时期就投身进来：在 2000s 年早些时候开始从事计算生物学（computational biology）。如果说，我的机器学习算是母语造诣，我的生物学就在“流利”水平。这使我能够与 Calico 的科学家们共事， 在两门学科之间建立真正的合作纽带，开发能结合两个世界的优点——大数据和人类直觉的模型。

由于生物机体的复杂度实在太高，即便是今天这个量级的数据，我也不认为仅用数据就能重建生物体从头到尾的完整模型。正如我在讲座的开头所讲:数据，和顶级科学家的直觉，我们都需要；用以最终建立对衰老的深度理解，并预测有效的干预方式。

主持人：下面聊聊计算机视觉（CV）。飞飞，有次在 TechCrunch，你说 CV 是 AI 的杀手级应用，你想表达什么？你一直提倡的 AI 民主化又是什么意思？这跟云计算有什么联系？

李飞飞： 我当时是想推动更多人认识到这一点。我坚信这一点。当时的原话是： “很多人问 CV 的杀手级应用是什么？我会说：CV 本身就是杀手级应用，AI 的杀手应用。”

我会这么说，有两个理由：

五亿四千万年前，生物进化史上发生了浓墨重彩的一笔：由于某些不知名的原因，地球上的物种种类从极少，一下子爆发为极多。这被看作是进化史上的宇宙大爆炸——被称为寒武纪大爆发。对其背后的原因，生物学家迷惑了许多年。直到最近，一个非常有说服力的理论浮出水面。这个猜想是：那时，生物进化出了眼睛。一下子，动物的生存变得主动：有了猎食者，有了被猎食者，整个物种进化轨迹从此天翻地覆。

今天，人类是最智能的视觉动物。大自然把我们脑容量的一半都分配给了视觉图像处理，正是由于其重要性。
至于第二个理由，据估计，互联网上超过 80% 的内容，为视觉内容。另外，传感器收集的第一大数据形式，是由可见光或不可见光组成的图像数据。无论在哪里，对于公司、消费者来说，以像素形式出现的数据都是最珍贵的。

和语音识别类似，有了深度神经网络之后，CV 实现了多项突破和长足进步。在我看来，从 2010 到 2017 的七年间，CV 最主要的进步发生在基础的感知任务领域（perception task）：物体识别、图像标注、物体检测等。我们也已经有了应用产品——谷歌照片（Google Photos）、自动驾驶汽车的行人检测系统等。

我认为，下一波对 CV 的投资，将集中于 “Vision+X”，即 CV 和其他领域的结合应用。 比如说，视觉在沟通、语言中是如此重要，CV 和语言的结合，会非常有意思。医疗、生物领域的视觉应用更不必说。机器人是另一个有无限潜力的 CV 应用领域。人类研究机器人的历史几乎和 AI 一样久，但现在，机器人仍处在一个非常原始的阶段。究其原因，这在很大程度上是由于其原始的感知系统（想想寒武纪大爆炸）。

简而言之，我的确认为视觉是机器智能最重要的构成要素之一。

话题三：AI 在将来有什么趋势？有哪些可供展望的愿景？

主持人：我们时间不多了，Fernanda，能否讲讲你眼中数据可视化的未来在哪里？

Fernanda Viegas： 当然。顺着刚才飞飞的思路，既然人类有这么复杂的视觉系统，我们不妨用它来理解机器做的事。机器学习运行于海量的数据、统计数字、概率，在某种意义上，可视化是帮助我们理解这些东西的秘密武器。

为什么我们应该重视数据可视化？这有三点：

可解释性。你是否能解释模型输出的东西？
漏洞可修补性。更好地理解模型，能帮助你修补漏洞。
教育。可视化在机器学习教学中扮演了重要角色。另外，如果我们利用可视化更好地理解了机器学习系统，我们能否从这些系统中学习，提升职业水平？

最后，我想讲一个有意思的例子，我们用数据可视化发现了机器学习系统中原本并不知道的东西。前段时间，谷歌实现了 zero-shot 翻译，即谷歌翻译能处理未遇到过的语言组。研究人员对此产生了一个疑问：该系统的多语种数据空间是按照何种规律分布的？比如说，数据是按语种划分？还是，系统把不同语种混到一起，“学到”了一些语法、语义的规律？

于是，我们开发了一个数据可视化工具来进行查看。结果发现，不同语种但相同语义的句子，组成同一个簇。不同句子形成一个个不同的簇，而无分语种。某种程度上，这可以说是世界通用语言的雏形，我们把这成为“interlingual”，即“跨语言的”。另外，我们发现，哪些相对更隔离的簇，都是翻译质量不高的语句。这告诉了我们，数据空间的几何分布是有涵义的。

目前为止，AI 仍让人感觉到强烈的工程导向属性。我很期待在将来，艺术家、UI 设计师、科学家会为 AI 带来什么，有哪些我们全未想到过的可能性？这些会很值得探索。

主持人：Francoise，我想问你数据可视化会如何帮助语音识别（笑）。但我同样想问你：如今数据越来越复杂，比如训练模型的标记数据，还有越来越多的个性化，语音识别技术在走向何方？又有哪些令人兴奋激动的挑战？

Francoise Beaufays： 在语音识别领域，每当遭遇一个新难题，我们必须要专注在它上面。我们开发 Youtube 儿童频道的时候，就必须要专注于孩子的声音——他们的说话方式、音域、断句方式都和成年人不一样。最终，我们找到了把学习成果加入通用模型的方法。因而 Google Home 现在能与儿童正常交互。

对于我们而言，Google Home 又是一个新环境，我们需要收集新数据。有了新数据之后，将其导入模型进行训练就变得简单直接。但是，第一次发布 Google Home 的时候，并没有用户数据。因此，我们做了许多模拟：采集数据，添加不同类型的噪音，在数据上做不同类型的混响（reverberation）。事实上，我们用的数据足以称得上是海量。我们转录了数万小时的语音，然后与模拟叠加增殖，最后导入模型的数据，相当于是数个世纪的语音。

世界上有如此之多的语言，语言学家说，光是使用人数在 10 万人以上的，就有 1342 种。我们如何向如此之多的语种服务？这是一个需要在机器学习领域发挥很多创造性的难题。

李飞飞： 我相信 AI 是第四次工业革命的驱动力量之一。我从一个哲学家那里听来的、一句我最喜欢的话是这样的：“独立的机器价值观并不存在，人类价值观就是机器价值观”。我很期待在将来，来自各门学科的技术专家在 AI 领域发挥所长，只有这样，才能真正为全人类开发 AI，而不是为一部分人而研发。

李飞飞：我把今天AI所处的发展阶段称为“AI in vivo”

正文

话题一：AI 技术是如何发展到深度学习时代，走到今天这一步的？

话题二：AI 在当下面临的技术挑战

话题三：AI 在将来有什么趋势？有哪些可供展望的愿景？

请到「今天看啥」查看全文