AI Talk | 小度战平人类最强大脑后，我们和吴恩达聊了聊

机器之心 · 公众号 · AI · 2017-01-15 12:11

正文

机器之心原创

机器之心编辑部

继上周五百度的小度机器人在《最强大脑》节目中的跨年龄人脸识别任务中击败了人类顶级选手后，周五晚上，小度再次在声纹识别任务上迎战了人类最强大脑，并最终以 1:1 的成绩和人类打成了平手。节目之后，机器之心对百度首席科学家吴恩达进行了独家专访，请他谈论了小度在这场比赛中所用到的技术、百度的人工智能研究和团队以及他对中国和世界人工智能研究的思考。

作为机器之心新栏目 AI Talk 的一部分，我们对这次视频专访的内容进行了剪辑，完整采访可见下面文字整理版本。

关于小度和声音/语音技术

机器之心：简单介绍一下，小度在本期节目中使用到的识别技术及其原理？

吴恩达 ：在比赛中，小度使用了 2 种前沿的声纹识别算法，为了识别出某个人，会把两种算法的结果结合在一起。

其中一种方法是基于卷积神经网络，这是一种端对端的方式。卷积网络把输入切成声音片段，然后尝试识别这些片段是不是来自同一个人。这个神经网络是在 2 万多人的大约 5000 多小时的音频数据上训练出来的。这是一个很大的音频数据集，它使得神经网络变得相当准确。

我们的第二个系统也有神经网络，但结构不同。第二个系统采用声音片段作为输入，神经网络输出 5000 维表征语音，并基于此进行统计建模。通过统计建模后的结果，抽离出说话人相关的信息，选择出 500 个特征来表征说话人的属性，而不是说话的内容。随后，使用这 500 个特征匹配两个说话人，并判断出是否是同一个说话人。

最终，我们用这两个神经网络让它们投票，从而做出最终决策。

机器之心：看起来语音识别要比语义识别更简单一些，你认为什么时候可以实现人类水平的机器语义识别，从而让人类可以和机器顺畅地交流？

吴恩达 ：让计算机以人类的水平来完全理解自然语言，这还需要很长的时间，可能需要几年，也可能是几十年，我们难以确定。但我们可以预见在一些非常垂直的应用领域，比如询问天气、叫外卖、拿快递，或者推送今天的新闻这样的基础问题。这些方向非常的垂直，我们看到了自然语言处理在这些方向上的快速发展。以百度的度秘为例，你已经能与这个机器人进行交流，它可以给你合理的答案。在垂直领域它可以做得很好，研究人员有时间考虑到所有的可能性。

我认同你所说的语音识别在过去两年已经取得了巨大的发展。事实上，语音识别如今很准确，使得更多用户用它作为文本输入。

几个月前，斯坦福大学联合百度与华盛顿大学做了一项研究，表明目前的手机端语音输入要比键盘输入快 3 倍还要多。事实上，过去 12 个月里，我们看到所有百度产品上的语音日使用量增加了一倍，也就是语音服务的使用增长了一倍。所以，那些想要更高效、更便利地使用手机的用户更倾向于使用语音输入。

机器之心：百度语音平台免费提供了一些 API，它能实现什么功能？如何从中受益？

吴恩达 ：语音已经变成一个非常重要的人机交互方式，在百度大脑，我们正在努力实现越来越多的语音功能并帮助人们用上这种强大的能力。在我们的网站上，最受欢迎的语音功能是语音识别、TTS（尤其是情感 TTS）以及语音唤醒。我们的团队在不断努力将越来越多百度的最好语音技术放到网站上。我们知道，对于第三方公司来说，获取这些技术是非常有用的，但也还需要知道如何有效地使用这些技术。所以百度大脑做的另一件事情是创造能够帮助第三方组织、开发者和公司了解如何最有效地在他们的产品中使用这些技术的材料。所以我们也正在将越来越多这些训练材料放到我们的面向公众的网站上。

机器之心：百度是如何提升语音输入法的识别精度的？其中最困难的部分是什么？

吴恩达 ：你知道，机器学习系统得到最好表现的一种最可靠的方式是在大量的数据上训练大型模型。如今百度的语音识别系统是建立在 5 万小时的数据上的，这是一个超过 5 年的音频数据。此外，我们在超级计算机上训练模型，它给了我们非常大的计算能力，从而建立足够大的神经网络吸收这些数据。

除此之外，我们面临的一些挑战是在缺少资源的语言和方言中。我们在尝试让百度语音识别系统覆盖更多的方言。在有很小数据集的方言上，我们尝试了在普通话上学到的东西，并将这些知识用到不同的方言上。所以，百度有很多积极性的研究是关于在没有普通话那样大量数据的情况下，研究在方言上做到最好的算法。

另一个研究挑战是如何让语音识别在没有很多数据的新领域、新应用场景中有好的表现。例如，在不同的语音应用场景，语音片段听起来也各不相同，比如很多口语化的语音的识别问题。在这些小的新垂直应用中，我们没有很多的数据。所以我们也在做大量的研究，想要搞清楚从现有收集到的 5 万小时的数据中能学到什么，然后专门应用到新的垂直领域与新应用中，这些领域中的音频质量或说话方式与我们的训练数据有很大不同。

你知道，语音识别有了极大的发展，在很多领域有很大的应用。但在语音上，仍有许多的研究需要完成。

机器之心：在 CES 2017 上，百度发布了 DuerOS，你也曾提到今年是对话机器元年，应该如何理解？

吴恩达 ：我认为我们进入了语音对话接口成为必要事物的计算新时代。20 年前，我们大部分使用台式计算机或笔记本的键盘。大约 10 年前，乔布斯发布了 iPhone，开启了手触屏幕与手机以及其他设备交互的时代。

我认为人机交流的下一个时代是语音交流接口，而且我认为这一趋势如今刚好起飞。因为这一技术刚好到达了这样一个点，你可以坐在家中与对话计算机进行交流，询问航班以及其他信息，而且它们能了解你说的什么，并为你提供有用的信息和服务。

所以，我对对话计算时代黎明的到来非常乐观。事实上，我们在中国感受到的一件令人激动的事是我们看到了很多的创新，不同的团队建立了不同的很有创意的硬件。比如，小鱼在家、智能音箱、电视盒子等等。

有了 DuerOS，我们希望能帮助所有的这些硬件制造者将人工智能、语音对话智能加入到硬件中，从而让更多这样的设备进入家庭。

机器之心：你认为语音识别技术未来将在哪些领域发挥最大作用？

吴恩达 ：我认为语音在 4 个类别中将会快速起飞。

第一个是手机。因为在智能手机上语音输入要比键盘输入更快，所以百度在手机的语音识别上增长迅速。

第二个是家居场景。我们看到了智能音响（smart speakers）的崛起，出了智能音响，我认为小鱼在家、电视盒子这样的设备也在增加。我们把这种坐在家的体验叫做背靠式体验（lean back experience），也就是你能背靠沙发发号施令，然后各种家居设备会了解你的需求并作出回应。

第三种是汽车场景。在你驾驶的时候，手放在方向盘上用说的方式与汽车交流，它就知道你想做什么。所以我认为在这个场景中也会发展。

最后是可穿戴设备。大部分可穿戴设备没有很大的界面，比如智能手表等。所以我认为在这个垂直领域，语音会慢慢发展。

所以，我认为语音是让你与机器交流如此高效的一个接口，它会在这些垂直领域有很快的发展。可能也有其他领域。

机器之心：您怎么看语音识别技术的商业前景？

吴恩达 ：在手机百度、百度地图、百度输入法等许多百度的产品中，我们可以看到过去几年中语音的使用变得越来越频繁了，因为这对用户来说是一个方便得多的文本输入方式。所以有大量第三方硬件制造商、软件开发商和开发者想使用语音来帮助他们的用户与他们的应用或设备进行更加自然和方便的交流；百度大脑项目也是一样，我们通过我们免费的语音识别 API 发布了我们的产品，让第三方也能用上我们的技术。语音识别是最难、门槛最高的技术之一，在百度，我们有幸能够使用足够的资源开发出非常好的语音系统。所以我们希望能够通过我们的技术来帮助许多开发者和企业组织，让他们的用户也能将语音作为一种输入方式。

百度的人工智能研究团队

机器之心：百度人工智能团队的日常工作是怎样的？是什么创新机制在支撑团队保持创造力？

吴恩达 ：现在正是从事人工智能工作的好时候，你能看到有人将人工智能比作是「新型电力（new electricity）」——就像一百年前电力变革了一个又一个的行业一样。我认为人工智能也将类似地给交通和通信等许多行业带来变革。我们很幸运有这么多出色的人才在百度工作，他们不仅在努力使用百度的数据和计算资源来提升这些技术，而且也在寻找新的语音识别和人脸识别等技术并将它们投入到可以真正帮助人们的新场景、新产品和新应用中。每天我到百度工作时，我都为我们有这些能够帮助很多人的技术而感受振奋。

在这里我想额外补充一点。我想对所有还在考虑自己的职业生涯的年轻人说一句，我知道当你很年轻的时候，有时候你无法确定该追求怎样的事业。我认为我们现在正生活在一个人工智能领域有无穷机会的时代，如果你还不确定你该做什么，可以考虑加入我们来开发人工智能、研究人工智能，未来几年这一领域将有非常大的机会。

机器之心：在将人工智能研究成果产品化的过程中，百度人工智能团队是如何与其它业务部门协作的？

AI Talk | 小度战平人类最强大脑后，我们和吴恩达聊了聊

正文

请到「今天看啥」查看全文