专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

AI Talk | 思必驰首席科学家俞凯：深度绑定底层研究和产业问题

机器之心 · 公众号 · AI · 2017-03-29 13:58

正文

机器之心原创

作者：高琳

这个世界上的研究，总会有一些人去坐冷板凳，而坐冷板凳的人，他今天去坐明天不一定去坐。就像深度学习现在这么热，之前也有过很冷的阶段。

创业的这个过程中能够义无反顾，这是思必驰团队非常有特色的一个点。当然不是傻的义无反顾，如果说大家都没有学习能力，只是撞南墙是肯定不行的。但是如果没有这种义无反顾的决心，遇到困难就放弃，我不认为是一个合格的创业者。

对于创业者来讲，如果说他在很多事情上，不能够拿自己底层的东西去拼的话，这个创业，恐怕一遇到困难就会垮掉。

从研究到创业，这是俞凯在机器之心 AI Talk 节目中发表的感想。在学界，俞凯教授现任上海交大计算机科学与工程系研究员，智能语音技术实验室主任；在产业界，他是思必驰创始人、首席科学家。他还是国家优秀青年科学基金获得者；IEEE高级会员；IEEE语音语言技术委员会委员；入选国家「青年千人计划」；入选上海市「东方学者」特聘教授。

在下面的专访中，俞凯教授从对研究、技术的思考，谈到了个人经历以及创业。

关于研究方向和技术解读

机器之心：成立于 2007 年，目前思必驰在市场上的定位是什么？

俞凯：思必驰 2007 年成立于英国，回国是在 2008 年。期间经历了几个阶段，之前一个阶段是以口语教育作为主要方向，利用智能语音技术来实现口语的发音评估和口语综合能力的评估；第二个阶段 2012 年我回到国内之后，整体方向向移动互联网和智能硬件转移，以全面的端到端口语对话系统作为最终极、完整的系统解决方案。现在思必驰整个的定位是在做以口语为主体的自然人机交互的智能解决方案的平台。

机器之心：思必驰主要的研究方向是哪些？

俞凯：主要的研究方向包括了自然口语交互所能涉及到的各个方面。典型的包括语音识别、合成、理解和交互控制，我们一般把它叫做对话管理。还包括了语言的表述、一些背景自然语言文本的处理，也包括了一些丰富音频的分析，比如说声纹。总之就是人和人之间所需要进行语音和语言交互的各个阶段的模块，以及整体系统的架构等。思必驰未来的目标就是要让机器能够像人一样，人性化的去做交互。

机器之心：思必驰的研发技术是怎样应用到产品中去的？

俞凯：一般来说，首先会有基础算法的研发阶段。自身的研究积累以及在国际上所能够碰到的最好的技术，我们会结合非常实际的场景，做出评估。技术本身存在的算法壁垒、数据壁垒，或其它一些技巧性的壁垒，这些是需要在基础研究阶段解决的。解决之后，结合公司自身的实际情况，把相应的技术转化成实际产品当中。

此外，思必驰是一个具有基础研发能力的企业。真正有意义的很多科学问题，是从现实世界中的难题提炼的。真正在做人机口语自然交互过程中，碰到的各种各样的难题会倒过来，再把它变成科学问题，继而去做基础性的研究，再反哺到现有的基础上。

举个典型的（纠正）例子。如果把它看成一个产品设计，单纯从纠正号码这个角度讲，谁都可以把它做出来。但如果把它看成是一个技术问题，比如动态规划的推理，比如去做架构层面的一般性的设计。不单单是大家看到的现实产品，还要把背后的所以然搞清楚。这就是从现实问题，再到研究再回去。这是思必驰比较特殊的一个地方。

机器之心：目前自然口语对话领域，最值得关注的方向有哪些？

俞凯：首先从文本性的对话交流来讲，未来一定是要走向文本和口语结合的。纯文本在 PC 互联网时代比较容易获得重视，因为大家天天都是在看。但是在移动互联网时代，无论是现在的手机，还是未来的智能硬件，更多时候大家是在交互。

未来自然语言的信息交互，它是以口语通道为主，辅以其它通道。从这个角度上讲，未来的方向从我来看，有两大部分：一部分是通过以深度学习为主的方式来解决语义本身的表达和分析，当然这也包括知识的表达和分析；另一部分就是解决交互问题。交互是一个新领域，在过去 10 年，才逐步得到大家的重视，交互要做的就是让机器可以像人一样去做决策。

机器之心：深度学习的出现，给自然对话领域带来了哪些改变呢？

俞凯：最大的改变就是可以用大数据自动提取一些上层的抽象的特征，能够使得传统的自然语言处理的任务，在深度学习框架下，性能得到非常大的提升。这个改变意味着在传统的科学范式里所要解决的几类机器学习问题，几乎都可以得到比较好的解决。举个例子，比如说分类问题，比如说回归问题，只要你能把它，我们叫 formulate，就是把这个问题变成这两种格式，那么采用深度学习，再加上辅助有比较大的数据量，几乎都可以很好地解决，相当于提供了非常厉害的通用方法。

机器之心：NLP 领域要继续发展，应该去探索哪些新的方法？

俞凯：深度学习的潮流，从现在来看种类越来越多。它的意思是，大主流可能还叫深度学习，但它里面出现了很多新的小的分支。不再是像以前以神经网络为主要方法，以大数据为主要的燃料，主要方法加上燃料，它就能造出很多很好的结果和火花。

第一个例子就是关于迁移学习和深度学习之间的关系。深度学习是需要大数据的，传统的问题范式下，它能解决得很好。在很多时候无监督的时候，你是没有标签的，或者说你只有很少量的标签。在你已经区分了男人和女人之后，我下面再让你去区分小孩和女人，怎么去区分？这个时候就可能是要解决一个，既有很大量的数据，但又不满足传统问题范式，或者是你又要去到一个新的领域，那个时候迁移学习和深度学习的结合就变得很重要。

第二个例子就是现在的深度学习，已经比较好地解决一些问题，主要还是大数据驱动。但随着我们越来越向认知这个方向去进发的话，知识和数据的联合驱动就变成一个特别明显的方向。像这样一类新的范式，它都会使深度学习本身又产生很多小的分支，不再是单纯的深度学习，而是在我们解决问题的方法上，甚至是在我们发现问题的方法上有非常大的变化。

机器之心：GAN 和强化学习结合来做序列产生是最近研究的一个热点，被视为 GAN 进入 NLP 的一个开端，请您谈一谈 GAN 在解决 NLP 问题上的前景和挑战。

俞凯：实话实说，我到现在为止没看到很成功的 GAN 的例子。

自然语言是一个序列，那么之前 GAN 它是放在图像的生成上，放在自然语言序列上面的话，就需要满足序列生成的一些特定条件。因为自然语言处理是一个离散的东西，它不像 image，它是个连续的值。比如说一个 density，那么它的灰度 156 和灰度 155，这两个肯定是接近的。但如果放在自然语言处理里，虽然可以把它向量化，但很难讲那个向量里面，156 这个值和 155 这个值在语义上或者是在其他的语言学的度量上，它是接近的，很难很难去规定。所以从现在看到的实践结果，GAN 有一些结果，但都不是在主流任务上面，所以对 GAN 是不是能很好的应用，我本人还是打了问号。

未来 GAN 要产生影响，至少从我的观点，自然语言处理中，如果要有巨大的飞跃，那么先验知识的放入是不可避免的。而如何比较巧妙的用少量的先验知识结合无监督的大数据，或者是在这个先验知识本身的结构形态上面，有很好的深入的通过机器学习的方式做解构，这个可能是未来能够产生突破的一个很重要的方向。

机器之心：完全数据驱动的端到端训练方法是目前流行的解决方案，但完全脱离先验知识或者其他相关资源似乎并不可取，您如何看这个问题？

俞凯：首先我不认为端到端是个趋势。就算有很多人都同意，我自己的学术观点就不是这样。很简单的道理，你看一看现在真正业界用的系统，有谁敢说是完全端到端的。端到端最大的问题，最大的好处是，你不需要去设计中间每一个模块的架构，它可以使得你用统一的架构去解决一个问题。

这就使得在简单的大数据驱动框架下，它能够做得很好。但假如你所面临的这个任务本身它是需要可解释的，它甚至是需要可调整的，那么端到端它只给了你一个黑箱子，可能很难去调它，而自然语言处理恰恰是这样一类问题。

不论你能把翻译做得多好，我现在给了你另外一些新的数据，比如说是个新的领域，我请你来帮我改变一下，那你怎么做。即使是用端到端的做法，那也是要结合一定的知识架构，去做迁移性的端到端。所以我不认为简单的端到端，是一个目标。重要的事情，核心的点还是在于与应用的结合。在具体到真正的应用领域当中，它会有自身的一些特性，而那些特性反过来又会促进新类型的机器学习方法的产生。即使叫端到端，也是有语音语言背景的，这样一些特殊的端到端，它要做到可解释，它要做到可调整。这样的东西才是真正有发展潜力的。

机器之心：那怎样利用好常识、已有知识来解决现在的实际问题？类似「最强大脑」语音识别比赛中的监督学习。

俞凯：在过去的四五年，我大概探索这么几类。一类就是把先验知识以某种方式变成向量化的表达，然后输到你的网络里，这一类思路主要研究先验知识怎么表达。Word2vec 这是最典型的一个。但如果我问你，假如你想要表达一下你的语义，你怎么表达呢？这一类思路是研究一些复杂现象的表达，然后把它输到传统模型，放到它的输入或是输出。

第二类，就是从模型结构层面，把一些先验知识放进去。在我们做语言模型训练的时候，我是给定了前面的文字，然后去预测下一个文字。这是基本的一个概念，我们给定的文字是什么呢？比如前面给定了 5 个词，你去预测第 6 个词，但在这个时候你就会发现，中文还有一个单元是字，字和词之间其实是有组合关系的，有一些时候单字是没有意义，组合成词才有意义。但更多的时候是单字本身，它对于词的意义甚至对词的预测是有帮助的，那么你如何把单字和词放在一起呢。

我们当时做一个工作，在一个基于词的神经网络回归模型里，我们加了一个词分解成字的结构。在预测输出的时候又把字再自动合成词，相当于内嵌了对字结构的描述，这种情况使得在一些低频词上面的预测概率变得非常的好，这就是在模型结构上去做预测。

第三类，就是传统的机器学习问题。我们当时做了另外一类思路，就是说可不可以把一些先验的知识，通过约束条件的办法放进去，我既不改模型，我也不改输入输出，但是我加一些比较特殊的约束条件。在我们做这个对话状态跟踪的时候，就曾经做过这样的一些例子，取得了比较好的效果。

机器之心：在交互的场景下，该如何针对人们不同的这种知识背景进行学习并反馈正确的内容？

俞凯：现在基本上是采用迁移学习的一些思路来做。比如所谓在多任务的情况下，做语义任务的分解。然后共享中间比较共同的网络结构，在比较特殊的结构上，再去进行一些小规模参数的协调，大概是这样一些方法。

我觉得在交互的时候，不同人的说话的方式不太一样。有一个前提是，要想做这件事，总需要有这个人的少量数据才能做。我认为在方法上，还有很多其他类语音的自适应方法也可以放到自然语言处理中是没有问题的。但瓶颈不在这，瓶颈在于根本拿不到这种交互数据，这是目前产业界和研究界都比较困惑的事。

机器之心：目前科技巨头都在致力于发展语音交互的机器人如 Alexa、 Siri、 Cortana 等，未来是否可能会有公司或是会议牵头制定语音行业的标准？

俞凯：我相信人工智能的标准一定会在很多地方都会被制定，这个我相信。但具体是说，行业联盟的形式还是什么这个我们还需要看。包括思必驰自己，因为我们在做的东西，是端到端的交互，而且我刚才也提到，从我来推动的一个方向，把它推到所以然方面，会比较有架构的方式，系统性的方式来观察它。所以我们自己也在做一些这种标准化的工作，这对未来和这个行业的一些同行，我们一块来做这个标准我相信都是有帮助的。

机器之心：在语音训练数据的选择上，思必驰会进行数据的筛选和预处理么？是如何进行预处理的？

俞凯：一定会做的。现在就是这种预处理，绝大部分肯定都是自动来做的。这种就涉及到一个具体的技术，就是基于这种置信度这样的技术。我们会采用一些快速的，半人工的手段来做的。

机器之心：当前基于深度学习的语音算法和传统基于统计模型的方法有很大的区别，特别是在特征设计和提取上呈现明显的简化趋势，而这样的趋势会误导一部分学生和从业人员，使其轻视传统的语音基础研究。请您谈一谈对这个问题的看法。

俞凯：两个角度。第一就是从业者的角度，从我的看法上来看，更多是关注比较实用的技术，所以我认为这是非常自然的。什么有用，就应该向什么方向走。但是它是有瓶颈的，现在深度学习就已经到了一个瓶颈。首先它整体水平很高 90%，甚至更高，但是想把它做到 95%，做到 97%，你想在不太配合的环境下去做，这个时候纯深度学习的东西就会出现一些问题，那么势必就要去考虑，深度学习本身的扩展它很可能就是符号主义和连接主义之间的一个结合。

第二个角度就是从研究的角度。这个世界上的研究，总会有一些人去坐冷板凳，而坐冷板凳的人，他今天去坐明天不一定去坐。就像深度学习现在这么热，之前也有过很冷的阶段。80 年代神经网络很火，后来 SVM 出来之后神经网络也冷了一段时间。那么那个时候是不是它就没用了呢？其实不是。

从研究的角度上看，反而应该更鼓励多元化，传统的基于符号处理的一些东西，它有它固定的一些优势，只是现在深度学习的影响力，明显要更大一些而已。两者都还要向前发展，没准再过了一段时间，符号主义又会卷土重来，但我相信跟以前的也不会一样，一定是某种层面的一个否定之否定的结合。

关于个人经历和思必驰

机器之心：您大学本科选择了清华大学自动化系，为什么选择这个方向？

俞凯：在高中考大学时，不会想得那么清楚，只会有一个模糊的大方向，主要是选择这个信息大类。而我自己选择自动化系，其中一个很重要的原因，不是专业原因，是在当时招生的过程当中，系里大概聊到，除学习之外，还有好多社会工作、文体活动等。

机器之心：从博士期间一直到现在，你一直在做语音和语言处理方面的研究，你看到行业有哪些明显的变化？

俞凯：我在剑桥待了 10 年，前 5 年做的是语音识别，后 5 年做的是对话系统。我在博士毕业的时候，同学都不想找语音的工作，我同级毕业的很多同学去了金融公司。那个时候，相对来说是语音发展的一个低谷。

我看到一个特别特别大的一个变化，是从 2010 年左右，尤其是 siri 出来之后，整个语音在机器学习和人工智能领域里，应用这个层面的地位，就是变得非常非常的高，而且技术的更新迭代也特别快。

第二个感觉就是，很多事情可能在你开始做的时候，你没有意识到它是那么前瞻。我在开始做口语对话系统的时候，只是认为语音识别本身是不够的，需要在闭环里面去做优化。2007 年刚开始做的时候，感觉这是未来的方向，心里也不是那么有底。但是到了 2013 年 2014 年之后就非常明显，语音识别本身由于它的快速发展，很快接近饱和，那么越来越明显的问题就是怎样做交互。尤其是到了 2015 年 2016 年到现在交互式的对话，这个方向已经俨然成了整个业界都非常关注的。所以从基础研究的角度上讲，没有办法太功利，而且也不能太功利，但是如果整体方向判断是对的话，那么终将还是会有一些结果。

机器之心：在剑桥合作项目的导师 Steve Young（剑桥大学皇家工程院院士）教授是自然对话和语音领域的权威人物，也有着传奇的经历，他在您的研究生涯中扮演着怎样的角色？有哪些值得回忆的故事？

AI Talk | 思必驰首席科学家俞凯：深度绑定底层研究和产业问题

正文

请到「今天看啥」查看全文