专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

百度人工智能实验室发布语音合成系统Deep Voice

DeepTech深科技 · 公众号 · 科技媒体 · 2017-03-10 11:18

正文

百度发布了最新的“深度语音（Deep Voice）”系统，该系统可以在几乎没有人为干预的情况下，仅需几个小时就学会如何进行对话。

在深度学习技术实用化的技术比拼中，谷歌公司可谓一枝独秀。DeepMind借助深度学习技术在视频游戏和围棋比赛中让人类颜面扫地，谷歌翻译（Google Translate）也在深度学习的帮助下的性能得到极大提升。

在这种情形下，其他公司该如何奋起直追呢？或许艺术家安迪·沃霍尔（
Andy Warhol）的那句名言不无道理，每个人都有15分钟的成名时间。现在应该轮到百度了。

2013年，百度在硅谷创办了人工智能研究实验室，此举不禁让人浮想联翩：百度想做什么？今天，百度人工智能实验室向外界展示了其在语音合成方面的研究成果。

目前，语音合成领域面临的一个“拦路虎”是仍然需要大量的人工干预。百度取得的重大进展在于，该公司研制出了一款深度学习机器能大规模地消除这种人为干预，最终这套名为“深度语音（Deep Voice）”的文本转语音系统可以在几乎没有人为干预的情况下，寥寥几小时内就学会对话。

在现代社会，文本转语音系统我们司空见惯，比如导航应用程序、通话时钟、手机应答系统等，都可窥见该系统的身影。一般而言，这种系统的建立流程如下：录制单一说话者的大量语音片段，建立一个大型语音数据库，然后将这些语音糅杂在一起合成出新句子。

但此类系统存在的问题在于，如果不重新录制一个新的语音数据库，这套系统很难切换到新的说话者或改变他们句子中的重音。因此，计算机科学家们一直希望另辟蹊径，制造出一套系统，能在需要的时候从零开始实时合成语音。

去年，DeepMind在该领域取得了重大突破。他们发布了一个神经网络，能够一边倾听实时语音的声波，一边将声波与文本脚本进行比较，从而学会如何说话。经过训练后，这一系统能基于给定的文本生成合成语音。他们将这一系统称为“波网（WaveNet）”。

尽管WaveNet技术无疑算是计算机语音合成领域的一大突破，但其也有诸多不足。首先，在训练过程中，WaveNet仍需要很多人为调整；另外，WaveNet需要无比强大的运算能力，因此，其是否能在真实世界中实时合成语音还是个未知数。

但百度表示，他们已经克服了上述问题。百度使用的方法非常简单：它使用深度学习技术将文本转化为最小可感知且各不相同的声音单元-“音素（phenomes）”。接着，再使用一种语音合成网络来复制这些声音。百度的方法与谷歌公司的方法最显著的差异在于，整个过程的每个阶段都由深度学习进行，因此，一旦被训练，几乎不再需要人类进行干预。

以单词“hello”为例，百度的系统首先必须区分出音素的边界，方式如下：“（静音HH）、（HH，EH）、（EH，L）、（L，OW），（OW，静音）”，接着，它将这些音素“填入”一个语音合成系统，该系统就说出了这个单词。

新系统无法控制的变量仅限于音素上的重音、音素之间的时间间隔以及声音本身的频率，这让百度公司能改变说话者的声音以及单词所表达的情感。

当然，要做到这些也需要大量计算。真实语音的采样率（音频采样率是指录音设备在一秒钟内对声音信号的采样次数，采样频率越高，声音的还原就越真实、越自然）处于48KHZ的范围内。因此，一台计算机生成每个样本的时间约为20微秒（一百万分之一秒）。鉴于制造声音的过程涉及几层系统，所以，每层必须在1.5微秒内完成自己的工作。

百度的研究人员说：“为了实时进行推断，我们必须密切注意，不要重复计算任何结果，将整个模型存储在处理器缓存（与主存相对）内，并最大程度地利用可用的计算单元。”

尽管如此，百度公司的研究人员称，使用他们的这一系统可以做到实时合成语音，而且，他们也在亚马逊公司的“土耳其机器人（Mechanical Turk）”上对其进行了测试。整个测试过程需要大量倾听者对音频质量进行排序，同时将其与原初的人类录音进行比较。

百度说，结果表明，他们的语音合成系统合成出的语音的质量很高，“我们将推断优化到超实时的速度，结果表明，这些技术能被应用来实时生成流式音频。”

但更重要的是这套系统的效用，科学家们可以在全新的数据集合上快速地对这套系统进行训练。研究人员说：“我们的系统可以在没有人为介入的情况下进行训练，这显著简化了制造文本转语音系统的过程。”

谷歌公司也一直致力于使文本转语音系统变得更好，“DeepMind”去年在推出WaveNet时曾在twitter上发文称：“让人类和机器对话是人机交互领域长久以来的梦想”，这也是科幻小说作者们数十年来的梦想，文本转语音是其中重要的一部分。

当然，在百度公司不断完善其语音合成系统的过程中，谷歌也不可能裹足不前。他们将推出什么惊喜，我们拭目以待。

编辑：朱颜

《麻省理工科技评论》中美合作“城郭会员计划”正式发布，让您始终处于新兴技术商业趋势的最前沿。详情请点击下方图片查看↓↓↓

分割线

招聘

编辑、视觉设计、视频策划及后期

地点：北京

联系：[email protected]

MIT Technology Review 中国唯一版权合作方，任何机构及个人未经许可，不得擅自转载及翻译。

分享至朋友圈才是义举