百度推出Deep Voice 2，实时合成百种口音（附论文）

量子位 · 公众号 · AI · 2017-05-26 12:56

正文

安妮编译整理
量子位出品 | 公众号 QbitAI

今天，百度宣布推出Deep Voice 2，距离第一代Deep Voice的推出才过去两个多月。这个文字转语音系统可以实时合成几百种口音的音频，而且，模仿每个人的声音只需要用半小时音频进行训练。

想听音频示例？链接：
http://research.baidu.com/deep-voice-2-multi-speaker-neural-text-speech/

Deep Voice系列是一类实时语音合成神经网络系统（Real-Time Neural Text-to-Speech for Production），由深度神经网络搭建而成。第一代Deep Voice需要用几小时的音频进行训练才能搭建好模型，一个系统还只能学习一个人的语音。

相比之下，Deep Voice 2显然具备更好的性能。它只需要用半个小时音频来训练，而且一个系统可以学习模仿数百个人的声音，单就学习速度而言，比第一代快了好几倍。

Siri推出带口音的语音版本耗时甚久，那是因为每一种新口音都需要真人提供的成千上万小时的音频来训练。之后，程序员需要还需要花很长时间对其进行软件调试，教它如何说话。前后一加，研究时间自然就很长了。

在技术上讲，Deep Voice的二代比一代到底强在哪？

Deep Voice 2 采取了不同的研究策略：首先，它在数百个人声中寻找共性，建立一个人类音频模型；之后，再将模型微调，设计出不同的声音特性。这个系统不需要人类为其作出任何手动调整，“给它正确的数据，它就能学会重要的特征，”百度硅谷AI实验室Deep Voice组的工程师Andrew Gibiansky说。

△ 百度硅谷AI实验室

百度也为Deep Voice2的应用作出了设想。它们认为，这项技术可以用在数字助手语音回复人类指令上，在很多语音合成应用上也具有相当大的潜力。“实时合成多种语音的能力将对未来的个人助手和电子阅读器带来巨大的影响，”百度在官微里写着，“比如，用不同的音色为你读电子书。”

百度也不是唯一踏足语音合成这片地的公司了。去年9月，谷歌的Deep Mind团队发布了WaveNet。WaveNet是一个使用深度学习技术构建的人声编码器，其合成的音频质量比传统的语音合成系统要高出许多。不仅科技巨头想分语音合成这杯羹，很多初创公司也打算涉及。上个月，量子位也报道了一家加拿大初创公司Lyrebird，他们的系统通过1分钟的音频样例就可以模仿出独特的人声。