Google发布云端TTS：借力DeepMind WaveNet技术，语音合成提速1000倍_AI前线的专栏文章_微信文章

作者 | Dan Aharon

译者 | Sambodhi

编辑 | Natalie

AI 前线导读： WaveNet 是 Google DeepMind 最新推出的基于深度学习的原始音频生成模型，能够模仿人类的声音，并让听者难以分辨到底是机器生成的声音还是真人的声音。使人们能够与机器自由交谈是人机交互研究领域长久以来的梦想。3 月 27 号，Google 在 Google Cloud Platform 上推出了云端 TTS（Cloud Text-to-Speech）功能，用户可以很方便地借助它来实现文字转语音的应用，使用时还可以选择由 DeepMind 的 WaveNet 生成的高保真音频。AI 前线翻译了 Google Cloud AI 产品经理 Dan Aharon 写的博文 Introducing Cloud Text-to-Speech powered by DeepMind WaveNet technology，对 Cloud TTS 功能进行进一步介绍。

更多干货内容请关注微信公众号“AI 前线”，（ID：ai-front）

Google 许多产品（如 Google Assistant 语音智能助手、搜索、地图）都内置了高质量的语音合成功能，可以生成非常自然的声音。很多开发人员告诉我们，他们希望在自己的应用中添加语音合成功能，所以我们将这个技术集成到了 Google Cloud Platform 上，谓之云端 TTS。

AI 前线注：Google Cloud Platform 的官网为：https://cloud.google.com/Cloud Text-to-Speech 的官网为：https://cloud.google.com/text-to-speech/在本文中，为行文方便，Cloud Text-to-Speech 简称为云端 TTS。

云端 TTS 的使用方法可以有很多种，例如：

为呼叫中心提供语音应答系统，并启用实时自然语言对话；
让物联网设备（如电视、汽车、机器人）能够与用户交谈；
使用云端 TTS 时，你可以在 12 种语言和语言变体，共 32 种不同的声音中选择。云端 TTS 能够正确地读出复杂的文本，例如姓名、日期、时间和地址。云端 TTS 还可以定制音调、语速和音量增益，并支持多种音频格式，包括 MP3 和 WAV。

应用云端 TTS，你可以从 12 种语言和语言变体中，选择 32 种不同的声音。云端 TTS 能够正确地读出复杂的文本，例如姓名、日期、时间和地址。云端 TTS 还可以定制音调、语速和音量增益，并支持多种音频格式，包括 MP3 和 WAV。

AI 前线注：语言变体是一个内涵很宽泛的概念，大至一种语言的各种方言，小至一种方言中某一项语音、词汇或句法特征，只要有一定的社会分布的范围，就是一种语言变体。语言的变体受到复杂的社会因素制约，社会语言学对语言变体的研究一般认为，讲话人的社会阶级（Class）和讲话风格（Style）是语言变体的重要基础，而讲话人的性别对语言变体也产生重要影响。根据使用者来划分的变体叫方言，根据语言使用来划分的变体叫语体或语域。

尽情享用 DeepMind 新技术吧！

此外，Google 宣布，云端 TTS 还包括使用 WaveNet 构建的高保真语音的选项。WaveNet 是 DeepMind 开发的用于原始音频的生成模型，它能够合成更加自然的语音，普遍看来，相较于其他 TTS 技术，人们更喜欢 WaveNet 合成的音频。

AI 前线注：要了解 WaveNet 可参阅这篇文章：WaveNet: A Generative Model for Raw Audio（https://deepmind.com/blog/wavenet-generative-model-raw-audio/）

在 2016 年末，DeepMind 推出了 WaveNet 的第一个版本，这是一个在大量语音样本中进行训练的神经网络，能够从头开始创建原始音频的波形。在训练过程中，神经网络会提取语音的基本结构，例如，哪些音调会彼此相继，以及真实的语音波形应该具有什么样的形状。当输入给定文本时，经过训练的 WaveNet 模型会生成相应的语音波形，一次一个样本，从而实现比其他方法更高的精度。

Google发布云端TTS：借力DeepMind WaveNet技术，语音合成提速1000倍

正文

Google发布云端TTS：借力DeepMind WaveNet技术，语音合成提速1000倍

请到「今天看啥」查看全文