学界 | Yoshua Bengio 等人提出 Char2Wav：实现端到端的语音合成（附资源）

机器之心 · 公众号 · AI · 2017-02-23 12:29

正文

选自arXiv

机器之心编译

参与：吴攀、李亚洲

近日，来自印度理工学院坎普尔分校、INRS-EMT、加拿大高等研究院（CIFAR）的研究者在 arXiv 上发布了一篇 workshop track 论文，介绍他们在端到端语音合成上的研究成果 Char2Wav。据介绍，该模型可以直接根据文本生成高质量的音频。目前，该研究团队已经将相关的研究代码开源并且公布了合成的样本示例。 读者可点击阅读原文下载此论文。

GitHub 开源地址：http://github.com/sotelo/parrot
合成语音样本地址：http://josesotelo.com/speechsynthesis

摘要

我们提出一种端到端的用于语音合成的模型 Char2Wav，其有两个组成部分：一个读取器（reader）和一个神经声码器（nerual vocoder）。该读取器是一个带有注意（attention）的编码器-解码器模型。其中编码器是一个以文本或音素作为输入的双向循环神经网络（RNN），而解码器则是一个带有注意的循环神经网络，其会产出声码器声学特征（vocoder acoustic features）。神经声码器是指 SampleRNN 的一种条件式的扩展，其可以根据中间表征（intermediate representations）生成原始的声波样本。与用于语音合成的传统模型不同，Char2Wav 可以学习直接根据文本生成音频。

1 引言

语音合成的主要任务包括将文本映射为音频信号。语音合成有两个主要目标：可理解性（intelligibility）和自然感（naturalness）。可理解性是指合成音频的清晰度，特别是听话人能够在多大程度上提取出原信息。自然感则描述了无法被可理解性直接获取的信息，比如听的整体容易程度、全局的风格一致性、地域或语言层面的微妙差异等等。

传统的语音合成方法是将这个任务分成两个阶段来完成的。第一个阶段被称为前端（frontend）是将文本转换为语言特征，这些特征通常包括音素、音节、词、短语和句子层面的特征（Zen, 2006; Zen et al., 2013; van den Oord et al., 2016）。第二个阶段被称为后端（backend），以前端所生成的语言特征为输入来生成对应的声音。WaveNet（van den Oord et al., 2016）就是一种可实现高质量的「神经后端（neural backend）」的方法。要更加详细地了解传统的语音合成模型，我们推荐参阅 Taylor (2009)。

定义好的语言特征通常需要耗费大量时间，而且不同的语言也各有不同。在本论文中，我们将前端和后端整合到了一起，可以通过端到端的方式学习整个过程。这个流程消除了对专业语言学知识的需求，这就移除了在为新语言创建合成器时所面临的一个主要瓶颈。我们使用了一个强大的模型来从数据中学习这种信息。

2 相关研究

基于注意（attention）的模型之前已经在机器翻译（Cho et al., 2014; Bahdanau et al., 2015）、语音识别（Chorowski et al., 2015; Chan et al., 2016）和计算机视觉（Xu et al. 2015）等领域得到了应用。我们的工作受到了 Alex Graves (Graves, 2013; 2015) 的工作很大的影响。在一个客座讲座中，Graves 展示了一个使用了一种注意机制的语音合成模型，这是他之前在手写生成方面的研究成果的延伸。不幸的是，这个语音方面的延伸没有被发表出来，所以我们不能将我们的方法和他的成果进行直接的比较。但是，他的结果给了我们关键的启发，我们也希望我们的成果能有助于端到端语音合成的进一步发展。

3 模型描述

3.1 读取器

我们采用了 Chorowski et al. (2015) 的符号。一个基于注意的循环序列生成器（ARSG/attention-based recurrent sequence generator）是指一种基于一个输入序列 X 生成一个序列 Y= (y1, . . . , yT ) 的循环神经网络。X 被一个编码器预处理输出一个序列 h = (h1, . . . , hL)。在本研究中，输出 Y 是一个声学特征的序列，而 X 则是文本或要被生成的音素序列。此外，该编码器是一个双向循环网络。

学界 | Yoshua Bengio 等人提出 Char2Wav：实现端到端的语音合成（附资源）

正文

请到「今天看啥」查看全文