更多干货内容请关注微信公众号“AI 前线”,(ID:ai-front)
Google 许多产品(如 Google Assistant 语音智能助手、搜索、地图)都内置了高质量的语音合成功能,可以生成非常自然的声音。很多开发人员告诉我们,他们希望在自己的应用中添加语音合成功能,所以我们将这个技术集成到了 Google Cloud Platform 上,谓之云端 TTS。
AI 前线注:Google Cloud Platform 的官网为:https://cloud.google.com/Cloud Text-to-Speech 的官网为:https://cloud.google.com/text-to-speech/在本文中,为行文方便,Cloud Text-to-Speech 简称为云端 TTS。
云端 TTS 的使用方法可以有很多种,例如:
-
为呼叫中心提供语音应答系统,并启用实时自然语言对话;
-
让物联网设备(如电视、汽车、机器人)能够与用户交谈;
-
使用云端 TTS 时,你可以在 12 种语言和语言变体,共 32 种不同的声音中选择。云端 TTS 能够正确地读出复杂的文本,例如姓名、日期、时间和地址。云端 TTS 还可以定制音调、语速和音量增益,并支持多种音频格式,包括 MP3 和 WAV。
应用云端 TTS,你可以从 12 种语言和语言变体中,选择 32 种不同的声音。云端 TTS 能够正确地读出复杂的文本,例如姓名、日期、时间和地址。云端 TTS 还可以定制音调、语速和音量增益,并支持多种音频格式,包括 MP3 和 WAV。
AI 前线注:语言变体是一个内涵很宽泛的概念,大至一种语言的各种方言,小至一种方言中某一项语音、词汇或句法特征,只要有一定的社会分布的范围,就是一种语言变体。语言的变体受到复杂的社会因素制约,社会语言学对语言变体的研究一般认为,讲话人的社会阶级(Class)和讲话风格(Style)是语言变体的重要基础,而讲话人的性别对语言变体也产生重要影响。根据使用者来划分的变体叫方言,根据语言使用来划分的变体叫语体或语域。
尽情享用 DeepMind 新技术吧!
此外,Google 宣布,云端 TTS 还包括使用 WaveNet 构建的高保真语音的选项。WaveNet 是 DeepMind 开发的用于原始音频的生成模型,它能够合成更加自然的语音,普遍看来,相较于其他 TTS 技术,人们更喜欢 WaveNet 合成的音频。
AI 前线注:要了解 WaveNet 可参阅这篇文章:WaveNet: A Generative Model for Raw Audio(https://deepmind.com/blog/wavenet-generative-model-raw-audio/)
在 2016 年末,DeepMind 推出了 WaveNet 的第一个版本,这是一个在大量语音样本中进行训练的神经网络,能够从头开始创建原始音频的波形。在训练过程中,神经网络会提取语音的基本结构,例如,哪些音调会彼此相继,以及真实的语音波形应该具有什么样的形状。当输入给定文本时,经过训练的 WaveNet 模型会生成相应的语音波形,一次一个样本,从而实现比其他方法更高的精度。