专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

通过对人类语言的原始波形进行直接建模，谷歌DeepMind意图改变语音合成的方式

DeepTech深科技 · 公众号 · 科技媒体 · 2016-12-20 23:55

正文

十几年前，人工智能开始出现在我们生活中。现在，我们把调侃Siri当成一种乐趣。试想一下，未来几年，从冰冷的手机扬声器中，如果传来的比你男/女朋友还温柔的声音，你还有心思去谈恋爱吗？现在，那个凭借开发AlphaGo火爆全球Google DeepMind团队，正在为你量身打造一款你喜欢的另一半。

的确，我们从呱呱坠地到呀呀呓语，早就习惯了人类语言的语气和发声模式，任何声音只要有一丝偏离我们意识中的“正常”语言，都会被我们马上辨认出来。这就是为什么一直以来开发真正人声语音文本是件极其困难的工作。

但是现在，Google的DeepMind AI研究团队通过改变他们的机器学习模型，解决了这一难题，并且在“WaveNet”平台上展示出了他们惊人的科学成果。

在人机交互和机器语音识别领域，Google和其他科技公司已经取得了巨大的进步。但是，要想做到使机器语音如同人类说话那样自然流畅，迄今为止一直都是机器学习领域的一大难题。

截至目前，大多数的文本阅读（text-to-speech ,TTS）系统都是基于所谓的语音拼接技术，这严重依赖于单词组合的语音片段数据库。这就会产生因为数据库不完善，而导致的语音突变或者断句错误等问题，让人听起来很不自然。

通过对人类语言的原始波形进行直接建模，DeepMind正在改变语音合成的方式。在WaveNet平台上，这一先进的方法可以合成任意类型的语音，甚至包括音乐。下面就是通过语音拼接技术和WaveNet语音合成的例子，可以感受一下语音品质。

其实，将人类语音的原始波形进行直接建模成波形是件无比困难的工作，这对于机器学习而言，无疑是个巨大的挑战。

在建模的过程中，每秒都需要对下一时刻做上千个预测，而大多数预测都是基于前期的结果。DeepMind利用神经网络技术，并用人类语音波形对其进行训练，在下面的GIF动画中，你可以看到多层计算网络来估计语音概率分布，进而得出最终输出音频。

多层计算网络来估计语音概率分布

通过对输出音频的比较，DeepMind团队发现，WaveNet产生的音频比其他方法得到的合成语音更加逼真。甚至对于WaveNet来说，即使没有输入文本，神经网络也能得到相应的输出音频。

只不过，这时你听到的是机器的牙牙学语，听起来就像是一个人在说你从未听过的语言。这时，如果你使用古典钢琴曲而不是人声来训练，这种机器的“咕噜”声就会变成狂乱但是有趣的音乐片段。

每一秒的音频输出都需要做上千次的预测

在DeepMind官方网站：https://deepmind.com/blog/wavenet-generative-model-raw-audio/ ，你还能听到更多的合成语音和音乐样本。未来几年后，这些将是机器语言走向人性化的基础。

欢迎关注DT君的科幻电影公众号：

分割线

招聘

编辑、视觉设计、视频策划及后期

地点：北京

联系：[email protected]

MIT Technology Review 中国唯一版权合作方，任何机构及个人未经许可，不得擅自转载及翻译。

分享至朋友圈才是义举

推荐文章

36氪 · 大规模筛查一周「看病」三千人，AI眼科大模型讲出了新故事

6 天前

新浪科技 · 【#韩国空难客机黑匣子撞墙前4分钟停录#】据韩国国土交通部下属航-20250111141332

6 天前

新浪科技 · 【#韩国拟重新定义老年人##韩国或将老年人门槛升至70岁#】韩国-20250111090000

6 天前

爱范儿 · 特斯拉发布新款 Model Y，雷军、余承东隔空回应/vivo 拿下 2024 年中国手机销量第一/茅台冰激凌被曝闭店停产

6 天前

36氪 · 暴跌96%，黄光裕的零售帝国崩塌

1 周前

华尔街见闻 · 权威遭挑战，移民禁令面临严重危机，特朗普怒发一连串推特

7 年前

电影工厂 · 陆毅：爱情就是我老婆的样子

7 年前

老虎财富 · 楼市，楼市，楼市，重磅来袭！“定向加息”重申“房子是用来住的”！

7 年前

基层麻醉网 · 一图读懂丨TURP微创手术治疗前列腺增生

7 年前

吃喝玩乐新分类 · 哈尔滨市区再添一座很长长长长长长长长长长的高架桥！快看路过你家吗？

7 年前