专栏名称: AI科技评论

「AI科技评论」是国内顶尖人工智能媒体和产业服务平台，专注全球 AI 业界、学术和开发三大方向的深度报道。

目录

相关文章推荐

AIGC开放社区 · ChatGPT重磅功能！支持AI ... · 3 天前

AIGC开放社区 · ChatGPT重磅功能！支持AI ... · 3 天前

宝玉xp · //@荐见://@李天时://@作者李媛媛: ... · 3 天前

宝玉xp · 我日常用 Cursor ... · 4 天前

量子位 · 刚刚，智谱又融了30亿！超200亿估值引领大 ... · 6 天前

爱可可-爱生活 · 【深度思考第十九篇：AI范式即将迎来根本性转 ... · 6 天前

51好读 › 专栏 › AI科技评论

开发 | Facebook开源VoiceLoop，根据开放场景语音文字合成新语音

AI科技评论 · 公众号 · AI · 2017-09-05 13:47

正文

AI科技评论消息：Facebook研究员近日开源了他们在今年七月发表的一篇论文（Voice Synthesis for in-the-Wild Speakers via a Phonological Loop）中的语音合成方法。

在论文中，他们提出了一种新的文字转语音的神经网络方法，可以将从开放场景下采样到的声音中提取的文字转化为语音。不同于其他的文字转语音系统，这种方法能够处理从公开演讲中提取出来的非约束性的样本，而且网络架构比现存的解决同样问题的架构要简单。它基于新的移位缓冲内存储器区（shifting buffer working memory），这个缓冲区也可以用于评估注意力，计算输出音频，以及自身的更新。

上图为实验样例中生成的注意力图，X 轴是输出时间（声学样本），Y 轴是输入（文本／音素）。

通过使用与上下文无关（ context-free）的查找表对输入语句进行编码，该表的每个条目包含一个字符或音素。同样，能通过一个短向量来表示说话者，这个短向量也适用于新说话者。而且在生成音频之前，优先准备好缓冲区可以使生成的语音具有可变性。

两个数据集中的实验结果证明了这种方法支持多说话者以及开放性的环境。为了提升这个方法的可重现性，Facebook日前开源源代码和模型。

代码地址：https://github.com/facebookresearch/loop

论文地址：https://arxiv.org/abs/1707.06588

————— 给爱学习的你的福利 —————

3个月，从无人问津到年薪30万的秘密究竟是什么？答案在这里——崔立明授课【推荐系统算法工程师-从入门到就业】3个月算法水平得到快速提升，让你的职业生涯更有竞争力！长按识别下方二维码（或阅读原文戳开链接）抵达课程详细介绍~

————————————————————

推荐文章

AIGC开放社区 · ChatGPT重磅功能！支持AI Agent玩法，OpenAI加入智能体了

3 天前

AIGC开放社区 · ChatGPT重磅功能！支持AI Agent玩法，OpenAI加入智能体了

3 天前

宝玉xp · //@荐见://@李天时://@作者李媛媛:呵呵//@远古的刀:-20241220005641

3 天前

宝玉xp · 我日常用 Cursor 写代码的场景之一：“请参考代码 @ XX-20241219013619

4 天前

量子位 · 刚刚，智谱又融了30亿！超200亿估值引领大模型创业赛道

6 天前

爱可可-爱生活 · 【深度思考第十九篇：AI范式即将迎来根本性转变】《预训练模式即将-20241217061457

6 天前

影像学园 · 喜迎5-12护士节，一大波小美护专属表情包来袭……

7 年前

深圳全攻略 · 一家三口拥有100万存款，在深圳算什么水平？真相让人吃惊…

7 年前

DeepTech深科技 · 为什么Element AI获得1.02亿美元融资仅仅是一个开始？

7 年前

解螺旋 · 投什么杂志引什么文章，有个神器可以帮你！

7 年前

深夜谈吃 · 晚安 | 你喝咖啡会失眠么？

7 年前

Sov5搜索 · 小百科 · 移动版

51好读 - 好文章就要读起来!