专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
大数据文摘  ·  风投式思维:哪吒2和DeepSeek背后的共 ... ·  3 天前  
数据派THU  ·  数据派志愿者招募 | 寻找最志同道合的你! ·  10 小时前  
数据派THU  ·  DeepSeek革命性NSA注意力机制问世! ... ·  2 天前  
人工智能与大数据技术  ·  Meta被曝AI训练「黑幕」!下载81.7T ... ·  4 天前  
Hacking黑白红  ·  网络安全招聘聘 | “陌陌”业务风控研发 ·  3 天前  
Hacking黑白红  ·  网络安全招聘聘 | “陌陌”业务风控研发 ·  3 天前  
51好读  ›  专栏  ›  数据派THU

【ICLR2025】VEVO:基于自监督解耦的可控零样本语音模仿

数据派THU  · 公众号  · 大数据  · 2025-02-21 17:00

正文

来源:专知

本文约1000字,建议阅读5分钟

我们提出了Vevo,一个多功能的零-shot语音模仿框架,具备可控的音色与风格。


图片

语音模仿,尤其是针对特定的语音属性,如音色和说话风格,对于语音生成至关重要。然而,现有的方法往往过度依赖标注数据,且难以有效地解耦音色与风格,这使得在零-shot场景下实现可控生成面临挑战。为解决这些问题,我们提出了Vevo,一个多功能的零-shot语音模仿框架,具备可控的音色与风格。Vevo的工作流程分为两个核心阶段:
  1. 内容-风格建模 :给定文本或语音的内容tokens作为输入,我们使用自回归Transformer生成内容-风格tokens,这一过程受到风格参考的提示;
  2. 声学建模 :给定内容-风格tokens作为输入,我们采用流匹配Transformer生成声学表示,这一过程受到音色参考的提示。

为了获得语音的内容和内容-风格tokens,我们设计了一种完全自监督的方法,逐步解耦语音的音色、风格和语言内容。具体来说,我们采用VQ-VAE [1]作为HuBERT [2]连续隐藏特征的分词器,将VQ-VAE字典的词汇量视为信息瓶颈,并精心调整该瓶颈,以获得解耦后的语音表示。Vevo在没有针对风格特定语料库的微调下,单纯使用60K小时有声书语音数据进行自监督训练,在口音和情感转换任务中,能够与现有方法匹敌或超越。此外,Vevo在零-shot语音转换和文本到语音任务中的有效性,进一步证明了其强大的泛化能力和多功能性。

图片



关于我们







请到「今天看啥」查看全文