专栏名称: 爱可可-爱生活
知名互联网资讯博主 北邮PRIS模式识别实验室陈老师
目录
相关文章推荐
爱可可-爱生活  ·  产业图谱揭示了机器人技术正在进入深度融合、普 ... ·  18 小时前  
黄建同学  ·  41岁DeepMind天才科学家Felix ... ·  2 天前  
宝玉xp  ·  回复@潘俊勇EasyDo://@潘俊勇Eas ... ·  2 天前  
爱可可-爱生活  ·  【LLM-as-an-Interviewer ... ·  3 天前  
量子位  ·  刚拿下NeurIPS最佳论文,字节就开源VA ... ·  3 天前  
51好读  ›  专栏  ›  爱可可-爱生活

TangoFlux:用AI快速实现高质量的文生音频这项由新加坡科-20250104092848

爱可可-爱生活  · 微博  · AI  · 2025-01-04 09:28

正文

2025-01-04 09:28

TangoFlux:用AI快速实现高质量的文生音频

这项由新加坡科技设计大学和NVIDIA联合开发的系统,仅用515M参数就实现了惊人的效率——在单个A40 GPU上,3.7秒就能生成30秒的高质量音频(44.1kHz)。要知道,这在以往是难以想象的速度。

但技术创新不仅体现在速度上。研究团队巧妙解决了TTA(文本转语音)模型面临的关键难题:如何建立有效的偏好训练集。他们提出的CRPO框架(CLAP-Ranked Preference Optimization)能够自动生成和优化偏好数据,显著提升了模型对齐效果。

最令人振奋的是,TangoFlux在客观和主观评测中都达到了领先水平。而且,研究团队选择开源所有代码和模型,这意味着整个语音合成领域都将受益,AI语音技术的大众化又向前迈进了一大步。

对企业和开发者来说,这是个激动人心的消息:高质量的语音合成不再是算力和时间的重负,TangoFlux为语音应用开辟了更广阔的想象空间。

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization.
Home: tangoflux.github.io
GitHub: github.com/declare-lab/TangoFlux
Demo: huggingface.co/spaces/declare-lab/TangoFlux
#文本转音频##音频生成##AI创新##AI创造营#