TangoFlux：用AI快速实现高质量的文生音频这项由新加坡科-20250104092848_爱可可-爱生活的专栏文章_微信文章

TangoFlux：用AI快速实现高质量的文生音频这项由新加坡科-20250104092848

爱可可-爱生活 · 微博 · AI · 2025-01-04 09:28

正文

2025-01-04 09:28
本条微博链接

TangoFlux：用AI快速实现高质量的文生音频

这项由新加坡科技设计大学和NVIDIA联合开发的系统，仅用515M参数就实现了惊人的效率——在单个A40 GPU上，3.7秒就能生成30秒的高质量音频（44.1kHz）。要知道，这在以往是难以想象的速度。

但技术创新不仅体现在速度上。研究团队巧妙解决了TTA（文本转语音）模型面临的关键难题：如何建立有效的偏好训练集。他们提出的CRPO框架（CLAP-Ranked Preference Optimization）能够自动生成和优化偏好数据，显著提升了模型对齐效果。

最令人振奋的是，TangoFlux在客观和主观评测中都达到了领先水平。而且，研究团队选择开源所有代码和模型，这意味着整个语音合成领域都将受益，AI语音技术的大众化又向前迈进了一大步。

对企业和开发者来说，这是个激动人心的消息：高质量的语音合成不再是算力和时间的重负，TangoFlux为语音应用开辟了更广阔的想象空间。

TangoFlux: Super Fast and Faithful Text to Audio Generation with Flow Matching and Clap-Ranked Preference Optimization.
Home: tangoflux.github.io
GitHub: github.com/declare-lab/TangoFlux
Demo: huggingface.co/spaces/declare-lab/TangoFlux
#文本转音频##音频生成##AI创新##AI创造营#