专栏名称: 歸藏的AI工具箱
互联网科技博主 产品设计师、模型设计师、 不会代码的独立开发者。 关注人工智能、LLM 、 Stable Diffusion 和设计。
目录
相关文章推荐
最爱大北京  ·  北京一男子独自登山失联8天!遗体被找到→ ·  昨天  
北京吃货小分队  ·  在北京,适合一个人呆一整天的地方 | 北京LOOK ·  3 天前  
最爱大北京  ·  2月23日 | 京城事儿全知道 ·  2 天前  
51好读  ›  专栏  ›  歸藏的AI工具箱

谷歌终于公布了他们有用来生成 NotebookLM 播客的音频技-20241030231838

歸藏的AI工具箱  · 微博  ·  · 2024-10-30 23:18

正文

2024-10-30 23:18

谷歌终于公布了他们有用来生成 NotebookLM 播客的音频技术细节。

主要包括两部分: #ai播客#

SoundStream 是一种神经音频编解码器,可以高效地压缩和解压音频输入,而不会影响其质量。

在训练过程中 SoundStream 可以学到韵律和音色等属性。

AudioLM 框架不对生成的音频类型或组成做出任何假设,并且可以灵活处理各种声音,而无需进行架构调整。

在 TPU V5E 上 3 秒就可以生成2分钟的语音内容。

他们还研发了一种专门的Transformer架构,可以高效处理信息的层次结构,与声学Token的结构相匹配。

为了教导模型如何生成多个发言者之间的真实对话,对其进行了数十万小时的语音数据预训练。

然后在一个更小的数据集上对其进行了微调,该数据集包含高音质和准确的发言者注释的对话,由多位配音演员进行非脚本和真实的不流畅语言对话组成。

详情:deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/






请到「今天看啥」查看全文