谷歌终于公布了他们有用来生成 NotebookLM 播客的音频技-20241030231838_歸藏的AI工具箱的专栏文章_微信文章

谷歌终于公布了他们有用来生成 NotebookLM 播客的音频技-20241030231838

歸藏的AI工具箱 · 微博 · · 2024-10-30 23:18

正文

2024-10-30 23:18
本条微博链接

谷歌终于公布了他们有用来生成 NotebookLM 播客的音频技术细节。

主要包括两部分： #ai播客#

SoundStream 是一种神经音频编解码器，可以高效地压缩和解压音频输入，而不会影响其质量。

在训练过程中 SoundStream 可以学到韵律和音色等属性。

AudioLM 框架不对生成的音频类型或组成做出任何假设，并且可以灵活处理各种声音，而无需进行架构调整。

在 TPU V5E 上 3 秒就可以生成2分钟的语音内容。

他们还研发了一种专门的Transformer架构，可以高效处理信息的层次结构，与声学Token的结构相匹配。

为了教导模型如何生成多个发言者之间的真实对话，对其进行了数十万小时的语音数据预训练。

然后在一个更小的数据集上对其进行了微调，该数据集包含高音质和准确的发言者注释的对话，由多位配音演员进行非脚本和真实的不流畅语言对话组成。

详情：deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/

谷歌终于公布了他们有用来生成 NotebookLM 播客的音频技-20241030231838

正文

请到「今天看啥」查看全文