谷歌终于公布了他们有用来生成 NotebookLM 播客的音频技术细节。
主要包括两部分: #ai播客#
SoundStream 是一种神经音频编解码器,可以高效地压缩和解压音频输入,而不会影响其质量。
在训练过程中 SoundStream 可以学到韵律和音色等属性。
AudioLM 框架不对生成的音频类型或组成做出任何假设,并且可以灵活处理各种声音,而无需进行架构调整。
在 TPU V5E 上 3 秒就可以生成2分钟的语音内容。
他们还研发了一种专门的Transformer架构,可以高效处理信息的层次结构,与声学Token的结构相匹配。
为了教导模型如何生成多个发言者之间的真实对话,对其进行了数十万小时的语音数据预训练。
然后在一个更小的数据集上对其进行了微调,该数据集包含高音质和准确的发言者注释的对话,由多位配音演员进行非脚本和真实的不流畅语言对话组成。
详情:deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/
主要包括两部分: #ai播客#
SoundStream 是一种神经音频编解码器,可以高效地压缩和解压音频输入,而不会影响其质量。
在训练过程中 SoundStream 可以学到韵律和音色等属性。
AudioLM 框架不对生成的音频类型或组成做出任何假设,并且可以灵活处理各种声音,而无需进行架构调整。
在 TPU V5E 上 3 秒就可以生成2分钟的语音内容。
他们还研发了一种专门的Transformer架构,可以高效处理信息的层次结构,与声学Token的结构相匹配。
为了教导模型如何生成多个发言者之间的真实对话,对其进行了数十万小时的语音数据预训练。
然后在一个更小的数据集上对其进行了微调,该数据集包含高音质和准确的发言者注释的对话,由多位配音演员进行非脚本和真实的不流畅语言对话组成。
详情:deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/