《语音大语言模型》最新进展综述

专知 · 公众号 · 互联网短视频科技自媒体 · 2024-10-09 12:00

正文

大型语言模型 (LLMs) 近期因其文本交互能力而受到广泛关注。然而，自然的人类互动通常依赖语音，这促使人们向语音模型转变。一种实现这一目标的直接方法是使用“自动语音识别 (ASR) + LLM + 语音合成 (TTS)”的流水线，即将输入语音转录为文本，经由 LLM 处理后再转换回语音。尽管此方法直观简单，但它存在固有的局限性，如在模式转换过程中信息丢失，以及在三个阶段中累积的误差。为了解决这些问题，语音语言模型 (SpeechLMs) 应运而生。这些端到端模型无需文本转换，直接生成语音，成为一种有前景的替代方案。本综述论文首次全面概述了构建 SpeechLMs 的最新方法，详细介绍了其架构的关键组成部分以及其开发中的各种训练方法。此外，我们系统地考察了 SpeechLMs 的多种能力，分类了对 SpeechLMs 的评估指标，并讨论了该快速发展的领域中的挑战与未来研究方向。

1 引言

大型语言模型（LLMs）在文本生成和自然语言处理任务中展现出显著的能力，成为推动 AI 驱动语言理解和生成的强大基础模型 [Achiam 等, 2023; Dubey 等, 2024a; Zhang 等, 2022b]。它们的成功还推动了其他领域的众多应用，然而，仅依赖文本模式存在明显的局限性。这促使人们发展基于语音的生成模型，使人与模型之间的互动更加自然和直观。引入语音不仅有助于实现实时语音互动，还能通过结合文本和语音信息丰富交流内容 [Nguyen 等, 2023b; Nguyen 等, 2024]。

鉴于文本与语音之间存在大量的互信息，对现有的 LLM 进行修改以支持语音互动功能是一项自然的选择。一种直接的方法是采用“自动语音识别（ASR）+ LLM + 语音合成（TTS）”框架（图1a）[Huang 等, 2024]。在该设置中，用户的语音输入首先由 ASR 模块处理，将其转换为文本。然后，LLM 基于该转录文本生成响应，最后由 TTS 模块将该文本响应转换回语音并播放给用户。然而，这种简单方案主要面临以下两个问题：1）信息丢失。语音信号不仅包含语义信息（即语音的意义），还包含副语言信息（例如音调、音色、语调等）。在处理中使用纯文本 LLM 会导致输入语音中的副语言信息完全丢失 [Zhang 等, 2023a]。2）累积误差。此种分阶段的方法容易在整个流程中产生累积误差，特别是在 ASR 到 LLM 阶段 [Fathullah 等, 2024]。特别是在 ASR 模块将语音转换为文本时发生的转录错误会对 LLM 的语言生成性能产生负面影响。

由于 ASR + LLM + TTS 框架的局限性，语音语言模型（SpeechLMs，图1b）被开发出来。与简单的框架不同，SpeechLMs 直接将语音波形编码为离散的 token，从音频中捕获重要特征和信息（第 3.1 节）。尽管单个语音 token 可能不具备词汇层面的语义意义，但它们捕捉到语音话语的语义信息并保留宝贵的副语言信息，从而避免信息丢失。SpeechLMs 自回归地建模这些 token，无需完全依赖文本输入，使其能够利用附加的副语言信息生成更具表现力和细腻的语音（第 3.2 节）。最终，这些生成的 token 被合成回语音（第 3.3 节）。通过直接处理编码后的语音 token，SpeechLMs 有效地减轻了累积误差，因为其训练与语音编码一体化进行，而简单框架中 LLM 的语言建模训练则完全独立于 ASR（语音识别）模块。

除基础对话能力外，SpeechLMs 还具备执行更复杂任务的潜力，如编码特定说话者信息和情感细微差别（图2）。这种能力使 SpeechLMs 能够在对话中区分不同说话者，并理解和生成带有特定情感语调的语音。这些进展对个性化助手、情感感知系统以及更细致的人机交互场景等领域尤为重要。此外，SpeechLMs 可以设计为支持实时语音互动，即模型可在用户讲话时被打断，或选择在用户尚未结束讲话时进行响应，更接近人类对话的模式。

在本综述中，我们首次全面概述了构建 SpeechLMs 的最新研究成果。我们探讨了构成其架构的各种组件（第 3 节）及其开发中的训练方法（第 4 节），并从以上视角分析这些模型，旨在阐明该领域的当前状态。此外，我们考察了 SpeechLMs 的下游应用（第 5 节）、分类评估 SpeechLMs 的指标（第 6 节）、讨论了该领域快速发展中遇到的挑战，并提出了可能推动 SpeechLM 技术进一步发展的未来研究方向（第 7 节）。我们的贡献总结如下：

我们呈现了 SpeechLMs 领域的首次综述。
我们提出了一个基于底层组件和训练方法的 SpeechLMs 分类新体系（图3）。
我们提出了 SpeechLMs 评估方法的新分类系统。
我们识别出构建 SpeechLMs 的若干挑战。

2 问题定义

在此部分中，我们将正式定义语音语言模型（Speech Language Models，简称SpeechLMs）。语音语言模型是一种自回归基础模型，能够处理并生成语音数据，通过上下文理解生成连贯的语音序列。SpeechLMs 支持多种模式，包括语音到文本、文本到语音，甚至是语音到语音，具备上下文感知能力，从而能够执行广泛的任务。与传统的文本语言模型（如 LLM）不同，SpeechLMs 处理的是语音和文本两种模式。这使得 SpeechLMs 能够进行更自然的多模态交互，在同一模型框架内处理多种输入和输出模式，具有更高的应用潜力。

3 SpeechLM的组件

语音语言模型主要包括三个组件：语音分词器、语言模型和语音合成器（声码器），这种三阶段的设计模式的主要原因是使语言模型架构（如仅解码器的 transformer）能够以音频波形的形式自回归地建模语音。由于语言模型的输入和输出都是离散 tokens，因此需要附加模块来处理输入输出格式。下面将详细介绍各个组件：

3.1 语音分词器

语音分词器是 SpeechLM 的第一个组件，它将连续的音频信号（波形）编码为潜在表示，再将其转换为离散 tokens，使其能够被语言模型有效处理，用于诸如语音识别或合成等任务。语音分词器的核心目标是捕捉音频中的关键特征，同时降低其维度，便于后续对语音模式的建模和分析。

语义理解目标：
设计语义理解目标的语音分词器旨在将语音波形转化为能够准确捕捉语音内容和意义的 tokens。通常情况下，这些分词器包含一个语音编码器和一个量化器，语音编码器对波形的关键信息进行编码，而量化器则将连续表示离散化为离散 tokens。

声学生成目标：
具有声学生成目标的语音分词器注重捕捉生成高质量语音波形所需的声学特征，优先保留关键信号，而非语义内容。为生成高质量的语音波形，这些分词器通常采用包含编码器、量化器和解码器的架构，将原始波形转换为离散 tokens，再通过解码器将其重构回语音波形。

混合目标：
混合目标的语音分词器平衡语义理解和声学生成任务。大部分混合分词器采用声学生成分词器的架构，并侧重于将语义信息从语义分词器提取到声学分词器中。某些系统还利用单独的向量量化器来从语音模型（如 WavLM）提取信息，并结合声学特征模块以提升性能。

3.2 语言模型

由于文本语言模型的成功，大部分 SpeechLMs 采用了类似的架构，主要使用 transformer 或仅解码器的架构进行自回归语音生成。为适应语音生成，原文本分词器被替换为语音分词器，使模型能够联合建模文本和语音两种模态。通常做法是扩展原文本模型的词汇量以容纳文本和语音 tokens，形成一个更大的嵌入矩阵，从而使模型在单一序列中生成文本和语音。

3.3 声码器

声码器在语言模型生成 tokens 后将其合成为语音波形，这一过程涉及将生成的语音 tokens 所代表的语言和副语言信息转换为音频波形。声码器通常包括直接合成和输入增强合成两种流程。直接合成方式较为简单，适用于包含足够声学信息的 tokens；输入增强合成则在 tokens 进入声码器之前将其转换为包含丰富声学特征的表示，以生成更高质量的语音波形。

4 训练策略

SpeechLMs 的训练过程分为三个主要阶段：预训练、指令微调和对齐。这一节将主要回顾语言模型组件的主要训练技术。

4.1 预训练

预训练阶段对语言模型的影响至关重要，因为它能够帮助模型学习语音数据中的统计模式和依赖关系，以便在上下文中预测下一个 token。SpeechLMs 预训练通常使用大规模的开放语音数据集，包括用于 ASR、TTS 和多模态任务的数据集。为了增强语音和文本模态的对齐，部分模型从预训练的文本模型开始进行预训练，并调整以支持语音 tokens，从而加速收敛并提升语音理解性能。

4.2 指令微调

指令微调通过特定的任务指令来提升模型的泛化能力，使其适应更多样的应用场景。常见的指令微调方法包括多模态指令微调和模态链微调。SpeechGPT 使用指令微调来处理 ASR、TTS 等任务，通过生成包括语音输入、文本输出在内的数据集，进一步提高模型的适用性。

4.3 对齐阶段

对齐阶段指的是通过特定方法来增强文本与语音模态间的表示对齐。通过交替输入文本和语音 tokens 的方法，可以显著提高模型在语音理解和生成方面的性能。此外，通过将文本和语音版本的提示都用于训练，确保模型能够为两种输入模态生成一致的输出。这样，模型既可以在纯文本环境中运行，也可以在语音模式下自然地响应。

5 下游应用

SpeechLMs 可处理多种下游任务，远超传统的ASR 和TTS系统，它们不仅支持文本与语音的多模态任务，还能处理复杂的语音和文本组合任务。下游应用可分为以下几类：

5.1 语义相关应用

口语对话：SpeechLMs 可用于口语对话系统，使系统能够在上下文中理解用户意图并生成语音响应。
语音翻译：支持语音到文本或语音到语音的翻译任务，SpeechLMs 能够根据不同语言生成对应翻译。
自动语音识别：通过ASR将语音转换为文本，是SpeechLMs 最基本的功能之一。
关键字检测：用于语音激活的场景，SpeechLMs 可识别并提取特定关键字，从而触发特定操作。
文本到语音合成：与ASR相反，TTS从文本生成对应的语音输出，以实现从文本指令到语音的转换。

5.2 说话人相关应用

说话人识别：能够识别语音中的说话人身份，是一种多类分类任务。
说话人验证：判定两段语音是否来自同一说话人，为二分类任务。
说话人分离：将音频流分割为不同说话人片段，从而标识出谁在什么时间说话。

5.3 副语言应用

SpeechLMs 还可以处理语音中的副语言信息，如情感识别、语音分离等任务。通过捕捉音高、音色、说话速度等信息，SpeechLMs 能够识别语音中的情感和态度，使得语音系统能够生成更具情感化的响应。

6 评价与未来研究方向

本综述概述了语音语言模型的关键组成部分、训练方法、下游应用及其在语音生成中的不同表现。未来，SpeechLMs 的研究可以朝以下方向发展：

增强多模态对齐：进一步提高语音与文本模式的对齐能力，使SpeechLMs 更加适应多种任务。
提高实时交互性能：开发具有更高响应速度的模型，支持用户打断等更自然的交互方式。
扩展评估指标：目前大多使用传统的语音合成和语音识别指标，对这些模型进行更全面的评估需要结合新指标。

专知便捷查看，访问下面网址或点击最底端“阅读原文”

https://www.zhuanzhi.ai/vip/4d97397daeeb7730cc73c10bed99f6da

点击“阅读原文”，查看下载本文