专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

Emo-DPO：通过直接偏好优化实现可控的情绪语音合成

FightingCV · 公众号 · · 2024-10-05 09:00

正文

摘要

当前的情绪文本到语音 (TTS) 模型主要进行监督训练，以学习从文本和所需情绪到其情绪语音的转换，侧重于每对文本语音中的单一情绪。这些模型只学习了正确的情绪输出，而没有完全理解其他情绪特征，这限制了它们捕获不同情绪之间细微差别的能力。我们提出了一种可控的 Emo-DPO 方法，它采用直接偏好优化，通过优化对优选情绪而不是较不优选的情绪来区分情绪之间的细微情绪差异。我们没有依赖现有情绪 TTS 模型中使用的传统神经架构，而是建议利用情绪感知 LLM-TTS 神经架构，以利用 LLM 的上下文学习和指令遵循能力。全面的实验结果证实，我们提出的方法优于现有的基线方法。

索引词：

语音合成，大型语言模型，文本到语音 (TTS)，情绪。

I 引言

人类产生的语音自然地在不同的情绪中有所不同 [1, 2, 3, 4] 。情绪语音合成旨在通过从文本和所需情绪音调生成类似人类的语音来复制这种复杂性，并通过机器学习技术取得了重大进展 [5, 6, 7, 8] 。为了生成逼真的情绪语音，情绪文本到语音 (TTS) 模型必须考虑除了简单文本输入之外的各种因素，例如通过压力、语调、节奏表达情绪的细微差别，以及人类情绪特征之间复杂的相互作用 [4, 9] 。

当前的情绪 TTS 模型主要依赖于传统的架构，如 LSTM [10] 、BLSTM [11] 、Tacotron [12, 13, 8, 9] 、FastSpeech [14, 6, 7, 8, 15] 、VITS [16] 、基于扩散的模型 [17] 和流匹配模型 [18] 。它们忽略了将大型语言模型 (LLM) 整合到语音合成中，以利用 LLM 在质量、自然度和情绪表现力方面的上下文学习和指令遵循能力。相反，LLM 在有效地建模语音符号方面取得了成功 [19] ，并在零样本场景中实现了高质量的合成语音 [20, 21] ，从而证明了其在语音合成方面的进步。尽管如此，LLM 在 TTS 模型中渲染情感的应用仍未得到充分探索。本文旨在通过研究 LLM 在增强情感语音合成中的应用来弥合这一差距，特别是在捕捉不同情感之间细微差别方面。

监督学习主要用于训练现有的情感 TTS 模型，其中文本与相应的情感语音配对，通常侧重于每个实例中的单一情感 [22, 6, 7, 8] 。这限制了模型对多种情感的控制，并阻碍了其捕捉情感之间韵律和语调细微差别的能力。为了解决这个问题，我们从人类反馈强化学习 (RLHF) [23] 和直接偏好优化 (DPO) [24] 中获得灵感。 DPO 最近在 LLM [25, 24, 26] 和生成模型 [27, 28, 29, 30] 中证明了其在区分首选信号和非首选信号方面的显著有效性。 RLHF 作为现代 LLM [23, 31, 32] 成功的基础，需要训练一个奖励模型来近似人类偏好，而 DPO 提供了一种更有效的方式直接优化偏好数据，消除了对显式奖励模型的需求，并降低了计算负担 [27, 28] 。

图 1：所提出的 Emo-DPO 方法概述：(a) 指令调优，(b) Emo-DPO 训练，以及 (c) 推理过程。

鉴于 DPO 的成功及其在偏好一致性中的作用，我们建议利用 DPO 来解决传统情感 TTS 模型的局限性，这些模型仅控制单个情感。我们介绍了 Emo-DPO ，这是一种利用 DPO 来捕捉正负情感对之间细微韵律和语调差异的情感 TTS 方法，从而增强语音合成中的情感表现力。与缺乏情感偏好的传统监督学习方法不同，我们的 Emo-DPO 通过将 TTS 模型与首选的情感表达相一致来微调模型，从而优化首选情感输出相对于不太受欢迎的输出的生成。通过结合正负情感反馈， Emo-DPO 使得表现力丰富的语音合成能够超越单一情感建模，从而更好地区分情感并生成更可控、更具表现力的情感语音。

本文的主要贡献包括：1) 超越单一情感：我们提出了 Emo-DPO ，这是一种新颖的可控情感 TTS 方法，它首次利用直接偏好优化来区分情感之间的细微差异，以及 2) 情感感知 LLM-TTS ：我们研究了情感感知 LLM 在情感 TTS 神经架构中的集成。

II 方法

我们提出了一种基于 LLM 的 TTS 神经架构的 Emo-DPO 方法，用于通过直接偏好优化 (DPO) 进行情感 TTS，如图 1 所示。

II-A Emo-DPO 概述

我们提出了一种情绪 TTS 方法 Emo-DPO ，旨在从文本、说话者 x 向量和期望的情绪输入中合成情绪语音。我们的方法结合了 (a) 指令调优和 (b) Emo-DPO 训练，并整合了情绪感知 LLM-TTS，优化了生成与预定义指令数据中指定情绪提示相对应的语音符元序列的可能性。在推理过程中， Emo-DPO 从文本、期望情绪和说话者 x 向量输入中生成语音符元，然后经过一个冻结的流匹配模型和一个冻结的声码器，生成情绪语音（参见图 1 (c)）。接下来我们将详细介绍提出的指令调优和 Emo-DPO 训练过程。

II-B 指令调优

在第一步中，我们建议对 LLM-TTS π 进行监督微调，以利用 LLM 的指令遵循和上下文学习能力，使用并行情绪文本到语音数据 D sft ，如图 1 (a) 所示。数据的格式使用以下指令模板：

其中 E 、 x j 、 y j + 、和分别表示情绪提示词（如 Happy 和 Angry）、文本符元序列、与 E 相对应的语音符元序列、表示情绪触发器结束的特殊符元以及分隔符元。语音分词器提取语音符元序列，而 LLM-TTS 模型（包含文本编码器和基于 LLM 的解码器）预测情绪语音符元的概率分布（例如， happy）。遵循 [20] ，我们应用标签平滑 Kullback-Leibler (KL) 损失来最小化 π 、 P π 引起的概率分布预测与目标 (happy) 分布 P 之间的差异：

通过这种方式， π 学习生成与输入文本中指定的情绪提示一致的语音符元序列，确保生成的语音反映 E 所指示的期望情绪。

II-C 情感直接偏好优化训练

动机：但是，仅仅对 π 进行指令调优可能是不够的，因为模型只学习生成正确的输出，而没有完全理解为什么它是正确的。为了使模型能够捕捉到所需情感语音与具有相同语义内容的其他情感之间的细微差别，我们转向偏好学习以进一步改进其性能。 DPO [24] 提供了一个有效的解决方案，允许模型直接从偏好数据中学习。这确保了生成的语音更符合预期的情感细微差别。

II-C 1 超越一种情感 - DPO 训练

为了构建用于 Emo-DPO 微调的成对偏好数据（见图 1 (b)），我们将上面定义的 d j 视为正例（例如。快乐）。对于负例，我们从训练数据中采样其他具有相同 x j （文本输入）但具有不同情感语音输出的实例（例如。中性）。正式地，成对数据 ( d j + , d j − ) ∈ D pref 被表述为 E . ⁢ x j ⁢ ⁢ y j + ⁢ 和 E . ⁢ x j ⁢ ⁢ y j − ⁢ 。

将第一阶段指令调优后的 LLM-TTS 模型记为 π sft 。给定成对数据集 D pref 和要优化的 LLM-TTS π ，DPO 目标定义为：

其中 π 初始化为 π sft 。 π ⁢ ( ⋅ ) 指的是 π 生成输出序列的条件概率。 β 是一个超参数，它调节 π 对 y j + 相比于 y j − 的偏好程度。 σ 是 sigmoid 函数。 DPO 目标本质上是在给定 x j 和情感触发词 E 的情况下，最大化 π 生成 y j + 的可能性，同时最小化生成 y j − 的可能性。

II-C 2 Emo-DPO 训练目标

为了进一步稳定训练，我们引入了两种正则化策略。一种策略是在 DPO 目标中引入一个 Jensen-Shannon (JS) 散度 [33] 操作：

以上操作可以平滑优化过程并防止极端的 logit 差异，从而提高训练稳定性。此外，它们通过 JS 散度的有界和对称性质，提供了一个更平衡和可解释的偏好学习过程。

另一种策略是联合优化 JS 正则化的 DPO 目标、在指令调优的第一阶段定义的标签平滑 KL 目标以及一个额外的 SFT 目标。具体来说，总损失项定义为：

其中 ℒ SFT = − log ⁡ ( π ⁢ ( y j + | E , x j ) ) ， α ， γ 和 θ 是控制每个损失项强度的超参数。标签平滑 KL 损失和 SFT 损失都有助于稳定训练，确保模型与预训练的 LLM-TTS 分布保持一致，同时逐步适应特定任务的情感语音生成。另一方面，JS 正则化的 DPO 损失使模型能够从成对比较中学习细微的偏好，引导模型朝着更细致和情感一致的输出方向发展。

表一：提出的 Emo-DPO 与基线在情感相似度、韵律相似度、可懂度和语音情感识别准确率方面的目标评估结果比较。

III 实验

III-A 数据集和实验设置

我们使用 ESD 数据集 [34] 的英语部分进行实验，10 个说话人表达 5 种情绪：愤怒、快乐、悲伤、惊讶和中立，每个说话人和情绪有 350 个话语（约 1750 个话语）每个演讲者 1.2 小时）。我们遵循官方的训练/验证/测试分割 [34, 6] ，其中验证和测试集由 5 种情绪和 10 个说话者的 20 和 30 个话语组成，从而产生 1000 和 1500 个话语。我们使用 Cosyvoice-300M-Instruct 模型 (cosyvoice) [20] 和基于 fastspeech2 的 emospeech [6] 作为强大的基线，两者都具有可公开访问的代码。 cosyvoice 和提议的 Emo-DPO 的相同 X 向量是从测试说话者的训练数据中提取的。 Emo-DPO 使用动态批处理进行 2 轮训练，然后在 4 个 GPU 上进行 3 轮 DPO 训练，批处理大小为 8。 Emo-DPO 中的 TTS-LLM、语音分词器和文本编码器从 cosyvoice 初始化，具有相同的架构，推理使用预训练的流匹配模型和 HifiGan 声码器 [20] . 参数 α 、 θ 和 γ 设置为1，其他设置遵循cosyvoice。对于 Emo-DPO 训练，我们通过将所需的情感音频标记为首选（例如，快乐）并将其他情感音频（例如，中性）标记为不首选，来创建具有相同文本的成对偏好数据。

III-B 评估指标

我们进行了广泛的客观和主观评估，以将拟议的 Emo-DPO 与基线进行比较。

客观评估：为了评估生成的音频的清晰度，我们在音频上应用 Whisper-Large-v3 来识别文本并计算错误率 (WER) 。韵律相似度（SIM）：我们使用 AutoPCP [35] 作为话语级别估计器来量化生成的语音样本和真实语音样本之间的韵律相似度 ¹ 遵循 [18] 。情感相似度 (SIM) : 我们使用 emotion2vec-base 模型 [36] 从真实数据和生成的音频中提取情感嵌入，计算余弦相似度，并在测试集上对 EMO SIM 得分进行平均。语音情感识别是使用预训练模型 ²