在
NLP
领域,大模型(
LLMs
)凭借其强大的理解和推理能力,正在重塑行业格局。另一方面,多模态大模型,尤其是以语音交互为核心的模型也开始崛起,技术发展迅猛,前景广阔。以
GPT-4o
为例,语音与大模型的端到端结合展示出了高实时性与强表现力,进而吸引了大量科研学者及用户的注意。
在实际对话中,语音交流不仅受表达内容的影响,语气、停顿等副语言特征也是重要因素,此外,环境音、说话人特征等背景因素也会对影响到意图的表达。
相较于文本,语音模态能传递更多维度的信息,然而种种信息的叠加也导致了语音特征变化无常。这也导致了尽管现有大模型(如
ChatGPT
、
DeepSeek
)在文本理解上已接近人类水平,但让它们
“
听懂
”
语音仍面临巨大挑战。
现有方法通常依赖于大规模训练数据
(
数十万甚至百万小时
)
实现先进性能。尽管语音大模型可以通过扩大数据量和模型参数的方式解决,但是文本和语音之间的核心问题尚未被充分探讨。
▲ 图一:
Soundwave
和
Qwen2-Audio
在
AIR-Bench
上的表现
在这样的背景下,香港中文大学(深圳)联合是石科技提出了
Soundwave
模型,通过解耦语音大模型的模态对齐训练,针对表示空间差异和长度差异这两个核心问题分别设计出针对性的解决方案和任务数据。仅用
10k
小时的数据,
Soundwave
便展现出卓越的性能(参考图一)。
论文链接
:
https://arxiv.org/pdf/2502.12900
Github链接:
https://github.com/FreedomIntelligence/Soundwave
Huggingface链接:
https://huggingface.co/FreedomIntelligence/Soundwave
技术团队
:
香港中文大学(深圳)和是石科技
整体架构概览
▲ 图二:
Soundwave
的训练过程。其中灰色模块被冻结,橙色模块被训练。
如图二,
Soundwave
的训练分为三个阶段:
语音与文本对齐、语音特征压缩、监督微调。
1. 第一阶段:语音与文本对齐
2.
第二阶段:语音特征压缩
▲ 图三:
动态压缩方法示例
3.
第三阶段:监督微调
除此之外,该团队还设计了基于温度的采样方法,对数据进行标注与深度清洗,以及针对语音任务的
Chain-of-Thought
等多种策略提升学习效率。
实
验
2.1 实验设置
在实验中,
Soundwave
采用了
Whisper Large
作为音频编码器,基础模型选择了
Llama-3.1-8B-Instruct
。
语音与文本对齐
、
语音特征压缩
两个阶段各自包含
6000
个训练步骤,
监督微调
阶段约为
4000
步。
2.2 实验结果
从表一中可以发现,
Soundwave
在多个音频任务中表现卓越,尤其在
语音翻译(
Speech Translation
)
任务上,超越了
Qwen2-Audio
,展现了强大的翻译能力。
在
语音情绪识别(
Speech Emotion Recognition
)
任务中,它同样展现出色的能力,精准识别语音中的情感。对于
Zero-shot
任务
,如在训练过程中未曾见过语言对翻译,
Soundwave
也表现强劲,能够高效进行语言间转换。
▲ 表一:在基础任务上的性能表现,这些任务包括自动语音识别(
ASR
)、语音翻译(
ST
)、语音情感识别(
SER
)、发声分类(
VSC
)。其中
*
表示
zero-shot
任务。
▲ 表二:不同语音大模型在
AIR-Bench
上的表现
▲
表三:不同语音大模型在
AIR-Bench Sound Foundation
任务中的表现
如表二,在
AIR-Bench
测试中,
Soundwave