专栏名称: PaperWeekly
PaperWeekly是一个分享知识和交流学问的学术组织,关注的领域是自然语言处理的各个方向。我们热爱知识,分享知识,希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。
目录
相关文章推荐
募格学术  ·  西湖大学1天2篇Nature ·  昨天  
PaperWeekly  ·  AI ... ·  2 天前  
PaperWeekly  ·  录用率仅22%!如何看待CVPR ... ·  2 天前  
51好读  ›  专栏  ›  PaperWeekly

港中大(深圳)开源Soundwave语音理解大模型,1/50训练数据媲美Qwen2-Audio!

PaperWeekly  · 公众号  · 科研  · 2025-03-17 13:31

正文


NLP 领域,大模型( LLMs )凭借其强大的理解和推理能力,正在重塑行业格局。另一方面,多模态大模型,尤其是以语音交互为核心的模型也开始崛起,技术发展迅猛,前景广阔。以 GPT-4o 为例,语音与大模型的端到端结合展示出了高实时性与强表现力,进而吸引了大量科研学者及用户的注意。


在实际对话中,语音交流不仅受表达内容的影响,语气、停顿等副语言特征也是重要因素,此外,环境音、说话人特征等背景因素也会对影响到意图的表达。


相较于文本,语音模态能传递更多维度的信息,然而种种信息的叠加也导致了语音特征变化无常。这也导致了尽管现有大模型(如 ChatGPT DeepSeek )在文本理解上已接近人类水平,但让它们 听懂 语音仍面临巨大挑战。


现有方法通常依赖于大规模训练数据 数十万甚至百万小时 实现先进性能。尽管语音大模型可以通过扩大数据量和模型参数的方式解决,但是文本和语音之间的核心问题尚未被充分探讨。


  • 表示空间差异 语音使用额外的语音编码端进行建模,而文本表示由大模型产生,两者在表示空间上并不一致。

  • 序列长度差异 语音以帧为单位表示,而大模型以子词为单位进行建模,这造成语音序列通常几十倍长于文本序列。

▲ 图一: Soundwave Qwen2-Audio AIR-Bench 上的表现


在这样的背景下,香港中文大学(深圳)联合是石科技提出了 Soundwave 模型,通过解耦语音大模型的模态对齐训练,针对表示空间差异和长度差异这两个核心问题分别设计出针对性的解决方案和任务数据。仅用 10k 小时的数据, Soundwave 便展现出卓越的性能(参考图一)。


论文链接

https://arxiv.org/pdf/2502.12900

Github链接:

https://github.com/FreedomIntelligence/Soundwave

Huggingface链接:

https://huggingface.co/FreedomIntelligence/Soundwave

技术团队

香港中文大学(深圳)和是石科技



整体架构概览

▲ 图二: Soundwave 的训练过程。其中灰色模块被冻结,橙色模块被训练。


如图二, Soundwave 的训练分为三个阶段: 语音与文本对齐、语音特征压缩、监督微调。


1. 第一阶段:语音与文本对齐


  • 该阶段主要解决语音和文本表示空间的差异,通过设计对齐适配器( Alignment adapter )和使用 CTC 损失实现对齐。对齐适配器包含线性层与单层 Transformer encoder 层,它将音频序列转换到大模型能理解的表示空间,确保音频和文本能够在表示空间中找到 共同语言


2. 第二阶段:语音特征压缩


  • 这一阶段主要通过压缩适配器( Shrinking adapter ),动态压缩调整语音序列长度,使其与文本匹配,并通过注意力机制提取声学信息。该方法首先根据 CTC 预测的峰值来选择语义特征,然后利用这些特征从原始序列中查询并收集辅助信息(如副语言信息等)。最后,将这两类特征进行融合以实现序列长度的缩减。此过程可以参考图三。

▲ 图三: 动态压缩方法示例


3. 第三阶段:监督微调


  • 在微调阶段,模型仅调整 LoRA 参数,利用文本和语音指令数据来提升任务处理能力。模型通过三种不同的问答格式、十余种不同的语音任务以及多样化的指令格式进行学习,增强其指令遵循和语音理解能力。


除此之外,该团队还设计了基于温度的采样方法,对数据进行标注与深度清洗,以及针对语音任务的 Chain-of-Thought 等多种策略提升学习效率。



2.1 实验设置

在实验中, Soundwave 采用了 Whisper Large 作为音频编码器,基础模型选择了 Llama-3.1-8B-Instruct 语音与文本对齐 语音特征压缩 两个阶段各自包含 6000 个训练步骤, 监督微调 阶段约为 4000 步。

2.2 实验结果

从表一中可以发现, Soundwave 在多个音频任务中表现卓越,尤其在 语音翻译( Speech Translation 任务上,超越了 Qwen2-Audio ,展现了强大的翻译能力。


语音情绪识别( Speech Emotion Recognition 任务中,它同样展现出色的能力,精准识别语音中的情感。对于 Zero-shot 任务 ,如在训练过程中未曾见过语言对翻译, Soundwave 也表现强劲,能够高效进行语言间转换。

▲ 表一:在基础任务上的性能表现,这些任务包括自动语音识别( ASR )、语音翻译( ST )、语音情感识别( SER )、发声分类( VSC )。其中 * 表示 zero-shot 任务。

▲ 表二:不同语音大模型在 AIR-Bench 上的表现

表三:不同语音大模型在 AIR-Bench Sound Foundation 任务中的表现


如表二,在 AIR-Bench 测试中, Soundwave







请到「今天看啥」查看全文