【NeurIPS2024】CA-SSLR：面向广义语音处理的条件感知自监督学习表征

数据派THU · 公众号 · 大数据 · 2024-12-24 17:00

正文

请到「今天看啥」查看全文

来源：专知
本文约1000字，建议阅读5分钟
我们提出了条件感知自监督学习表征（CASSLR），这是一种通用的条件模型，广泛适用于各种语音处理任务。

我们提出了条件感知自监督学习表征（CASSLR），这是一种通用的条件模型，广泛适用于各种语音处理任务。与传统的微调方法（通常针对下游模型进行优化）相比，CA-SSLR整合了来自前层的语言和说话人嵌入，使得自监督学习（SSL）模型能够感知当前的语言和说话人上下文。该方法减少了对输入音频特征的依赖，同时保持了基础自监督学习表征（SSLR）的完整性。CA-SSLR提升了模型的能力，并在最小化特定任务微调的情况下，展示了其在未知任务上的广泛适应性。我们的方法采用线性调制来动态调整内部表征，从而实现细粒度的适应性，同时不显著改变原始模型的行为。实验表明，CA-SSLR减少了可训练参数的数量，缓解了过拟合，并在资源稀缺和未知任务中表现出色。具体来说，CA-SSLR在LID（语言识别）错误上相对减少了10%，在ML-SUPERB基准上的ASR（自动语音识别）字符错误率（CER）提高了37%，在VoxCeleb-1上的SV（说话人验证）等错误率（EER）减少了27%，展示了其有效性。

关于我们

数据派THU作为数据科学类公众号，背靠清华大学大数据研究中心，分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识，努力建设数据人才聚集平台、打造中国大数据最强集团军。

新浪微博：@数据派THU

微信视频号： 数据派THU

今日头条： 数据派THU