专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
大数据分析和人工智能  ·  太真实了 ·  4 天前  
IDC咨询  ·  发展不及预期,GenAI+Data市场趋势分 ... ·  4 天前  
IDC咨询  ·  发展不及预期,GenAI+Data市场趋势分 ... ·  4 天前  
DataEye短剧观察  ·  DataEye短剧热力榜:榜首增量断崖领先, ... ·  4 天前  
DataEye短剧观察  ·  DataEye短剧热力榜:榜首增量断崖领先, ... ·  4 天前  
51好读  ›  专栏  ›  数据派THU

【NeurIPS2024】CA-SSLR:面向广义语音处理的条件感知自监督学习表征

数据派THU  · 公众号  · 大数据  · 2024-12-24 17:00

正文

来源:专知

本文约1000字,建议阅读5分钟

我们提出了条件感知自监督学习表征(CASSLR),这是一种通用的条件模型,广泛适用于各种语音处理任务。


我们提出了条件感知自监督学习表征(CASSLR),这是一种通用的条件模型,广泛适用于各种语音处理任务。与传统的微调方法(通常针对下游模型进行优化)相比,CA-SSLR整合了来自前层的语言和说话人嵌入,使得自监督学习(SSL)模型能够感知当前的语言和说话人上下文。该方法减少了对输入音频特征的依赖,同时保持了基础自监督学习表征(SSLR)的完整性。CA-SSLR提升了模型的能力,并在最小化特定任务微调的情况下,展示了其在未知任务上的广泛适应性。我们的方法采用线性调制来动态调整内部表征,从而实现细粒度的适应性,同时不显著改变原始模型的行为。实验表明,CA-SSLR减少了可训练参数的数量,缓解了过拟合,并在资源稀缺和未知任务中表现出色。具体来说,CA-SSLR在LID(语言识别)错误上相对减少了10%,在ML-SUPERB基准上的ASR(自动语音识别)字符错误率(CER)提高了37%,在VoxCeleb-1上的SV(说话人验证)等错误率(EER)减少了27%,展示了其有效性。



关于我们

数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。




新浪微博:@数据派THU

微信视频号:数据派THU

今日头条:数据派THU