专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
人工智能那点事  ·  刘强东罕见发文:不该用算法压榨最底层兄弟,呼 ... ·  15 小时前  
爱可可-爱生活  ·  【[37星]DiffMoE:PyTorch实 ... ·  昨天  
爱可可-爱生活  ·  【[114星]OmniSQL:大规模高质量文 ... ·  2 天前  
51好读  ›  专栏  ›  机器之心

业界 | 百度提出Deep Speaker:可用于端到端的大规模说话人识别

机器之心  · 公众号  · AI  · 2017-05-11 14:20

正文

选自Baidu.Research

作者:Chao Li、Ajay Kannan 和 Zhenyao Zhu

机器之心编译

参与:吴攀


对话常常涉及到多个说话人,在这样的场景中,机器需要具备识别不同说话人的能力才能发挥更大的价值。近日,百度的一篇论文提出一种新的端到端的基于神经网络的说话人识别系统 Deep Speaker,实验表明该系统显著优于之前的基于 DNN 的 i-vector 方法。今天早些时候,百度发布了一篇技术博客对这项研究进行了解读,机器之心对本文进行了编译介绍,论文原文请访问:https://arxiv.org/abs/1705.02304


说话人识别(speaker recognition)算法的目标是根据音频确定说话人的身份。常见的识别任务有两种:验证(确定说话人是否是其宣称的身份)和说话人身份识别(从一组说话人中分辨出未知音频的说话人)。


这项技术有很多不同的应用。比如说,声纹(voiceprint)可以被用于登录设备。说话人身份验证可被用作金融交易的额外安全步骤。此外,智能家庭助手这样的共享设备也可以使用这项技术来为当前用户提供个性化服务。


最近一些使用神经网络来进行说话人识别的论文已经在传统的 i-vector 方法的基础上实现了提升,可参考来自 Interspeech 教程的原论文和幻灯片。


  • 原论文:http://www.crim.ca/perso/patrick.kenny/IS090079.PDF

  • 幻灯片:http://people.csail.mit.edu/sshum/talks/ivector_tutorial_interspeech_27Aug2011.pdf


i-vector 方法假定任何话语都可被分解为一个依赖于说话人和信道变化的分量与另一个相对于这些因素不变的分量。i-vector 说话人识别是一个多步过程,涉及到使用来自多个说话人的数据来评估一个通用背景模型(Universal Background Model,通常是高斯混合模型)、收集足够的统计数据、提取 i-vector、以及最后使用一个分类器来进行识别任务。


一些论文已经将 i-vector 流程中的某些部分替换为了神经网络,另一些研究则在训练端到端的说话人识别模型——不管是依赖于文本的方法(用户必须说出同样的话语,比如唤醒词),还是独立于文本的方法(模型不知道话语中的词)。我们推出了一款端到端的神经说话人识别系统 Deep Speaker,其在依赖于文本和独立于文本的场景中都表现良好。这意味着不管你是使用唤醒词来激活你的家庭助手,还是在会议上讲话,该系统都能够在训练之后识别出说话人的身份。


Deep Speaker 包含用于从音频中提取特征的深度神经网络层,还带有基于余弦相似度(cosine similarity)的时间池化(temporal pooling)和 triplet loss。我们探索了使用 ResNet 启发的卷积模型和循环模型来提取声学特征。








请到「今天看啥」查看全文