专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
AIGC开放社区  ·  AI ... ·  6 小时前  
AIGC开放社区  ·  AI ... ·  6 小时前  
爱可可-爱生活  ·  [CL]《This Is Your ... ·  2 天前  
51好读  ›  专栏  ›  量子位

嘈杂场景语音识别准确率怎么提?脸书:看嘴唇

量子位  · 公众号  · AI  · 2022-01-10 14:00

正文

明敏 发自 凹非寺
量子位 报道 | 公众号 QbitAI

借助读唇语,人类能够更容易听懂他人的讲话内容,那么AI也能如此吗?

最近,Meta提出了一种视听版BERT,不仅能读唇语,还能将识别错误率降低 75%

效果大概就像如下这样,给一段视频,该模型就能根据人物的口型及语音输出他所说的内容。

而且与此前同类方法相比,它只用 十分之一 的标记数据,性能就能超过过去最好的视听语音识别系统。

这种结合了读唇的语音识别方法,对于识别 嘈杂环境下 的语音有重大帮助。

Meta的研究专家Abdelrahman Mohamed表示,该技术未来可用在手机智能助手、AR眼镜等智能设备上。

目前,Meta已将相关代码开源至GitHub。

自监督+多模态

Meta将该方法命名为 AV-HuBERT ,这是一个多模态的自监督学习框架。

多模态 不难理解,该框架需要输入语音音频和唇语视频两种不同形式内容,然后输出对应文本。

Meta表示,通过结合人们说话过程中嘴唇和牙齿活动、语音方面的信息,AV-HuBERT可以捕捉到音频和视频间的微妙联系。

这和人类本身感知语言的模式很相似。

此前已经有研究表明,阅读唇语是人类理解语言的一种重要方式。尤其是在嘈杂的环境下,通过读唇可以将语言识别的准确性最高提升 6倍

在该模型中,通过一个 ResNet-transformer框架 可将掩码音频、图像序列编码为视听特征,从而来预测离散的集群任务序列。

具体来看,AV-HuBERT使用 帧级同步 的音频流和视频流作为输入,来更好地建模和提取两种模态之间的相关性。

图像序列和音频特征能够通过轻量级的模态特定编码器来产生 中间特征 ,然后将这个中间特征融合并反馈到共享的主干transformer编码器中,以此来预测 掩蔽聚类任务 (masked cluster assignments)

该目标是根据聚类音频特征或AV-HuBERT模型上一次迭代中提取的特征生成的。

当对唇读微调时,该模型只使用视觉输入、不使用音频输入。

结果表明,AV-HuBERT经过 30个 小时带有标签的TED演讲视频训练后,单词错误率(WER)为 32.5% ,而此前方法能达到的最低错误率为 33.6% ,并且此方法训练时间高达 31000个 小时。

WER是语音识别任务中的错误率指标,计算方法为将错误识别单词数除以总单词数,32.5%意味着大约每30个单词出现一个错误。

经过 433个 小时TED演讲训练后,错误率可进一步降低至 26.9%

另一方面,AV-HuBERT与前人方法最大不同之处在于,它采用了 自监督学习 方法。

此前DeepMind、牛津大学提出的方法中,由于需要对数据集打标签,使得可学习的词汇范围受到限制。







请到「今天看啥」查看全文