专栏名称: FlyAI
目录
相关文章推荐
51好读  ›  专栏  ›  FlyAI

科普丨一文看懂语音识别的技术原理

FlyAI  · 掘金  ·  · 2018-03-13 06:35

正文

科普丨一文看懂语音识别的技术原理


简要给大家介绍一下语音怎么变文字的吧。希望这个介绍能让所有同学看懂。


首先,我们知道声音实际上是一种波。常见的mp3、wmv等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是一个波形的示例。



在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术。要对声音进行分析,需要对声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用移动窗函数来实现,这里不详述。帧与帧之间一般是有交叠的,就像下图这样:



图中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。图中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。


分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中,这一步有很多细节,声学特征也不止有MFCC这一种,具体这里不讲。







请到「今天看啥」查看全文


推荐文章
THLDL领导力  ·  坚持做这9件事,5年后你会感谢自己
8 年前
狮子座网  ·  狮子座今日运势2017年01月26日
8 年前
佳木斯日报  ·  【天气】本周仍有降雪 气温波动明显
8 年前
中央广电总台中国之声  ·  十二届全国人大,央广记者五年五问总理(视频)
8 年前