本文来源:王博实 超凡知识产权
语音识别
作为人工智能的重要分支技术,因其使用场景亲民而备受关注,它的技术目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。
本文首先对语音识别的现有技术进行梳理和总结,然后从专利申请趋势、主要申请人与发明人及其相关技术、关键技术等方面对语音识别中国专利申请情况进行统计分析。最后,对语音识别技术的国内申请情况进行总结。
由于本文干货充足篇幅较长,为方便大家阅读分享故分上、下两篇进行推送。今天推送的是第一部分,包括:语音识别技术概述、语音识别技术专利申请现状。
关键词:语音识别 ASR
一.语音识别技术概述
(一)研究背景
语音识别是从待识别语音信号中识别出该语音的语义信息、语言信息和说话人特征信息和情感信息等。语音识别技术是模式识别研究领域中一个非常重要组成部分,它涉及到许多学科,包括计算机、通信、语音语言学、电子技术和模式识别等众多学科。
随着科技的进步,人们通过大量的研究,在理论、算法、实验中通过不断地努力和改进,取得了许多重要的科学成果。
二十世纪五十年代,AT&T贝尔实验室的语音识别研究首次取得成功,该系统可以识别出一到十的英文数字,语音识别作为一颗新星正式在历史舞台现身。二十世纪六十年代,随着计算机等技术应用的不断发展和创新,迅速推动了语音识别技术的发展。
其中线性预测技术和动态规划技术的出现使得语音识别有了新的突破:前者解决了信号模型的问题,后者则解决了不等长的语音匹配问题。
以动态时间规划(DTW)为代表的语音识别技术成为上世纪七十年代语音识别领域的新突破。此时的线性预测技术获得了更进一步的发展,动态时间规划技术也逐渐成熟。新理论的提出又为语音识别添上了新的翅膀:矢量量化与隐马尔科夫模型成为语音识别理论中的佼佼者。另一方面,实践中以LPC和DTW结合实现了的孤立词语音识别系统。
上世纪八十年代,语音识别的研究硕果累累,其中HMM模型和基于神经网络技术模型在语音识别中取得新的突破。识别的算法从模板匹配转为基于统计的模型,模型也从基于规则转变为基于统计描述。连接词汇的语音识别系统、连续语言的语音识别系统不断发明出来。一九九八年CMU大学在VQ/HMM基础上幵发的非特定人连续语音识别系统SPHINX可以识别997个词汇。
上世纪九十年代又有了新的成果,语音识别开始往大词汇量、非特定人识别的方向挺进。1993年,DARPA使用具有两万词汇量的华尔街杂志语料库(Wall Street Journal Corpus)进行识别系统评估,它包含2.6万词汇的Switchboard语料库,是一个电话交谈语音库。在1998年,DARPR使用英语电台、电视新闻节目录音等资源库对广播新闻语料迸行评估,这里面包含了各种复杂背景噪音,信号失真以及口音问题,使得识别的难度大大增加。在这些识别系统中,剑桥大学的HTK系统对于低噪声部分评测具有较高的识别率,其准确率达到92.2%,而法国国家实验室的LIMSI在自然语言发音部分的识别率最高,达到85.4%。
语音识别技术关键技术不断的取得新的突破,识别技术日渐成熟。在计算机技术、电信行业应用等领域的推动下,实用化的语音识别系统及与此相关的语音服务应用走上历史舞台。
各个行业技术的迅速发展使得语音识别技术也随之达到一个高的水平,在稳健性、自适应性方面语音识别不断地从实验室走向实用产品。这一时期,语音识别的关键性特征为非特定人大词汇连续语音识别的高识别率。英国剑桥大学的HTK系统在理想语音库下的准确率超过95%;其另一个语音识别系统在广播语音的
识别率达到83.8%;美国卡内基梅隆大学的系统对于大词汇量的电话语音的识别误识率为45.1%,这些系统是语音识别系统中小词汇表现最佳的典范。
国内语音识别在上世纪七十年代以中国科学院声学所为先驱,实用电子管电路识别出十个元音,开启了国内语音识别的新天地。80年代计算机技术的发展使得我国的语音识别研究的条件基本具备。于是各个研究部门纷纷行动建立起课题,主要包括清华大学、中科院声学所、北方交通大学等科研院校及机构,而中国科技大学、哈尔滨工业大学、四川大学等也积极响应进行研究。1987年国家高科技发展计划启动,语音识别成为重要的研究课题,并进行组织化的专题会议,进行每两年一次的讨论学习会议,从而推动国内语音识别进入了新的发展阶段。
近年来,语音识别的研究以HMM为主要模型算法,其他多种技术方向并存。HMM模型在框架设计、实践序列建模和多层次信息融合等方面依然有着很大的优势。实际的应用中,仍然以HMM为主,其他技术为辅的框架。
(二)语音识别技术基本原理
目前,大多数语音识别系统都采用了模式匹配的原理。根据这个原理,未知语音的模式要与已知语音的参考模式逐一进行比较,最佳匹配的参考模式被作为识别结果。
(语音识别系统原理图)
该图中,待识别语音先经话筒变换成语音信号,然后从识别系统前端输入,再进行预处理。预处理包括语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等,并涉及到语音识别基元的选取和端点检测问题,有时还包括模数转换器。特征提取部分用于提取语音中反映本质特征的声学参数,常用的特征有短时平均能量或幅度、短时平均跨零率、短时自相关函数、线性预测系数、清音/浊音标志、基音频率、短时傅立叶变换、倒谱、共振峰等。训练在识别之前进行, 是通过让讲话者多次重复语音,从原始语音样本中去除冗余信息,保留关键数据,再按一定规则对数据加以聚类,形成模式库。模式匹配是整个语音识别系统的核心,是根据一定的准则以及专家知识(例如构词规则、语法规则、语义规则等),计算输入特征与库存模式之间的相似度,判断出输入语音的语意信息。
(三)语音识别技术基本方法
语音语音识别方法主要有动态时间归正技术(DTW)、矢量量化技术(VQ)、隐马尔可夫模型(HMM)、基于段长分布的非齐次隐含马尔可夫模型(Duration Distribution Based Hidden Markov Model,DDBHMM)和人工神经元网络(ANN)。
DTW是较早的一种模式匹配和模型训练技术,它应用动态规划方法成功解决了语音信号特征参数序列比较时时长不等的难题,在孤立词语音识别中获得了良好性能。但因其不适合连续语音大词汇量语音识别系统,目前已被HMM模型和ANN代替。
VQ技术从训练语音中提取特征矢量,得到特征矢量集,通过LBG算法生成码本,在识别时从测试语音提取特征矢量序列,把它们与各个码本进行匹配,计算各自的平均量化误差,选择平均量化误差最小的码本,作为被识别的语音。但同样只适用孤立词而不适合连续语音大词汇量语音识别。
HMM模型是语音信号时变特征的有参表示法,它由相互关联的两个随机过程共同描述信号的统计特性,其中一个是隐蔽的(不可观测的)有限状态的 Markov链,另一个是与Markov链的每一状态相关联的观察矢量的随机过程(可观测的)。隐蔽Markov链的特征要靠可观测到的信号特征揭示。这样,语音时变信号某一段的特征就由对应状态观察符号的随机过程描述,而信号随时间的变化由隐蔽Markov链的转移概率描述。模型参数包括HMM拓扑结构、状态转移概率及描述观察符号统计特性的一组随机函数。按照随机函数的特点,HMM模型可分为离散隐马尔可夫模型(采用离散概率密度函数,简称DHMM)和连续隐马尔可夫模型(采用连续概率密度函数,简称CHMM)以及半连续隐马尔可夫模型(SCHMM)。一般来讲,在训练数据足够的情况下,CHMM优于DHMM和SCHMM。HMM模型统一了语音识别中声学层和语音学层的算法结构,以概率的形式将声学层中得到的信息和语音学层中已有的信息完美地结合在一起,极大地增强了连续语音识别的效果。
语音学的研究表明,语音单位在词中的长度有一个相对平稳的分布。正是这种状态长度分布的相对平稳性破坏了HMM模型的齐次性结构,而王作英教授提出的DDBHMM模型解决了这一缺陷。它是一个非齐次的HMM语音识别模型,从非平稳的角度考虑问题,用状态的段长分布函数替代了齐次HMM中的状态转移矩阵,彻底抛弃了“平稳的假设”,使模型成为一种基于状态段长分布的隐含Markov模型。段长分布函数的引入澄清了经典HMM语音识别模型的许多矛盾,这使得 DDBHMM比国际上流行的HMM语音识别模型有更好的识别性能和更低的计算复杂度(训练算法比流行的Baum算法复杂度低两个数量级)。由于该模型解除了对语音信号状态的齐次性和对语音特征的非相关性的限制,因此为语音识别研究的深入发展提供了一个和谐的框架。
语音识别面临的主要困难是理论上没有突破,虽然各种新的修正方法不断涌现,但其普遍适用性都值得商榷。
另外,语音识别系统在商品化的进程中还要解决诸如识别速度、拒识问题以及关键词(句)检测等具体问题,主要表现在两个方面:
一是对环境的依赖性强。
语音识别系统在某些环境下采集的语音进行训练后,必须在相同的环境下进行识别,否则性能急剧下降,例如自适应性差,最近凸现出的方言或口音、背景噪音、口语发音的“新三难”问题等,都会影响识别的准确性。目前可采用麦克风阵列技术消除单一麦克对语音的影响,同时在预处理阶段通过语音增强算法,使语音的可懂度和信噪比增强。
二是模型和算法都存在一定的缺陷。
随着HMM语音识别方法研究工作的深入,人们也越来越认识到经典HMM语音识别模型在一些重要方面存在严重的缺陷,既不符合语音信号的实际情况,又使得模型的训练量和存储量太大。目前提出了各种各样的HMM改进算法,还加入了遗传算法、并行算法和神经网络等新技术,使得HMM的训练和识别更加准确。
二.语音识别技术专利申请现状
(一)语音识别专利申请发展趋势
在CNABS数据库中,使用索引AB和关键字“语音识别”对专利申请进行统计(统计日期为2000年1月1日-2017年6月14日),共获得7587篇专利,同时,使用相关联分类号G06K9/00、G06F17/30、G10L15/00以及G10L17/00进行限定,得到专利文献2138篇。利用索引APD对2000年1月1日至2017年6月14日的各年份专利申请量进行统计。下图给出了专利申请量随年代的分布情况。
(语音识别领域的国内专利申请量趋势图)
由上图可以看出,语音识别技术在2000年-2004年的申请量呈现缓慢增长趋势,处于发展的新兴期;从2004年开始至2009年,申请量保持平稳状态,专利申请量较之前有了稳定发展;从2009年开始,语音识别技术的专利申请数量再次逐步增加,在2013年达到顶峰,主要归功于语音识别技术在各种移动终端上的应用日趋广发与智能手机行业的飞速发展。随着移动互联网技术的不断发展,尤其是移动终端的小型化、多样化变化趋势、语音识别作为区别于键盘、触屏的人机交互手段之一,又具有了自己独特的优势。从2013年开始语音识别技术领域国内专利申请量呈逐年下降的状态,这也与专利申请的有关公开状态相关。
同时,通过对该领域内专利申请进行分析,统计得出主要专利申请分布如下表所示:
(语音识别技术领域重要专利表)
(二)申请人与发明人分析
使用索引PA对上述2138篇专利申请的申请人进行统计,得到中国专利申请量位于前10位的专利申请人如下图所示。
(语音识别领域中国申请的前10名申请人占比统计图)
从申请人角度来看,在语音识别领域,国外开始研究的比较早。在该领域排名前10位的申请人中,国外大企业占据了绝大部分申请数量,其中国外申请人9家,国内申请人只有中国科学院声学研究所与被联想所收购的摩托罗拉公司两家。从企业所属的国别来看,日本(4家)、中国(2家)、美国(2家)、韩国(1家)、荷兰(1家),美国起步最早,2000年后专利增长迅速,其发展重点是语音输入/输出、语音数据处理系统及语音软件产品开发。日本于20世纪90年代起开始该领域的技术探索,2000-2007年期间专利产出量较大,与美国申请量相当,但2008年以后,专利量开始迅速减少,呈现下滑趋势。日本的研发重点是语音输入/输出、语音数据处理系统。中国和韩国涉足时间较晚,2000年前后开始该领域的专利申请,2010年后专利快速增长。从企业性质分析,在该领域排名前10位的申请人中,以手机生产为主要经营领域的厂家有4家,占据40%,申请量968件,占据申请总量的55%。
(语音识别领域中国申请申请人类别情况)
上图统计了三维人脸识别领域中国申请的申请人类别情况。国内申请人中,公司申请量占据了96%,科研机构申请仅仅占据了4%。通过上述数据不难发现,国内科研机构在语音识别领域专利申请与国内外公司相比,存在着巨大差距,相关科研探索有待进一步挖掘。
语音交互技术的发明人主要分布于微软、船井电机、三星、韩国电子通信研究院、松下等公司,主要发明人情况如下表所示。
(语音识别技术主要发明人概况表)
(三)主要申请人及其技术分布
1.微软公司
微软公司作为全球最大的PC软件公司,在其推出的众多操作系统中,越来越重视语音识别技术的开发和应用,极大促进了语音识别技术的进一步竞争和发展。
通过对微软公司语音识别方面专利的分析,可以把微软公司的技术发展历程分为三个阶段。
第一阶段1997-2001年,微软公司主要是在其产品中集成语音识别的功能。
这一阶段的专利申请以语音识别的应用为主,其应用方向包括移动互联网、呼叫中心和教育等。如专利CN1295705A中,其提出了一种对用于语音识别系统中的语言模型进行适配的方法,其通过访问不同类型的数据存储器,以及在不同类型的存储器之间进行查询命令的优化级联查询,以提高了数据查询的效率。
第二阶段2002-2007年,是微软公司在语音识别方面技术爆发的阶段,在前端特征处理、声学模型、语言模型、后端处理、识别引擎及语音识别的应用方面都进行了大量申请。
如专利CN1838694A中,其提出了一种并发地提供便于控制应用程序状态机的多个用户接口的机制系统,可以创建两个相对不同的用户体验,一个通过使用双音多频导航,一个通过语音识别导航。
第三阶段2008-2013年,微软公司在语音识别各方面的申请量都骤减,除了在语音识别应用领域申请量保持平稳之外,其他技术分支上的申请都很少。
在这一阶段,微软公司的市场行为也主要集中在语音识别的应用方面,而在技术研发方面,微软公司似乎进入了一个瓶颈期,对语音识别率和识别速度等方面,都没有出现重大突破。其专利技术主要集中于语音输入/输出、语音软件产品和语音数据处理系统。形成了以邓立博士和宋歌平博士为核心成员的两个研发团队,团队主要成员概括如下表所示。
(微软公司语音研究团队主要成员概况表)
微软公司在全球申请和中国申请的发展态势整体上是对应的,中国是微软在全球市场的重要组成部分。虽然微软公司在中国的专利布局晚于全球市场,但其在中国市场的申请量一直处于较高的水平,可见,中国市场得到微软公司足够的重视,在语音识别领域具有十分广阔的前景。
2.三星电子株式会社
三星电子的触角已经延伸到生活中的方方面面,从家电到计算机、平板电脑、电灯泡、智能手机等等。作为手机行业的巨头,三星电子早期的语音识别专利申请中,更多关注于手机语音识别。如CN1272996A,其提出了一种具有语音拨号功能的蜂窝电话,其能够连接到一个免提装置,并有一个从输入话音信号中提取特征数据以便识别语音信号的语音识别设备和一个存储扩展特征数据的存储器,存储器被划分为用于存储从蜂窝电话输入的特征数据的第一存储区、用于存储从免提装置输入的特征数据的第二存储区、和用于存储语音慧芳数据的第三存储区,能够达到对语音识别存储器有效的利用管理。
随着近些年移动互联网与智能家居产业的兴起,三星电子将更多的经历投入其中。其专利申请CN101420543A公开了一种语音控制电视机的方法及其电视
,通过预先录制用户的语音样本,并将录制好的语音样本进行存储;预先存储每个电视功能信号与所存储的录音样本之间的对应关系;采集用户的语音信号,将所采集的用户语音信号与存储的语音样本进行识别;当存在相匹配的语音样本时,根据上述电视功能信号与所存储的录音样本之间的对应关系,获知该相匹配的语音样本所对应的电视功能信号;根据用户语音信号所相匹配的语音样本所对应的电视功能信号,控制电视机的具体运行。通过语音识别可以获知用户的每个语音信号所对应的电视功能命令信号,让用户通过自己的语音就可以对电视进行控制。
三.语音识别关键技术及其发展
近几年来,特别是2009年以来,借助机器学习领域深度学习研究的发展,以及大数据语料的积累,语音识别技术得到突飞猛进的发展。将机器学习领域深度学习研究引入到语音识别声学模型训练,使用带RBM预训练的多层神经网络,极大提高了声学模型的准确率。在此方面,微软公司的研究人员率先取得了突破性进展,他们使用深层神经网络模型(DNN)后,语音识别错误率降低了30%,是近20年来语音识别技术方面最快的进步。
目前大多主流的语音识别解码器已经采用基于有限状态机(WFST)的解码网络,该解码网络可以把语言模型、词典和声学共享音字集统一集成为一个大的解码网络,大大提高了解码的速度,为语音识别的实时应用提供了基础。随着互联网的快速发展,以及手机等移动终端的普及应用,目前可以从多个渠道获取大量文本或语音方面的语料,这为语音识别中的语言模型和声学模型的训练提供了丰富的资源,使得构建通用大规模语言模型和声学模型成为可能。在语音识别中,训练数据的匹配和丰富性是推动系统性能提升的最重要因素之一,但是语料的标注和分析需要长期的积累和沉淀,随着大数据时代的来临,大规模语料资源的积累将提到战略高度。
语音识别技术关键点大致分为三部分:语音信号预处理与特征提取、声学模型与模式匹配、语言模型与语言处理。
(一)语音信号预处理与特征提取
预处理模块对输入的原始语音信号进行预处理,滤除掉其中的不重要的信息以及背景噪声等,进行分帧和预加重处理工作,并进行语音信号的端点检测,即判定语音有效范围的开始和结束点位置。其关键点步骤包括语音信号的采样和量化、预加重、语音信号的分帧和加窗以及端点检测。
特征参数提取的目的是对语音信号进行分析处理,去掉与语音识别无关的冗余信息,获得影响语音识别的重要信息,同时对语音信号进行压缩。在实际应用中,语音信号的压缩率介于10-100之间。语音信号包含了大量各种不同的信息,提取哪些信息,用哪种方式提取,需要综合考虑各方面的因素,如成本,性能,响应时间,计算量等。非特定人语音识别系统一般侧重提取反映语义的特征参数,尽量去除说话人的个人信息;而特定人语音识别系统则希望在提取反映语义的特征参数的同时,尽量也包含说话人的个人信息。
线性预测(LP)分析技术是目前应用广泛的特征参数提取技术,许多成功的应用系统都采用基于LP技术提取的倒谱参数。但线性预测模型是纯数学模型,没有考虑人类听觉系统对语音的处理特点。
Mel参数和基于感知线性预测(PLP)分析提取的感知线性预测倒谱,在一定程度上模拟了人耳对语音的处理特点,应用了人耳听觉感知方面的一些研究成果。实验证明,采用这种技术,语音识别系统的性能有一定提高。从目前使用的情况来看,梅尔刻度式倒频谱参数已逐渐取代原本常用的线性预测编码导出的倒频谱参数,原因是它考虑了人类发声与接收声音的特性,具有更好的鲁棒性(Robustness)。也有研究者尝试把小波分析技术应用于特征提取,但目前性能难以与上述技术相比,有待进一步研究。
下面对一些重点中国专利申请进行介绍:
1.专利申请CN101118745A公开了一种用于语音识别系统的置信度快速求取方法,
包括:预处理分帧;提取每帧语音的语音特征;根据状态图、声学模型和该帧语音的特征向量,计算每一帧语音对应于状态图中每一个状态的似然概率p(xt/sj);按照帧号和状态号存储似然概率p(xt/sj);根据似然概率p(xt/sj)对状态进行剪枝;计算剪枝后声学空间的似然概率和以及广义后验概率;计算每个音素的广义后验概率并将其作为置信度得分。现有技术中,需要在进行音素搜索得到音素候选后,为计算置信度再使用不同的声学模型进行第二次搜索,该专利申请实质是一种同步计算方法,是在识别器进行帧同步束搜索的过程中,使用相同的声学模型计算置信度,只需进行一次搜索,节省了系统的运行时间和计算的复杂度。
2.专利申请CN1264889A公开了一种语音识别系统中的特征提取方法。包含以下步骤
:输入一数字化信号;从数字化信号产生各表示性系数;从表示性系数产生各差分系数;以及选择性地仅使用表示性系数和差分系数的一部分,以通过使用间隔的系数构成特征集来构成特征集。该专利申请克服了传统语音识别系统需要大量的易失性存储器(如随机存取存储器(RAM))和非易失性存储器(NVM)(如闪烁ROM或电可擦只读存储器(EEPROM))的缺陷。降低了传统语音模型训练需要大量MIPS从而降低资源利用率和降低操作速度等负面影响使,提高了语音识别的装置的性能。
3.专利申请CN101051462A公开了一种在背景噪声环境下补偿语音处理中 使用的语音的特征矢量补偿设备
,包括:第一存储单元,在其中存储用于针对多个噪声环境的每个噪声环境补偿语音的特征矢量的补偿矢量;特征提取单元,在输入语音的多个帧中的每个帧中提取语音的特征矢量;估计单元,根据特征矢量序列和相似性程度估计噪声环境序列,所述噪声环境序列是生成作为针对多个帧的一系列多个提取的特征矢量序列的一系列多个噪声环境,所述相似性程度表示在当前帧以及当前帧的紧前一帧和紧后一帧中至少一 个的每一个中在噪声环境下生成特征矢量的确定性;计算单元,根据在第一存储单元内存在的补偿矢量,获得与在估计的噪声环境序列中的每个噪声环境对应的补偿矢量;和补偿单元,根据获得的补偿矢量补偿语音的提取的特征矢量。
(二)声学模型与模式匹配
声学模型通常是将获取的语音特征使用训练算法进行训练后产生。在识别时将输入的语音特征同声学模型(模式)进行匹配与比较,得到最佳的识别结果。
声学模型是识别系统的底层模型,并且是语音识别系统中最关键的一部分。声学模型的目的是提供一种有效的方法计算语音的特征矢量序列和每个发音模板之间的距离。声学模型的设计和语言发音特点密切相关。声学模型单元大小(字发音模型、半音节模型或音素模型)对语音训练数据量大小、系统识别率,以及灵活性有较大的影响。必须根据不同语言的特点、识别系统词汇量的大小决定识别单元的大小。
目前常用的声学模型基元为声韵母、音节或词,根据实现目的不同来选取不同的基元。汉语加上语气词共有412个音节,包括轻音字,共有1282个有调音节字,所以当在小词汇表孤立词语音识别时常选用词作为基元,在大词汇表语音识别时常采用音节或声韵母建模,而在连续语音识别时,由于协同发音的影响,常采用声韵母建模。
基于统计的语音识别模型常用的就是HMM模型λ(N,M,π,A,B),涉及到HMM模型的相关理论包括模型的结构选取、模型的初始化、模型参数的重估以及相应的识别算法等。
下面对一些重点中国专利申请进行介绍:
1.专利申请CN1331467A公开了一种产生声学模型的方法和装置,它能够将语音识别阶段存在的多个噪声样本分类为多个簇以从每簇中选择噪声样本,并且能够将选定的噪声样本作为训练用噪声样本叠加在训练用语音样本上以根据叠加噪声的语音样本训练未经训练的声学模型,从而生成声学模型。
具体包括:用于采集M个噪声样本的装置,用于提取时间平均矢量的装置,依据所述时间平均矢量对所述M个噪声样本进行分类以获得N个第一簇噪声样本并从每个第一簇中抽取一个噪声样本作为训练用的噪声样本的装置,存储训练用的未经训练的声学模型的装置,以及利用抽取的训练用噪声样本来训练未经训练的声学模型从而生成语音识别用的声学模型的装置。该申请将多个对应多种噪声环境的第一噪声样本分类为从而在每个簇中选择噪声样本,由此根据每个选定的噪声样本训练未经训练的声学模型,生成语音识别用的训练过的声学模型,所以可以利用少量的噪声样本训练未经训练的声学模型并广泛覆盖多种无偏差的噪声,从而可以生成能够在任何未知环境下获得高识别率的经过训练的语音识别用的声学模型。
2.专利申请CN1531722A公开了一种使用内置式扬声器的语音识别系统
,其包括:语者无关声学模型,语者特定声学模型,语音识别引擎,用于进行非监督式语音识别训练和测试,所述语音识别引擎将输入语音与所述语者无关声学模型的内容进行模式匹配以产生语者无关的模式匹配评价,将所述语者无关的模式匹配评价和与存储在所述语者特定声学模型中的模板相关的评价作比较,并且当所述语者无关的模式匹配评价好于与存储在所述语者特定声学模型中的模板相关的评价时,更新在所述语者特定声学模型中的至少一个模板。该系统采用独立于扬声器(SI)和依赖于扬声器(SD)的声学模型的组合。至少一个SI声学模型用于和至少一个SD声学模型的组合,以提供至少能相同与纯SI声学模型的语音识别性能的水平。所揭示的SI/SD VR系统可继续使用无人指导的训练,来更新一个和多个SD声学模型中的声学模板。混合的VR系统随后使用与至少一个SI声学模型组合中所更新的SD声学模型,提供在VR测试过程中改良的VR性能。
3.专利申请CN1591570A公开了一种用于紧凑声学建模的泡分裂法,
该方法包括:根据至少一种语音相关标准(即声道长度)划分来自多个训练说话人的语音数据;将划分好的来自于具有相似语音特征的训练说话人的语音数据组合在一起;使用每个组合中的语音数据为该组合训练一个声学泡模型。该方法用于超大词汇表连续语音识别系统,为整个数据库建模提供了一种更为准确的紧凑声学模型。
(三)语言模型与语言处理
语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型,语言处理可以进行语法、语义分析。
语言模型对中、大词汇量的语音识别系统特别重要。当分类发生错误时可以根据语言学模型、语法结构、语义学进行判断纠正,特别是一些同音字则必须通过上下文结构才能确定词义。语言学理论包括语义结构、语法规则、语言的数学描述模型等有关方面。目前比较成功的语言模型通常是采用统计语法的语言模型与基于规则语法结构命令语言模型。语法结构可以限定不同词之间的相互连接关系,减少了识别系统的搜索空间,这有利于提高系统的识别。
下面对一些重点中国专利申请进行介绍:
1.专利申请CN1295705A公开了一种基于语言模型的信息检索和语音识别方法
,该语音识别系统可以访问第一类数据存储器和第二类数据存储器,其中第二类数据存储器比第一类数据存储器的数据量要大,该方法包括依据在第一类数据存储器中所包含的信息将信息检索查询公式化,依据该被公式化的查询,对第二类数据存储器执行查询,依据该查询从第二类数据存储器中检索信息;以及,依据被检索到的信息和第一类数据存储器中的信息,对该语言模型进行适配。该专利申请提供了一种更为精确地概率估算值的用户实际语言,为用户生成了具体的语言模型。
2.专利申请CN1351744A公开了一种具有互补语言模型的识别引擎。
它包括输入装置,用于接收表示口语单词序列的时序的输入模式。该系统进一步包括多个大词汇量的语音识别器,每个识别器与对应的不同大词汇量识别模型相关联。每个识别模型以巨大词汇量的一个特定部分为目标。所述系统包括控制器,该控制器用于将输入模式导入多个语音识别器中,并用于从多个语音识别器识别的单词序列中选择被识别的单词序列。该申请可通过分离的识别服务器进行识别。在因特网语境中,这种服务器可以是网络上的分散站,或该服务器与诸如搜索引擎或类似于电子书店等服务提供者的现有网站结合。具体地,为许多用户操作的识别服务器需要能够支持适合于大部分用户的词汇表。若干特定大词汇量模型的使用使该系统能更好地、高识别精度地执行该任务。
四.总结
语音识别技术已进入快速发展期,新技术不断涌现,全球专利申请量持续快速增长。我国相比国外起步晚,虽近几年专利增长迅速,与美国、日本的专利数量差距在缩小,但仍存在核心技术掌握不足,企业总体技术实力薄弱,国际专利数量偏少等系列问题。国内企业应充分利用国外技术尚未大量进入中国市场这一有利条件,抓紧进行新技术研发,加快国内外市场的专利布局,力争赢得先机。