我们探讨LSTM-RNN和它的一些变形。比如高速(highway-)LSTM和残差(Residual-)LSTM被用来解决层数非常多的LSTM还是很难训练的问题;二维LSTM(time-frequency LSTM和Grid LSTM)被用来对时间-频率的二维语音频谱进行建模,并在微软和Google的大规模任务上得到有效性的验证;延时可控的双向LSTM同时享有双向处理带来的比单向LSTM高的正确率和可控延时带来的比双向LSTM低的延时。
作为另一种主流深层模型,CNN在声学模型上的应用源于近些年来CNN在图像处理上压倒性的成功。最初应用于声学模型的CNN只有一层或者两层,用于特征的提取,在此之上再加上LSTM和标准的前向网络,代表的例子是CNN-LSTM-DNN (CLDNN)。由于最近极其深的CNN(诸如VGGnet和Resnet)在图像识别上的成功,这些模型也被引入到声学模型,IBM和微软的学者还在此之上提出了一系列其他变形。这些CNN模型在SwitchBoard这个标准语音识别任务上不断刷新最低错误率的记录。我们将深入分析这些CNN网络的特点。
类似于在机器学习领域的发展,研究人员也开始在声学模型乃至于整个语音识别模型中使用端到端的技术。声学模型端到端直接作用在语音波形上,通过深层网络来进行特征提取和声学模型的联合建模。随着基于深度学习的语音技术的发展,研究也渐渐地从近场的单通道语音识别转向更难的远场的多通道语音识别。
虽然主流的方法仍然是首先进行麦克风阵列处理来生成单路语音信号然后进行声学模型的建模,研究人员也开始尝试着用神经网络对多路语音信号进行处理,然后和特征提取以及声学模型进行联合建模,整个网络在同样一个准则下进行优化。
我们讨论了这个领域的代表性工作,比如最近成功应用在Google Home上的多通道声学模型优化。语音识别模型端到端(包含声学模型和语言模型)联合建模可以尽量减少对专家知识的依赖。代表性的工作有Connectionist temporal classification (CTC)和Attention模型。CTC模型可以将语音序列直接映射到词或者字符,省去对发音字典的依赖。通过直接选取最大概率的单元,CTC甚至可以省去对解码器的依赖。然而,CTC算法有一个非常强的帧间独立假设,是很多研究者不喜欢的。与之形成对比的Attention模型不需要这个假设。但是Attention模型需要很多技巧来得到最优的效果。本文讨论了CTC和Attention模型的优缺点、合作建模方式、以及对这两种技术未来的展望。
声学模型的鲁棒性一直是一个研究热点,其中研究最多的是模型自适应特别是说话人自适应方法。现在的前沿是使用非常少的说话人数据进行无监督自适应。由于只有少量的说话人数据,所以自适应模型不能偏离说话人无关模型太多。可以将这个约束放入训练准则,最具代表性的方法是用说话人模型与说话人无关模型的输出来限制自适应训练的方向。更多的研究着重于如何用少量的参数来对说话人建模,本文也主要探讨这个方向。流行的方法是使用低秩矩阵或者矢量等子空间来表征说话人。这些方法包括基于奇异值分解矩阵自适应、隐层单元调整、说话人子空间、聚类自适应调整和隐层分解等方法。
本文接着探讨一个比较难的课题:多说话人分离问题。由于对称性的原因,多说话人的分离存在着目标说话人标注歧义的问题。深层聚类网络、深层吸引点网络和置换无关训练是三种迄今最成功的技术,我们将讨论三种方法的优缺点。其中特别要提出的是,置换无关训练最近与分类准则结合,从而直接优化多说话人的语音识别正确率。
深度学习方法依赖于大量的比如上千小时语音的标注数据,但是当应用到新的领域时,一般我们是不可能很快收集到如此大量的新数据。我们探讨如何在这样一个场景下不依赖大量的标注新数据来训练出高品质的声学模型。除了传统的自适应算法,新兴的算法有对抗训练和师生训练方法。我们会探讨这两类方法的优缺点以及各自适合的应用场景。
最后,对于工业界来说,如何能够有效的上线大量参数的深层网络是一个重要的话题。我们介绍一些最近的减小深层网络运算量的方法。最流行的方法是使用低秩网络。其次,可以通过师生训练的方法使得小网络可以模拟大网络的分类能力。量化参数是一个重要的减少运算量的手段,而将量化过程反映到训练中会使得压缩更有效。另外,改变网络结构和利用语音帧间相关性也可以减少运算量。