上图为具有8个输入单元、4个输出单元和2个大小为2的存储单元块的LSTM网络的示例。in1标记输入门,out1标记输出门,cell1 = block1标记块1的第一个存储单元。
由于处理元件的多样性,同时包含反馈连接,LSTM的连接性与多层感知器相比是复杂的。
存储单元块:共享相同输入门和相同输出门的存储单元形成称为“存储单元块”的结构。
存储单元块有助于信息存储,与传统的神经网络一样,在单个小区内对分布式输入进行编码并不容易。尺寸为1的存储单元块仅仅是一个简单的存储单元。
学习:由输入和输出门引起的改变的乘法动力学的实时循环学习(RTRL)的变体被用于确保通过存储器单元的内部状态到达“存储器单元网络”的反向传播的非衰减误差投入“不要及时传播”。
猜测:这种随机方法可以胜过许多术语延迟算法。我们可以确定,之前的工作中使用的许多长时间延迟的任务可以通过简单的随机权重猜测比通过所提出的算法更快地得到解决。
详见1997年S.Hochreiter和J.Schmidhuber撰写的Long-Short Term Memory(http://dl.acm.org/citation.cfm?id=1246450)。
LSTM循环神经网络最有趣的应用是自然语言处理。请参阅下列文章以获得全面的描述。
F. Gers和J. Schmidhuber,LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages(http://dwz.cn/6gGQ8W), 2001年。
F. Gers,Long Short Memory in Recurrent Neural Networks(http://www.felixgers.de/papers/phd.pdf),Ph.D.论文,2001年。
LSTM的限制
LSTM的高效截断版本无法轻易解决类似于“强烈延迟XOR”的问题。
每个存储单元块需要一个输入门和一个输出门。其他循环方法则不需要。
存储单元内部的“Constant Error Carrousels”的恒定误差流量与传统的前馈架构一样产生与整个输入串相同的效果。
LSTM与“regency”的概念与其他前瞻性方法一样有缺陷。如果需要精密计数时间步长,可能需要额外的计数机制。
LSTM优点
桥接长时间延迟的算法能力是架构内存单元中反向传播的不间断误差的结果。LSTM可以近似于噪声问题域、分布式表示和连续值。LSTM概述了应该考虑的问题,这非常重要,因为一些任务对于已经建立的循环网络来说是棘手的。
网络参数在问题域上的微调显然是不必要的。在每个权重和时间步长的更新复杂性方面,LSTM基本上等同于BPTT。LSTM显示出强大的功能,在机器翻译等领域获得了最先进的成果。
门控循环单元神经网络
门控循环神经网络已成功应用于顺序或时间数据。它最适合用于语音识别、自然语言处理和机器翻译,与LSTM一样在长序列问题域表现良好。
在LSTM主题中考虑了门控,同时还包含了门控网络生成信号,该信号用于控制当前输入以及先前的存储器如何用于更新当前激活,从而更新当前的网络状态。
门自身被加权,并且在整个学习阶段根据算法选择性地更新。门控网络以增加的复杂性的形式引入增加的计算消耗,因此增加了参数化。
LSTM RNN架构使用简单RNN的计算作为内部存储器单元(状态)的中间候选。门控循环单元(GRU)RNN将门控信号从LSTM RNN模型中减少到两个。这两个门被称为更新门和复位门。
GRU(和LSTM)RNN中的选通机制是对简单RNN在参数化方面的复制。使用BPTT随机梯度下降来更新对应于这些门的权重,因为它试图使成本函数最小化。
每个参数更新将涉及与整个网络的状态有关的信息。这可能会产生不利影响。
门控的概念进一步被探索,扩展出三种新的变量门控机制。涉及的三个门控变量是GRU1,其中每个门仅使用先前的隐藏状态和偏差来计算;GRU2,其中每个门仅使用先前的隐藏状态计算;以及GRU3,其中每个门仅使用偏置来计算。我们会观察到,GRU3产生最小数量的参数显著降低。
这三个变体和GRU RNN使用来自MNIST数据库的手写数字和IMDB电影评论数据集的数据进行基准测试。
从MNIST数据集生成了两个序列长度,一个是从IMDB数据集生成的。
门的主要驱动信号似乎是(循环)状态,因为它包含有关其他信号的基本信息。
随机梯度下降的使用隐含地携带有关网络状态的信息。这可能解释了在栅极信号中单独使用偏置的相对成功,因为其可自适应更新携带有关网络状态的信息。
门控变体探索出了门控机制,并对拓扑结构进行了有限的评估。
有关更多信息,请参阅:
R.Dey和F.M.Salem于2017年撰写的,门控循环单元(GRU)神经网络的门控变体(https://arxiv.org/ftp/arxiv/papers/1701/1701.05923.pdf)。
J.Chung等人于2014年撰写的,“经验评估门控循环神经网络对序列建模”(https://pdfs.semanticscholar.org/2d9e/3f53fcdb548b0b3c4d4efb197f164fe0c381.pdf)。
神经图灵机
神经图灵机通过将神经网络耦合到外部存储器资源来扩展神经网络的能力,它们可以通过关注过程进行交互。
组合系统类似于图灵机(Vuring Neumann)或冯诺依曼(Von Neumann)结构,但是它是可以实现端对端的,可以通过梯度下降进行有效的训练。
初步结果表明,神经图灵机可以从输入和输出示例中推导出简单的算法,如复制、排序和关联召回。
RNN从其他机器学习方法中脱颖而出,因为它们具备在长时间内学习并进行复杂的数据转换的能力。
扩展标准RNN的能力,以简化算法任务的解决方案,这种丰富性主要是通过一个庞大的可寻址记忆实现的,因此,通过类比图灵的、通过无限的存储磁带丰富有限状态机器,该算法被称为“神经图灵机”(NTM)。
与图灵机不同,NTM是可以通过梯度下降训练的可微分计算机,为学习程序提供了实用的机制。