递归神经网络是神经网络的一种,与其他神经网络不同点在于,它可以很好地处理序列数据,即前面的数据的输入与后面的输出是有关系的,比如一句话的语义理解。本文介绍了递归神经网络及其两个变种——LSTM和GRU,目的是梳理一下自己所理解的RRN,也希望能够给初次接触RRN的同学一点帮助。
其他神经网络的不足——为什么需要RRN?
传统神经网络的结构大多为输入-隐藏层(多个)-输出,即给定一组输入数据,输出结果,隐藏层像一个黑盒子,通过各种运算把输入的数据算成需要的结果。输入不同的数据运行两次,它们的结果是完全无关的。而有的时候我们需要处理一个序列,比如一个句子,它是单词的序列,要理解这句话中各个单词的意思,必须要结合语境,也就是要结合其他的单词的意思,一般情况下要结合这个单词前面的单词。例如前面两个词是我、吃,那么后面的一个词很大概率是一个表示食物的名词。
为了解决一些这样类似的问题,能够更好的处理序列的信息,RNN就诞生了。
RNN的结构
循环神经网络也由输入层、隐藏层和输出层构成,这是神经网络的基本结构,不同的是它的隐藏层(也叫cell)可以连续的接收输入\(x\),输出\(o\),而贯穿其中的\(s\)可以存储这个网络的状态,也就是“记忆”到的前面发生的事情,利用它可以更加精准的预测后面的输出。
一个最简单的RNN结构如图所示,每一个cell输入一个\(x\)和一个\(s\),输出两个同样的\(h\),通过下列算法算出:
$$ \begin{aligned} &s_t = \tanh (Ws_{t-1} + Ux_t) \\&h_t = Vs_t \end{aligned} $$
这种简单的结构虽然可以达到记忆的效果,然而存在着一个致命的问题:梯度爆炸和梯度消失。即在多次循环后,利用梯度下降法调整,在求导的时候会出现\(\frac{\partial Loss}{\partial w_i} = \frac{\partial Loss}{\partial f_t}\frac{\partial f_t}{\partial f_{t-1}}…\frac{\partial f_i}{\partial w_i} \),如果\(\frac{\partial f_t}{\partial f_{t-1}}\)部分大于或小于1,会出现类似1.01的99次方(或0.99的99次方)的问题,使得权重过大或过小,无法使用梯度下降。这一问题的根源就在于\(W\)和\(s\)之间的乘法运算。为了解决这一问题,Hochreiter, Schmidhuber(1997)提出了LSTM。
LSTM
LSTM全称Long Short Time Memory RRN,长短期记忆循环神经网络,它本质上也是一个循环神经网络,只是cell不一样而已,如下图:
LSTM的关键之处在于cell的状态,也就是图中贯穿顶部的那条水平线。Cell的状态像是一条传送带,它贯穿整条链,其中只发生一些小的线性作用。信息流过这条线而不改变是非常容易的。但是,LSTM也有能力移除或增加信息到cell状态中,由被称为门的结构精细控制。门是一种让信息可选地通过的方法。它们由一个sigmoid(\( S(t)={\frac {1}{1+e^{-t}}}\))神经网络层和一个点乘操作组成。这里的sigmoid函数取0-1的值,充当了开关的作用,控制影响的程度。
运行过程
从左往右看这幅图,首先第一步是决定我们需要从cell状态中扔掉什么样的信息。这个决策由一个称为“遗忘门(forget gate)”的sigmoid层决定。输入 \(h_{t-1}\) 和 \(x_t\) ,输出一个0和1之间的数。1代表“完全保留这个值”,而0代表“完全扔掉这个值”。比如对于一个基于上文预测最后一个词的语言模型。cell的状态可能包含当前主题的信息,来预测下一个准确的词。而当我们得到一个新的语言主题的时候,我们会想要遗忘旧的主题的记忆,应用新的语言主题的信息来预测准确的词。
第二步是决定我们需要在cell state里存储什么样的信息。这个问题有两个部分。第一,一个sigmoid层调用“输入门(input gate)”以决定哪些数据是需要更新的。然后,一个\(tanh\)层为新的候选值创建一个向量 \(\tilde{C}_t\) ,这些值能够加入state中。下一步,我们要将这两个部分合并以创建对state的更新。
比如还是语言模型,可以表示为想要把新的语言主题的信息加入到cell state中,以替代我们要遗忘的旧的记忆信息。
在决定需要遗忘和需要加入的记忆之后,就可以更新旧的cell state \(C_{t-1}\) 到新的cell state \(C_t\) 了。在这一步,我们把旧的state \(C_{t-1}\) 与 \(f_t\) 相乘,遗忘我们先前决定遗忘的东西,然后我们加上 \(i_t * \tilde{C}_t\) ,这可以理解为新的记忆信息,当然,这里体现了对状态值的更新度是有限制的,我们可以把 \(i_t\) 当成一个权重。
最后,我们需要决定要输出的东西。这个输出基于我们的cell state,但会是一个过滤后的值。首先,我们运行一个sigmoid层,这个也就是输出门(output gate),以决定cell state中的那个部分是我们将要输出的。然后我们把cell state放进\(tanh\)(将数值压到-1和1之间),最后将它与sigmoid门的输出相乘,这样我们就只输出了我们想要的部分了。
在LSTM中,状态\(S\)通过累加的方式来计算,\(S_t = \sum_{\tau=1}^t \Delta S_{\tau}\),这样就不会是一直复合函数的形式了,它的导数也不是乘积的形式,这样就不会发生梯度消失的情况了。(具体论文:An Empirical Exploration of Recurrent Network Architectures 和 Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling)
GRU
GRU全称Gated Recurrent Unit,循环门单元。和LSTM一样,他也只是个cell的种类,本质上是RNN,由 Cho, et al. (2014)提出。它将LSTM的遗忘门和输入门组合成了一个新的更新门,合并了cell state和hidden state,比LSTM更加简单(尽管稍微难理解一些)。
从左往右看,前两个门是reset gate和update gate,计算方法:
$$ \begin{aligned} &r_t = \sigma (W^rx_t + U^rh_{t-1}) \\&z_t = \sigma (W^zx_t + U^zh_{t-1}) \end{aligned} $$
reset gate控制在计算候选状态时使用多少前序的状态,update gate则表示计算新状态时候选状态和原状态各取多少比例(注意特殊的“1-”门,表示把\(z_t\)当作一个比例)。
总结和比较
RRN是神经网络的一个种类,LSTM和GRU是两种特殊的cell。与最基本的cell结构相比,LSTM和GRU都很好的解决了梯度爆炸和梯度消失的问题。对比LSTM,GRU的参数更少,因而训练稍快或需要更少的数据来泛化。另一方面,如果有足够的数据,LSTM的强大表达能力可能会产生更好的结果。Greff, et al. (2015)对流行的变种做了一个很好的比较,发现它们都是一样的。Jozefowicz, et al.(2015)测试了超过一万中RNN结构,发现某些任务情形下,有些比LSTM工作得更好,但那也是比较特殊的时候。
总的来说,没有通用的最好的模型,只能通过具体的数据和问题来选择模型。如果研究的数据序列会相互影响,比如做词语预测,那么LSTM-RRN和GRU-RRN不失为一种很好的选择。
参考: