列表

详情


52. 说说LSTM中的各个门

回答思路

LSTM指的是长短期记忆神经网络,主要常见于深度学习领域中时间序列数据的处理和预测当中,应用领域包括语音识别、机器翻译等等。

传统的同类型工具rnn在长序列场景处理时会出现梯度消失或梯度爆炸的弊端,而LSTM通过包含遗忘门、输入门、输出门的cell状态解决了这个问题。

(1)遗忘门:

LSTM的结构是具有重复模块的链式状态,而每一个重复模块都包含多个神经网络层处理,使得时序场景中的长期信息得到最好的保持。


遗忘门是一个sigmoid层,决定了上一时刻的单元状态  有多少保留到当前时刻,计算公式: 是遗忘门的权重矩阵,是遗忘门的偏置项,σ是sigmoid函数, 是上一时刻LSTM的输出值, 是当前时刻网络的输入值。

2)输入门:

决定当前时刻存储什么新信息,包含了一个sigmoid网络层和一个tanh网络层。


首先tanh层创建一个状态向量 ,然后sigmoid层为中的每个值输出为一个介于0和1的结果,来决定更新哪些状态值,以及更新程度。
更新状态

(3)输出门:

输出值取决于当前状态,输出门有sigmoid和tanh两层处理,sigmoid层用来确定状态的哪部分需要输出,这部分和通过tanh层处理后的状态相乘得到最后想要输出的信息。



上一题