说说LSTM中的各个门

回答思路

LSTM指的是长短期记忆神经网络，主要常见于深度学习领域中时间序列数据的处理和预测当中，应用领域包括语音识别、机器翻译等等。

传统的同类型工具rnn在长序列场景处理时会出现梯度消失或梯度爆炸的弊端，而LSTM通过包含遗忘门、输入门、输出门的cell状态解决了这个问题。

（1）遗忘门：

LSTM的结构是具有重复模块的链式状态，而每一个重复模块都包含多个神经网络层处理，使得时序场景中的长期信息得到最好的保持。

遗忘门是一个sigmoid层，决定了上一时刻的单元状态

有多少保留到当前时刻

，计算公式：

是遗忘门的权重矩阵，

是遗忘门的偏置项，σ是sigmoid函数，

是上一时刻LSTM的输出值，

是当前时刻网络的输入值。

2）输入门：

决定当前时刻存储什么新信息，包含了一个sigmoid网络层和一个tanh网络层。

首先tanh层创建一个状态向量

，然后sigmoid层为

中的每个值输出为一个介于0和1的结果，来决定更新哪些状态值，以及更新程度。

更新状态

（3）输出门：

输出值取决于当前状态，输出门有sigmoid和tanh两层处理，sigmoid层用来确定状态的哪部分需要输出，这部分和通过tanh层处理后的状态相乘得到最后想要输出的信息。