回答思路
LSTM指的是长短期记忆神经网络,主要常见于深度学习领域中时间序列数据的处理和预测当中,应用领域包括语音识别、机器翻译等等。
传统的同类型工具rnn在长序列场景处理时会出现梯度消失或梯度爆炸的弊端,而LSTM通过包含遗忘门、输入门、输出门的cell状态解决了这个问题。
(1)遗忘门:
LSTM的结构是具有重复模块的链式状态,而每一个重复模块都包含多个神经网络层处理,使得时序场景中的长期信息得到最好的保持。
遗忘门是一个sigmoid层,决定了上一时刻的单元状态
有多少保留到当前时刻
,计算公式: 
是遗忘门的权重矩阵,
是遗忘门的偏置项,σ是sigmoid函数,
是上一时刻LSTM的输出值,
是当前时刻网络的输入值。
2)输入门:
决定当前时刻存储什么新信息,包含了一个sigmoid网络层和一个tanh网络层。
首先tanh层创建一个状态向量
,然后sigmoid层为
中的每个值输出为一个介于0和1的结果,来决定更新哪些状态值,以及更新程度。
更新状态
(3)输出门:
输出值取决于当前状态,输出门有sigmoid和tanh两层处理,sigmoid层用来确定状态的哪部分需要输出,这部分和通过tanh层处理后的状态相乘得到最后想要输出的信息。