「词嵌入」将词汇转换为密集向量,捕捉语义信息,但如何处理句子、段落呢?
→ Recurrent Neural Networks,循环神经网络,一种后馈 (Feedback)神经网络,可以保留序列中的上下文信息。

- 循环连接:每个隐藏层单元 (Hidden Unit) 不仅接收「当前」时间步的输入,还接收「上一个」时间步的隐藏状态,形成一个递归的结构。
- 共享参数:在所有时间步中,网络参数(如权重矩阵)是共享的。这种特性极大地减少了模型的参数数量,并使得网络能够在不同长度的序列中泛化。
- 记忆能力:理论上能够存储无穷长的序列信息。但由于梯度消失和梯度爆炸问题,在处理长序列时表现不佳。
长短期记忆网络
Long Short-Term Memory, LSTM,一种特殊的 RNN,能够有效记住长距离依赖。

它引入了专门的 “门” 机制:
- 输入:当前输入 和上一个时间步的隐藏状态 。
- 输出:一个介于 0 和 1 之间的向量,表示每个信息是否保留或丢弃。
- 1 表示完全保留,0 表示完全丢弃。
遗忘门
Forget Gate,决定需要从细胞状态 (Cell State)中「丢弃」哪些信息。
输入门
Input Gate,决定需要向细胞状态中「添加 / 存储」哪些新的信息。
输出门
Output Gate,决定下一个隐藏状态。