RNN
字数: 0
🧙‍♀️
「词嵌入」将词汇转换为密集向量,捕捉语义信息,但如何处理句子、段落呢?
Recurrent Neural Networks,循环神经网络,一种后馈 (Feedback)神经网络,可以保留序列中的上下文信息。
notion image
  • 循环连接:每个隐藏层单元 (Hidden Unit) 不仅接收「当前」时间步的输入,还接收「上一个」时间步的隐藏状态,形成一个递归的结构。
  • 共享参数:在所有时间步中,网络参数(如权重矩阵)是共享的。这种特性极大地减少了模型的参数数量,并使得网络能够在不同长度的序列中泛化。
  • 记忆能力:理论上能够存储无穷长的序列信息。但由于梯度消失和梯度爆炸问题,在处理长序列时表现不佳。

长短期记忆网络

Long Short-Term Memory, LSTM一种特殊的 RNN,能够有效记住长距离依赖。
notion image
它引入了专门的 “门” 机制:
  • 输入:当前输入 和上一个时间步的隐藏状态
  • 输出:一个介于 0 和 1 之间的向量,表示每个信息是否保留或丢弃。
    • 1 表示完全保留,0 表示完全丢弃。

遗忘门

Forget Gate,决定需要从细胞状态 (Cell State)中「丢弃」哪些信息。

输入门

Input Gate,决定需要向细胞状态中「添加 / 存储」哪些新的信息。

输出门

Output Gate,决定下一个隐藏状态。
2023 - 2026