Transformer
字数: 0

基本架构

notion image

编码器

将输入 (Input Embedding) 转换为一系列上下文相关的表示。

解码器

根据编码器的输出和已生成的部分序列,逐步生成目标序列。
🎩
编解码器中都含有以下组件

位置编码

Positional Encoding
给每个词的嵌入向量添加位置信息,使得模型能处理序列顺序。

多头注意力机制

Multi-head Attention
计算输入词之间的相关性,并根据这个相关性对输入进行加权。
notion image
notion image

前馈神经网络

Feed-forward Neural Network
对每个位置的表示进行非线性转换,增加模型的表达能力。

残差连接和层归一化

Residual Connections & Layer Normalization
每个子层(如注意力层和前馈神经网络层)都有残差连接,并通过层归一化来稳定训练过程。
notion image

应用模型

BERT

🧙‍♀️
Bidirectional Encoder Representations
  • Encoder-only 架构,双向注意力机制,能够同时关注左侧和右侧的上下文。
  • 专注于「文本理解任务」,适合问答、情感分析等需要深度语义理解的任务。

预训练任务

  • 掩蔽语言模型 (Masked Language Modeling / MLM):随机遮掩部分词语,模型通过上下文预测这些被遮掩的词语。
  • 下一个句子预测 (Next Sentence Prediction / NSP):判断两个句子是否是连续的,帮助模型理解句子之间的关系。

微调

notion image
notion image

GPT

🧙‍♀️
Generative Pre-Training
  • Decoder-only 架构,单向注意力机制,只关注前文。
  • 擅长「顺序生成任务」,比如文本生成、对话生成等。

历史发展

GPT-1
  • 结合了无监督预训练和有监督微调。
GPT-2
  • 与 GPT-1 类似,但参数规模更大,并在更大的数据集上训练。
  • 引入了多任务处理的概率形式,根据输入和任务信息预测输出。
  • 使用语言文本格式化输入和输出,实现了统一的任务解决能力。
GPT-3
  • NLP 和 AI 领域的一个重要里程碑,通过大规模参数和上下文学习能力。

预训练任务

  • 因果语言建模 (Causal Language Modeling / CLM):给定前文预测下一个词,模型只能基于左侧的上下文进行预测。
notion image

微调

notion image

T5

🧙‍♀️
Text-to-Text Transfer Transformer
  • Encoder-Decoder 架构。
  • 既能用于生成,也能用于理解任务,即适合多任务。
notion image

预训练任务

  • 填空任务 (Span Corruption):随机遮掩一段文本,模型需要恢复这段文本。
 
2023 - 2026