基本架构

编码器
将输入 (Input Embedding) 转换为一系列上下文相关的表示。
解码器
根据编码器的输出和已生成的部分序列,逐步生成目标序列。
编解码器中都含有以下组件
位置编码
Positional Encoding
给每个词的嵌入向量添加位置信息,使得模型能处理序列顺序。
多头注意力机制
Multi-head Attention
计算输入词之间的相关性,并根据这个相关性对输入进行加权。


前馈神经网络
Feed-forward Neural Network
对每个位置的表示进行非线性转换,增加模型的表达能力。
残差连接和层归一化
Residual Connections & Layer Normalization
每个子层(如注意力层和前馈神经网络层)都有残差连接,并通过层归一化来稳定训练过程。

应用模型
BERT
GPT
Generative Pre-Training
- Decoder-only 架构,单向注意力机制,只关注前文。
- 擅长「顺序生成任务」,比如文本生成、对话生成等。
历史发展
GPT-1- 结合了无监督预训练和有监督微调。
GPT-2- 与 GPT-1 类似,但参数规模更大,并在更大的数据集上训练。
- 引入了多任务处理的概率形式,根据输入和任务信息预测输出。
- 使用语言文本格式化输入和输出,实现了统一的任务解决能力。
GPT-3- NLP 和 AI 领域的一个重要里程碑,通过大规模参数和上下文学习能力。
预训练任务
- 因果语言建模 (Causal Language Modeling / CLM):给定前文预测下一个词,模型只能基于左侧的上下文进行预测。

微调



