Transformer | Rye Land

基本架构

编码器

将输入 (Input Embedding) 转换为一系列上下文相关的表示。

解码器

根据编码器的输出和已生成的部分序列，逐步生成目标序列。

🎩

编解码器中都含有以下组件

位置编码

Positional Encoding

给每个词的嵌入向量添加位置信息，使得模型能处理序列顺序。

多头注意力机制

Multi-head Attention

计算输入词之间的相关性，并根据这个相关性对输入进行加权。

前馈神经网络

Feed-forward Neural Network

对每个位置的表示进行非线性转换，增加模型的表达能力。

残差连接和层归一化

Residual Connections & Layer Normalization

每个子层（如注意力层和前馈神经网络层）都有残差连接，并通过层归一化来稳定训练过程。

应用模型

BERT

🧙‍♀️

Bidirectional Encoder Representations

Encoder-only 架构，双向注意力机制，能够同时关注左侧和右侧的上下文。

专注于「文本理解任务」，适合问答、情感分析等需要深度语义理解的任务。

预训练任务

掩蔽语言模型 (Masked Language Modeling / MLM)：随机遮掩部分词语，模型通过上下文预测这些被遮掩的词语。

下一个句子预测 (Next Sentence Prediction / NSP)：判断两个句子是否是连续的，帮助模型理解句子之间的关系。

微调

GPT

🧙‍♀️

Generative Pre-Training

Decoder-only 架构，单向注意力机制，只关注前文。

擅长「顺序生成任务」，比如文本生成、对话生成等。

历史发展

GPT-1

结合了无监督预训练和有监督微调。

GPT-2

与 GPT-1 类似，但参数规模更大，并在更大的数据集上训练。

引入了多任务处理的概率形式，根据输入和任务信息预测输出。

使用语言文本格式化输入和输出，实现了统一的任务解决能力。

GPT-3

NLP 和 AI 领域的一个重要里程碑，通过大规模参数和上下文学习能力。

预训练任务

因果语言建模 (Causal Language Modeling / CLM)：给定前文预测下一个词，模型只能基于左侧的上下文进行预测。

微调

T5

🧙‍♀️

Text-to-Text Transfer Transformer

Encoder-Decoder 架构。

既能用于生成，也能用于理解任务，即适合多任务。

预训练任务

填空任务 (Span Corruption)：随机遮掩一段文本，模型需要恢复这段文本。