NLP
字数: 0
🧙‍♀️
Natural Language Processing,使用计算方法来理解和生成人类语言的技术。
notion image

词嵌入

Word Representation

Bag of Words

🎩
将文本表示为一个无序的词向量,忽略词序和语法,仅关注「词频」。
两种常见的词信息表示
  • 指标 (Indicator):用 0 或 1 表示一个单词是否出现在文档中。
  • 词频 (Term Frequency, TF):用一个整数表示单词在文档中出现的次数。
notion image

Word2Vec

将词汇映射到低维稠密向量空间。

CBOW

Continuous Bag of Words
🎩
通过上下文 (One-hot)预测中心词 (Center Word)
  • 计算效率高,适合高频词。
notion image

Skip-Gram

🎩
通过中心词预测上下文词。
  • 适合低频词,能够捕捉丰富的语义关系。
notion image

GloVe

Global Vectors for Word Representation
🎩
基于全局统计信息,结合局部上下文信息,生成高质量的词向量。
notion image
  • 输入(Word Co-occurrence Matrix):词共现矩阵。
  • 输出:词向量。

ELMo

Global Vectors for Word Representation
🎩
基于上下文感知,通过双向语言模型 (BiLM) 生成动态词向量。
notion image
2023 - 2026