Natural Language Processing,使用计算方法来理解和生成人类语言的技术。

词嵌入
Word Representation
Bag of Words
将文本表示为一个无序的词向量,忽略词序和语法,仅关注「词频」。
两种常见的词信息表示:
- 指标 (Indicator):用 0 或 1 表示一个单词是否出现在文档中。
- 词频 (Term Frequency, TF):用一个整数表示单词在文档中出现的次数。

Word2Vec
GloVe
Global Vectors for Word Representation
基于全局统计信息,结合局部上下文信息,生成高质量的词向量。

- 输入(Word Co-occurrence Matrix):词共现矩阵。
- 输出:词向量。
ELMo
Global Vectors for Word Representation
基于上下文感知,通过双向语言模型 (BiLM) 生成动态词向量。


