Lexical analysis / Scanning
相关概念
词法单元
Token
文本中的最小有意义的单位。它们是代码或自然语言中的基本构建块,表示不同的语法结构或语义概念。
- 词法单元是编程语言中编译器的输入。词法分析器通常会将源代码分解为一系列词法单元,以便后续的分析。
- 词法单元可以是关键字、操作符符、常量等。
词素
Lexeme
源代码中的实际字符序列,它们对应于一个特定的词法单元。
- 词素是在文本中被词法分析器识别并抽取的部分,它们包含了有关词法单元的全部信息。
- 词素通常不包括任何额外的信息,如数据类型或语义信息。它们只是文本中的原始字符序列,而词法单元则对这些字符序列进行了分类和注释。
对于每个词素,词法分析器产生如下形式的词法单元作为输出:
<token-name, attribute-value>
。