答案:C++词法分析器通过逐字符读取源码,识别关键字、标识符、数字、运算符等Token。首先定义Token类型和结构体,包含类型、值及位置信息;接着实现字符读取与空白跳过;根据首字符分类处理:字母开头则读取标识符或关键字,数字开头则解析数字串,运算符和分隔符直接匹配;最后封装getNextToken函数循环返回Token,直至文件结束。关键在于状态清晰、位置追踪准确,并通过关键字表区分标识符与保留字,为语法分析提供可靠输入。

词法分析器(Lexer)是编译器的第一步,负责将源代码字符流转换成有意义的“记号”(Token)。在C++中实现一个简单的词法分析器,核心思路是逐个读取字符,识别出关键字、标识符、数字、运算符、分隔符等Token。下面介绍基本实现思路和关键步骤。
1. 定义Token类型
首先要明确程序中可能出现的Token种类,用枚举或常量表示:
enum TokenType {
TOKEN_EOF,
TOKEN_IDENTIFIER,
TOKEN_NUMBER,
TOKEN_PLUS, // +
TOKEN_MINUS, // -
TOKEN_STAR, // *
TOKEN_SLASH, // /
TOKEN_LPAREN, // (
TOKEN_RPAREN, // )
TOKEN_KEYWORD, // 如 if, while
TOKEN_UNKNOWN
};
每个Token除了类型,还应包含其值(如变量名、数字值)和位置信息(行号、列号),可定义一个Token结构体:
struct Token {
TokenType type;
std::string value;
int line, column;
};
2. 读取字符并跳过空白
词法分析器通常维护一个输入流(如字符串或文件流)和当前字符指针。实现一个getChar()函数读取下一个字符,并跳过空格、制表符、换行等空白字符:
立即学习“C++免费学习笔记(深入)”;
- 使用
std::istream或字符数组作为输入源 - 维护当前行号和列号,便于报错定位
- 遇到空白字符时自动跳过,直到有效字符为止
3. 识别不同类型的Token
根据当前字符判断可能的Token类型,使用if-else或switch分支处理:
- 如果是字母开头:可能是标识符或关键字。读取连续的字母数字下划线,然后查关键字表
- 如果是数字:读取整个数字串(支持整数即可),生成TOKEN_NUMBER
- 如果是运算符(+、-、*、/):直接返回对应Token
- 遇到括号、分号等分隔符:直接返回对应类型
- 未知字符:标记为TOKEN_UNKNOWN,便于后续报错
例如识别标识符和关键字:
if (isalpha(ch)) {
std::string id;
while (isalnum(ch) || ch == '_') {
id += ch;
getChar(); // 读下一个
}
if (id == "if" || id == "while") {
return Token{TOKEN_KEYWORD, id, line, col};
} else {
return Token{TOKEN_IDENTIFIER, id, line, col};
}
}
4. 提供getNextToken接口
封装一个getNextToken()函数,每次调用返回下一个Token,直到文件结束:
- 循环调用该函数可遍历所有Token
- 遇到文件末尾返回TOKEN_EOF
- 可加入简单的错误处理,如非法字符提示
基本上就这些。一个简单词法分析器不需要复杂算法,关键是状态清晰、逻辑完整。通过不断读取字符、分类处理,就能把源码切成Token流,为后续语法分析打下基础。不复杂但容易忽略细节,比如回退字符、位置追踪、关键字匹配等。调试时建议输出每个Token查看结果是否正确。










