0

0

如何用c++实现一个简单的词法分析器 编译器入门【项目练手】

穿越時空

穿越時空

发布时间:2025-12-24 15:46:02

|

397人浏览过

|

来源于php中文网

原创

C++词法分析器通过逐字符扫描将源码切分为token,支持关键字、标识符、整数、运算符等类型;核心类Lexer含nextToken()方法,按空格跳过、字母/下划线启标识符、数字启整数、单字符匹配运算符等规则生成Token结构。

如何用c++实现一个简单的词法分析器 编译器入门【项目练手】

用 C++ 实现一个简单的词法分析器,核心是把源代码字符串按规则切分成有意义的“记号”(token),比如关键字、标识符、数字、运算符等。不需要完整支持 C/C++ 语法,从识别 int a = 42; 这类基础语句开始最实用。

明确要识别的 token 类型

先定义有限但覆盖常见的 token 种类,例如:

  • 关键字:如 intreturn
  • 标识符:以字母或下划线开头,后跟字母/数字/下划线(如 abc123_x
  • 整数常量:纯数字序列(如 1230),暂不支持负数或十六进制
  • 运算符和分隔符:如 =+;()
  • 空白与换行:跳过,不生成 token

设计 Token 结构和词法器类骨架

每个 token 至少记录类型(枚举)、原始文本(string)、行号(可选)。词法器类通常包含输入字符串、当前位置索引、当前行号:

enum class TokenType {
    IDENTIFIER, INTEGER, INT_KW, RETURN_KW, ASSIGN, PLUS, SEMICOLON,
    LPAREN, RPAREN, EOF_TOKEN
};

struct Token {
    TokenType type;
    std::string lexeme;
    int line;
};

class Lexer {
    std::string input;
    size_t pos = 0;
    int line = 1;
public:
    Lexer(const std::string& src) : input(src) {}
    Token nextToken();
private:
    char peek() const { return (pos < input.size()) ? input[pos] : '\0'; }
    char advance() { return input[pos++]; }
    bool isAtEnd() const { return pos >= input.size(); }
    void skipWhitespace();
    Token scanIdentifierOrKeyword();
    Token scanNumber();
    Token scanOperator();
};

逐字符扫描 + 状态驱动识别

主函数 nextToken() 每次调用返回下一个 token,逻辑清晰:

Lifetoon
Lifetoon

免费的AI漫画创作平台

下载

立即学习C++免费学习笔记(深入)”;

  • 先跳过空格、制表符、换行(更新 line
  • 根据当前字符决定分支:
      – 若是字母或下划线 → 调用 scanIdentifierOrKeyword(),查表判断是否为关键字
      – 若是数字 → 调用 scanNumber(),连续读取直到非数字
      – 若是 =+; 等 → 直接返回对应 token(可扩展支持 == 等双字符运算符)
      – 若是 () → 返回对应 token
      – 否则报错或返回未知 token
  • 到达末尾时返回 EOF_TOKEN

测试与迭代建议

写个简单测试入口,输入字符串,循环调用 nextToken() 并打印结果:

int main() {
    std::string src = "int a = 42; return a;";
    Lexer lexer(src);
    Token tok;
    do {
        tok = lexer.nextToken();
        std::cout << tokenTypeToString(tok.type) << " '" << tok.lexeme << "'\n";
    } while (tok.type != TokenType::EOF_TOKEN);
}

先让 int a = 42; 正确输出 INT_KWIDENTIFIERASSIGNINTEGERSEMICOLON;再逐步加 return、括号、多行支持。遇到错误时打印位置(posline)便于调试。

相关专题

更多
string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

311

2023.08.02

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1427

2023.10.24

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1427

2023.10.24

Go语言中的运算符有哪些
Go语言中的运算符有哪些

Go语言中的运算符有:1、加法运算符;2、减法运算符;3、乘法运算符;4、除法运算符;5、取余运算符;6、比较运算符;7、位运算符;8、按位与运算符;9、按位或运算符;10、按位异或运算符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

221

2024.02.23

php三元运算符用法
php三元运算符用法

本专题整合了php三元运算符相关教程,阅读专题下面的文章了解更多详细内容。

69

2025.10.17

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6021

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

777

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1041

2023.12.21

苹果官网入口直接访问
苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/,该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

10

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.8万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号