递归下降法适合实现JSON解析器,它将语法规则转化为函数,通过递归调用解析null、boolean、number、string、array、object六种类型,结合std::variant建模、Tokenizer分词和错误处理,可构建清晰易调试的解析器。

想用C++实现一个简单的JSON解析器?递归下降法是个直观又实用的选择。它把JSON的语法规则拆成一组函数,每个函数对应一种语法结构,通过函数间的递归调用来完成解析。这种方式代码清晰、易于调试,特别适合学习和小型项目。
理解JSON的基本结构
JSON支持六种基本类型:null、boolean(true/false)、number、string、array 和 object。解析前先明确这些数据形式:
- null 对应字面量 null
- boolean 只有 true 或 false
- number 是带符号的十进制数,可含小数和指数部分
- string 由双引号包围的字符序列
- array 是中括号内的值列表,逗号分隔
- object 是大括号内的键值对集合,键必须是字符串,值可以是任意类型
我们的目标是读入一段JSON字符串,构建出对应的内存表示。可以用一个变体类型来统一表达所有可能的值。
设计数据模型与词法分析
先定义一个能容纳所有JSON类型的类。C++17起推荐使用 std::variant:
立即学习“C++免费学习笔记(深入)”;
using JsonValue = std::variant<
std::nullptr_t,
bool,
long long,
double,
std::string,
std::vector,
std::map
>;
接下来写一个简单的Tokenizer,把输入字符串切成一个个Token。比如 "{ \"name\": \"Tom\" }" 应切分为 {、字符串"name"、:、字符串"Tom"、}。
实现时维护一个位置索引,跳过空白字符,根据当前字符判断Token类型:
- 遇到 '{' 或 '}' 返回 OBJECT_START / END
- '[' ']' 类似处理
- ':' ',' 直接作为标点返回
- 双引号开头就解析字符串,注意转义符如 \n \" \\
- 字母开头可能是 true/false/null,全匹配后返回对应类型
- 数字则按规则读取整数或浮点数
编写递归下降解析函数
每种语法成分对应一个解析函数。从最外层开始:
JsonValue parseValue(); JsonValue parseString(); JsonValue parseNumber(); JsonValue parseObject(); JsonValue parseArray();
入口函数 parseValue 根据下一个Token决定调用哪个具体函数:
- 当前Token是字符串 → 调用 parseString
- 是 '{' → 调用 parseObject
- 是 '[' → parseArray
- 是 true/false → 返回对应bool
- 是 null → 返回 nullptr
- 是数字 → parseNumber
以 parseObject 为例,流程如下:
- 消耗 '{' Token
- 检查下一个是否为 '}',是则空对象,直接返回
- 否则进入循环:解析字符串作为key,消耗 ':',调用 parseValue 得到value
- 将 key-value 存入 map,遇到 '}' 结束
- 期间要处理逗号分隔,确保格式正确
数组和嵌套结构自然通过递归处理。例如对象中的值如果是另一个对象,parseValue 会再次调用 parseObject,形成递归下降。
错误处理与测试验证
实际运行中可能出现格式错误,比如缺少引号、括号不匹配等。可以在关键步骤添加检查:
- 期望某个Token但没出现 → 抛出异常并提示位置
- 字符串未闭合 → 报错
- 数字格式非法 → 终止解析
写几个测试用例验证功能:
- "true" → 正确解析为布尔真
- "[1, 2, {}]" → 数组包含数字和空对象
- "{\"a\": [1,2], \"b\": null}" → 嵌套结构正确解析
打印结果可用重载的输出操作符,遍历 variant 的每种类型进行展示。
基本上就这些。不复杂但容易忽略细节,比如空白处理、转义字符、浮点数精度等。递归下降法虽然不能处理所有复杂文法,但对于JSON这种简单递归结构非常合适。动手实现一遍,对理解编译原理和数据解析过程帮助很大。











