Go 1.18 内置模糊测试可自动探测 JSON 解析中的非法 Unicode、深度嵌套、超长键名等边界问题;需编写纯函数式解析函数、添加带种子语料的 Fuzz 测试、运行 fuzz 发现崩溃用例并针对性加固。

Go 1.18 引入了内置的模糊测试(fuzzing)支持,非常适合用来探测 JSON 解析逻辑中的边界情况和未预期格式——比如非法 Unicode、嵌套过深、超长键名、空字节、重复字段、非 UTF-8 字节序列等。关键不是“生成随机 JSON”,而是让 fuzz engine 基于你定义的解析入口,自动探索能触发 panic、崩溃或逻辑异常的输入。
1. 编写可 fuzz 的解析函数
确保你的 JSON 解析逻辑是纯函数式、无副作用、能接受 []byte 并明确返回错误(而非 panic)。例如:
func ParseUser(data []byte) (*User, error) {
var u User
if err := json.Unmarshal(data, &u); err != nil {
return nil, err
}
// 额外校验:如邮箱格式、年龄范围等业务规则
if !isValidEmail(u.Email) || u.Age < 0 || u.Age > 150 {
return nil, errors.New("invalid user data")
}
return &u, nil
}
这个函数就是 fuzz 的目标——它接收原始字节,做解析+校验,统一返回 error。
2. 添加 fuzz test 函数
在 xxx_test.go 文件中添加以 Fuzz 开头的函数,并调用 f.Add() 提供几个典型合法/边缘样例(帮助引擎更快收敛):
立即学习“go语言免费学习笔记(深入)”;
func FuzzParseUser(f *testing.F) {
// 提供种子语料(重要!加速发现深层问题)
f.Add([]byte(`{"name":"alice","email":"a@b.c","age":30}`))
f.Add([]byte(`{"name":"","email":"x@y.z","age":0}`))
f.Add([]byte(`{"name":"\u0000evil","email":"t@t.t","age":25}`)) // 含空字节
f.Add([]byte(`{"name":"a","email":"a@b","age":-1}`)) // 无效年龄
f.Fuzz(func(t *testing.T, data []byte) {
_, err := ParseUser(data)
// 如果解析成功但业务校验失败,属于预期行为,不报错
// 只有 panic、crash、或本该失败却成功(漏校验)才需关注
if err == nil {
// 可选:额外检查解析结果是否合理(如 name 不为空字符串?)
// 避免“静默接受非法数据”
}
})
}
3. 运行 fuzz 并分析崩溃用例
终端执行:
go test -fuzz=FuzzParseUser -fuzztime=2m
如果发现 crash,会在 fuzz/corpus/ 下保存触发用例(如 00a7e1... 文件),内容类似:
{"name":"\xff\xfe\xfd","email":"a@b.c","age":42}
这类含非法 UTF-8 序列的输入,json.Unmarshal 默认会返回 error,但如果代码里用了 json.RawMessage 或跳过错误处理,就可能 panic 或产生不可信数据。
4. 针对常见 JSON 模糊风险点做加固
以下情况容易被 fuzz 暴露,建议主动覆盖:
-
深度嵌套对象/数组:默认
json.Decoder限制 10000 层,但可被绕过;用Decoder.DisallowUnknownFields()防未知字段滥用 -
超大数字:JSON 中
9999999999999999999999超出 int64,Unmarshal会转为 float64 导致精度丢失;考虑用json.Number手动解析 -
重复键名:标准 JSON 不允许,但 Go 默认只取最后一个值;加
DisallowUnknownFields()不能防这个,需自定义UnmarshalJSON检测 -
控制字符与 BOM:如
\x00-\x08, \x0b\x0c, \x0e-\x1f,部分解析器会静默截断;可在解析前用bytes.TrimFunc(data, unicode.IsControl)预处理(按需)
不复杂但容易忽略:fuzz 的价值不在“找到一个 bug”,而在于验证你的解析逻辑是否对所有字节组合都保持定义良好的行为——无论输入多怪,都不 panic、不越界、不返回未初始化结构体。










