
本文介绍了一种在 Go 语言中处理包含非 JSON 内容的 JSON 数据流的有效方法。通过读取字节切片、识别并去除分隔符,然后使用 `json.Unmarshal` 进行反序列化,我们可以从不符合标准格式的输入流中提取出有效的 JSON 数据,并进行后续处理。
在实际开发中,我们有时会遇到从其他应用程序接收到的数据流,这些数据流虽然主要包含 JSON 结构,但也会夹杂一些非 JSON 格式的字符串,例如用于分隔 JSON 对象的 "end" 字符串。Go 语言标准库中的 encoding/json 包提供的 json.Decoder 在遇到非 JSON 内容时会报错,导致无法正常解析数据流。本文将介绍一种绕过这个问题的方法,即手动读取数据流,去除非 JSON 内容,然后使用 json.Unmarshal 进行反序列化。
解决方案
该方案的核心思路是:
- 放弃使用 json.Decoder,因为它无法处理非 JSON 内容。
- 从 stdin 读取字节切片。
- 修剪字节切片,去除分隔符(例如 \nend\n)。
- 将修剪后的字节切片传递给 json.Unmarshal 进行反序列化。
代码示例
以下代码展示了如何实现该方案:
package main
import (
"bytes"
"encoding/json"
"fmt"
"os"
)
// MyStruct 定义了 JSON 数据的结构
type MyStruct struct {
Command string `json:"command"`
ID string `json:"id"`
Msg string `json:"msg,omitempty"` //omitempty 表示如果该字段为空,则不序列化
}
func main() {
// 创建一个缓冲区来保存流数据
data := make([]byte, 5000) // 根据实际情况调整缓冲区大小
// 从 stdin 循环读取数据
for {
n, err := os.Stdin.Read(data)
if err != nil {
fmt.Println("读取错误:", err)
return // 或使用 panic(err) 取决于错误处理策略
}
// 查找换行符的位置,用于分割 JSON 对象
index := bytes.Index(data[:n], []byte("\n"))
if index == -1 {
fmt.Println("未找到换行符,可能数据不完整")
continue // 继续下一次循环,等待更多数据
}
// 提取 JSON 数据部分
jsonData := data[:index]
// 创建 MyStruct 实例
var myStruct MyStruct
// 反序列化 JSON 数据
err = json.Unmarshal(jsonData, &myStruct)
if err != nil {
fmt.Println("JSON 反序列化错误:", err)
continue // 继续下一次循环,处理下一个 JSON 对象
}
// 对 myStruct 进行处理
fmt.Printf("解析到的结构体: %+v\n", myStruct)
// 移除已处理的数据和分隔符 "end\n"
remainingData := data[index+1:]
// 检查是否包含 "end\n" 分隔符
endIndex := bytes.Index(remainingData[:n-index-1], []byte("end\n"))
if endIndex == -1 {
fmt.Println("未找到 'end\\n' 分隔符")
continue
}
// 移动剩余数据到缓冲区开头
copy(data, remainingData[endIndex+len("end\n"):])
// 重置缓冲区剩余部分
for i := len(remainingData[endIndex+len("end\n"):]); i < len(data); i++ {
data[i] = 0
}
}
}代码解释:
- MyStruct: 定义了一个结构体,用于存储从 JSON 数据中提取的信息。json:"command" 等标签用于指定 JSON 字段与结构体字段之间的映射关系。omitempty 选项表示如果结构体字段为空,则在序列化时忽略该字段。
- os.Stdin.Read(data): 从标准输入读取数据到 data 缓冲区。
- bytes.Index(data[:n], []byte("\n")): 查找换行符的位置,用于分割 JSON 对象。n 是实际读取到的字节数。
- json.Unmarshal(jsonData, &myStruct): 将 JSON 数据反序列化到 myStruct 结构体中。
- 错误处理: 代码中包含了错误处理,用于处理读取错误和 JSON 反序列化错误。
- 数据清洗: 找到并移除end\n分隔符,并将剩余的数据复制到缓冲区开头,为下一次循环读取数据做准备。
注意事项
- 缓冲区大小: data 缓冲区的大小需要根据实际情况进行调整。如果缓冲区太小,可能会导致数据丢失。
- 错误处理: 在实际应用中,需要更完善的错误处理机制,例如记录错误日志、重试等。
- 性能: 对于高吞吐量的数据流,可以考虑使用更高效的读取和解析方法,例如使用 bufio.Scanner 或第三方 JSON 解析库。
- 分隔符: 代码中的分隔符是 \nend\n,需要根据实际情况进行修改。
- 数据清洗: 在实际应用中,可能需要更复杂的数据清洗逻辑,例如去除空白字符、转义字符等。
总结
本文介绍了一种在 Go 语言中处理包含非 JSON 内容的 JSON 数据流的有效方法。通过手动读取数据流,去除非 JSON 内容,然后使用 json.Unmarshal 进行反序列化,我们可以从不符合标准格式的输入流中提取出有效的 JSON 数据,并进行后续处理。 在实际应用中,需要根据具体情况调整代码,例如调整缓冲区大小、完善错误处理机制、优化性能等。










