Go日志分析工具需流式读取大文件、正则解析结构化字段、边读边多维统计并输出JSON/CSV。用bufio.Scanner逐行读取防内存溢出,regexp预编译提取时间、级别、UID等,map实时聚合指标,支持命令行参数控制格式与时间过滤。

用 Go 语言开发日志分析工具,核心在于高效读取、灵活解析、精准统计。Go 的并发模型、标准库(如 bufio、regexp、time)和轻量结构体非常适合这类文本处理任务,无需依赖外部框架也能写出稳定、可维护的工具。
逐行读取大日志文件,避免内存溢出
日志文件常达 GB 级别,不能用 ioutil.ReadFile 或 os.ReadFile 一次性加载。应使用 bufio.Scanner 按行流式读取,控制内存占用:
- 设置合理的缓冲区大小(如
scanner.Buffer(make([]byte, 0, 64*1024), 1024*1024)),防止超长行 panic - 用
scanner.Scan()循环读取,scanner.Text()获取每行内容 - 遇到 I/O 错误时及时检查
scanner.Err()并返回错误
定义日志结构并提取关键字段
先明确日志格式(如 Nginx access log、自定义 JSON、或时间+级别+消息的文本)。以常见文本日志为例:
[2024-05-20 14:23:18] INFO user login success — uid=1001
立即学习“go语言免费学习笔记(深入)”;
可定义结构体承载解析结果:
type LogEntry struct {
Timestamp time.Time
Level string
Message string
UID int
}
用 regexp.MustCompile 编译正则(如 ^\[(\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2})\] (\w+) (.+)$)提取时间、等级、消息;再对 Message 子匹配 UID。注意:正则预编译、避免在循环中重复 Compile。
实时统计常用指标并支持多维度聚合
边读边统计,不缓存原始日志(除非需二次分析)。常用统计包括:
- 按日志级别计数:
map[string]int{"INFO": 1240, "ERROR": 37} - 按小时分布:
countByHour[entry.Timestamp.Hour()]++ - 错误关键词频次:
strings.Contains(entry.Message, "timeout")后累加 - UID 出现次数(去重或频次):
uidCount[entry.UID]++
若需更高阶聚合(如 Top 10 接口路径),可在解析阶段用正则额外提取 path 字段,再用 map[string]int 统计后排序输出。
输出结构化结果,兼顾可读性与后续处理
终端输出推荐表格化(可用第三方库如 go-tablewriter),但纯标准库也可用 fmt.Printf 对齐;导出为 JSON 或 CSV 更利于集成:
- JSON 输出:用
json.NewEncoder(os.Stdout).Encode(stats),确保结构体字段首字母大写且带json:tag - CSV 输出:用
csv.NewWriter写入,注意转义含逗号/换行的字段 - 支持命令行参数控制输出格式(
-format json)、时间范围过滤(-since "2024-05-20")










