Go日志分析工具用bufio.Scanner逐行读取大文件,正则解析Nginx日志字段,map统计状态码、路径、IP及QPS,支持命令行对齐输出与CSV导出。

用 Go 语言写一个轻量级日志分析工具,核心是:按行读取日志文件、解析每条日志(如时间、状态码、路径)、用 map 或结构体做统计,最后输出结果。不需要依赖复杂框架,标准库 bufio、strings、regexp 和 fmt 就够用了。
逐行读取大日志文件不卡顿
日志文件可能几百 MB,不能一次性加载进内存。用 bufio.Scanner 是最稳妥的方式,它默认缓冲 64KB,支持超长行(可调 Scanner.Buffer),也比 bufio.Reader.ReadLine 更简洁。
- 设置最大扫描长度,避免因某行过长导致 panic:
scanner := bufio.NewScanner(file)
buf := make([]byte, 1024*1024) // 1MB 缓冲
scanner.Buffer(buf, 1024*1024) - 跳过空行和注释行(如以 # 开头)可加简单判断:
line := strings.TrimSpace(scanner.Text())
if line == "" || strings.HasPrefix(line, "#") { continue }
解析常见日志格式(如 Nginx access.log)
典型 Nginx 日志形如:
192.168.1.1 - - [10/Jan/2024:14:23:05 +0800] "GET /api/users HTTP/1.1" 200 1243 "https://example.com" "Mozilla/..."
推荐用正则提取关键字段,比字符串切分更健壮。
- 定义正则(支持 IPv4/IPv6、带时区的时间、请求行、状态码等):
pattern := `^(\S+) \S+ \S+ \[([^\]]+)\] "(\w+) ([^"]+)" (\d{3}) (\d+|-)` - 用
regexp.MustCompile编译一次,循环中反复FindStringSubmatch提取子组,分别获取 IP、时间、方法、路径、状态码、字节数 - 若日志是 JSON 格式(如 Logrus 输出),直接用
json.Unmarshal解析到结构体,更清晰
统计维度与数据结构设计
统计目标决定怎么存数据。常用维度包括:HTTP 状态码分布、请求路径 TOP10、IP 访问频次、每秒请求数(QPS)趋势(需解析时间戳)。
立即学习“go语言免费学习笔记(深入)”;
- 状态码计数:
statusCount := make(map[string]int)
statusCount["200"]++ - 路径频次(限制只统计前缀,避免 /user/123 /user/456 被当成不同路径):
path := strings.SplitN(fields[3], "?", 2)[0] // 去掉 query 参数
pathCount[path]++ - 按分钟聚合 QPS(将时间字符串转为
time.Time,再用t.Truncate(time.Minute)归一化):
minuteKey := t.Truncate(time.Minute).Format("2006-01-02 15:04")
qpsPerMinute[minuteKey]++
输出结果:命令行友好 + 可选导出 CSV
终端输出建议按列对齐(用 fmt.Printf 控制宽度),关键指标加粗或高亮;导出 CSV 时注意转义逗号和换行符。
- 打印 TOP10 路径示例:
fmt.Printf("%-8s %-12s %s\n", "COUNT", "STATUS", "PATH")
fmt.Println(strings.Repeat("-", 50))
for _, p := range topPaths {
fmt.Printf("%-8d %-12s %s\n", p.Count, p.Status, p.Path)
} - 导出 CSV:用
encoding/csv包写入,自动处理引号和转义,比手动拼接安全 - 支持 flag 控制输出格式:
var exportCSV = flag.String("csv", "", "export to CSV file path")










