健康检查接口需返回含依赖状态的动态JSON,配合goroutine主动探测、信号控制优雅重启,并结合Docker/K8s实现自动恢复,避免重启风暴与状态残留。

健康检查接口是故障检测的基础
微服务要能自动恢复,首先要能准确判断自己是否“生病”。Golang 中最常用的方式是暴露一个 /health HTTP 接口,返回简单 JSON(如 {"status": "ok"}),并在其中嵌入关键依赖的检查逻辑——比如数据库连接、Redis 可用性、核心协程是否存活等。不要只返回固定 OK,否则监控系统无法识别真实异常。
用 goroutine + ticker 主动探测依赖状态
除了被动响应健康接口,服务内部应主动轮询关键依赖。例如:
- 启动时开启一个 goroutine,每 5 秒尝试 ping 一次 MySQL 连接池
- 若连续 3 次失败,将服务状态标记为
unhealthy,并记录日志 - 同时通知外部监控系统(如通过 Prometheus Pushgateway 或 HTTP webhook)
优雅重启需配合信号与上下文控制
检测到故障后,不能直接调用 os.Exit() 粗暴退出,否则正在处理的请求会中断。正确做法是:
- 监听
syscall.SIGUSR2或SIGHUP(用于手动触发重启)和syscall.SIGTERM(K8s 默认终止信号) - 收到信号后,关闭 HTTP server 的 listener,并调用
srv.Shutdown(ctx)等待活跃请求完成 - 使用
exec.Command(os.Args[0], os.Args[1:]...)启动新进程,再退出旧进程(注意传递环境变量和工作目录)
借助外部编排器实现真正自动恢复
单靠服务自身很难做到“完全自动恢复”,尤其在崩溃或卡死时。建议结合运行环境:
立即学习“go语言免费学习笔记(深入)”;
- 在 Docker 中设置
restart: unless-stopped或on-failure - 在 Kubernetes 中配置
livenessProbe(调用 /health)和readinessProbe,失败时自动 kill 并重建 Pod - 搭配
terminationGracePeriodSeconds给足优雅退出时间(建议 30s 起)
避免重启风暴与状态残留
频繁重启可能引发雪崩。上线前需验证:
- 健康检查是否误报(比如临时网络抖动导致反复重启)
- 重启前是否清理了临时文件、锁文件、未关闭的 socket
- 是否使用唯一实例 ID 或分布式锁,防止多个副本同时抢着恢复共享资源










