Go程序需通过Docker官方SDK(github.com/docker/docker/client)调用Docker Engine API获取容器状态,初始化时注意DOCKER_HOST和权限;ContainerList默认只返回运行中容器,需All:true;Events()支持实时监听start/die等事件,比轮询更高效。

Go 本身不直接监控 Docker 容器,必须通过调用 Docker Engine 的 HTTP API(或封装库)获取容器状态;直接读取 /proc 或 cgroup 文件不可靠且不跨平台。
用 github.com/docker/docker/api/types + github.com/docker/docker/client 获取实时容器列表
官方 Docker Go SDK 是最稳定的方式。它底层走 Unix socket(Linux)或 TCP(远程 daemon),避免手动构造 HTTP 请求和解析 JSON。
- 初始化 client 时需注意
DOCKER_HOST环境变量或显式传入 socket 路径,本地默认是unix:///var/run/docker.sock - 权限问题最常见:运行 Go 程序的用户必须属于
docker用户组,否则报错permission denied while trying to connect to the Docker daemon socket -
cli.ContainerList()默认只返回运行中容器;如需所有容器(含已退出),要传types.ContainerListOptions{All: true}
package mainimport ( "context" "fmt" "time"
"github.com/docker/docker/api/types" "github.com/docker/docker/client")
func main() { cli, err := client.NewClientWithOpts(client.FromEnv, client.WithAPIVersionNegotiation()) if err != nil { panic(err) }
for { containers, err := cli.ContainerList(context.Background(), types.ContainerListOptions{All: true}) if err != nil { fmt.Printf("list failed: %v\n", err) time.Sleep(5 * time.Second) continue } for _, c := range containers { fmt.Printf("ID: %s, Name: %s, Status: %s\n", c.ID[:12], c.Names[0], c.Status) } time.Sleep(3 * time.Second) }}
立即学习“go语言免费学习笔记(深入)”;
监听容器事件用
cli.Events()而不是轮询轮询
ContainerList()效率低、有延迟;Docker daemon 提供事件流(start、die、health_status: healthy等),适合做实时告警或状态同步。
- 事件流是长连接,需用
context.WithTimeout或手动控制关闭,否则 goroutine 泄漏 - 事件类型字段是字符串,比如
event.Type == "container",但真正关心的是event.Action("start"、"die"、"kill") - 部分事件(如
health_status)需要容器启用健康检查(HEALTHCHECK指令或--health-cmd)才会触发
events, errs := cli.Events(context.Background(), types.EventsOptions{})
go func() {
for {
select {
case event := <-events:
if event.Type == "container" && (event.Action == "start" || event.Action == "die") {
fmt.Printf("[%s] %s %s\n", time.Now().Format("15:04:05"), event.Action, event.ID[:12])
}
case err := <-errs:
fmt.Printf("event error: %v\n", err)
return
}
}
}()解析 ContainerInspect 获取精确状态与资源使用
ContainerList() 返回的状态字段(c.Status)只是摘要,比如 "Up 2 hours";要判断是否真正在运行、健康状态、CPU/内存限制、网络 IP,必须调用 cli.ContainerInspect()。
-
inspect.State.Status是准确值:"running"、"exited"、"paused",比ContainerList的字符串解析可靠 -
inspect.State.Health.Status只在容器定义了健康检查时存在,否则为nil - 资源使用(CPU、内存)不在 inspect 结果里——得调用
cli.ContainerStats()并自己解析流式响应(application/json格式),且需设置stream=false才能单次获取快照
注意:ContainerStats() 返回的是原始 cgroup 数据(如 memory_stats.usage),不是宿主机 free -m 那种视图,单位通常是字节。
不要用 exec “docker ps” 解析输出
调用 exec.Command("docker", "ps") 看似简单,但问题很多:
- 输出格式随 Docker 版本变化(列顺序、字段名),
strings.Fields()或正则极易断裂 - 非英文 locale 下状态文字可能变成中文(如 “退出”),无法通用判断
- 没有错误上下文:如果 daemon 不可用,
cmd.Run()只返回 exit code 1,不如 SDK 报具体 HTTP 错误(如 connection refused) - 性能差:每次都要 fork 新进程,而 SDK 复用 HTTP 连接
真正难的不是“怎么拿到数据”,而是如何稳定维持连接、正确处理断连重试、区分 transient error 和 fatal error——这些 SDK 已帮你做了大半,绕开它反而增加维护成本。










