自动化监控应优先用Shell处理基础指标检查,复杂逻辑用Python;Shell轻量高效,Python结构化强、易扩展;需注重稳定性、可读性、日志记录与自身监控。

用 Python 或 Shell 写自动化监控脚本,核心不是语法多炫酷,而是稳定、可读、易维护、能快速定位问题。实际运维中,90% 的监控需求靠几行 Shell 就能解决;复杂逻辑(如聚合分析、告警分级、对接 Webhook)再交给 Python。
Shell 脚本:轻量级服务与资源监控
适合每分钟检查一次 CPU、内存、磁盘、端口、进程状态等基础指标。
- 用
top -bn1或free -m提取数值,配合awk和if判断阈值,超限就发邮件或写日志 - 检查 Nginx 是否存活:
curl -s --head http://127.0.0.1 | grep "200 OK" > /dev/null || systemctl restart nginx - 避免死循环占用资源:脚本末尾加
sleep 60,用crontab -e替代后台常驻(更安全可控)
Python 脚本:结构化采集 + 智能告警
当需要统一采集多个服务器、做趋势判断、或对接企业微信/钉钉时,Python 更合适。
- 用
psutil库跨平台获取 CPU、内存、磁盘使用率,比解析df或top输出更可靠 - 用
requests调用 Prometheus API 或自建 HTTP 接口上报数据,避免本地文件堆积 - 告警去重很关键:同一台机器连续 3 次触发“磁盘超 90%”,只发一次通知,用时间戳+主机名生成唯一 key 缓存最近告警
批量部署与执行:别手动传脚本
几十台服务器挨个 scp 和 chmod 是反模式。
立即学习“Python免费学习笔记(深入)”;
- 用
ansible批量分发 Shell 脚本并设置定时任务:ansible all -m cron -a "name='disk-check' job='/opt/mon/check_disk.sh' minute='*/5'" - Python 脚本建议打包成
pip install可安装包,或用pyinstaller编译为单文件,免环境依赖 - 所有脚本开头加
#!/usr/bin/env bash或#!/usr/bin/env python3,确保解释器路径兼容不同发行版
日志与调试:监控脚本自己也要被监控
脚本挂了没人知道,比被监控服务宕机更危险。
- 每轮执行记录开始/结束时间、退出码、关键判断结果到
/var/log/monitor/下按天分割的日志文件 - 用
set -e(Shell)或try/except(Python)捕获异常,失败时主动发一条“监控自身异常”通知 - 加一个
--dry-run参数:只打印将要执行的操作,不真实调用重启或发送告警,上线前必测
不复杂但容易忽略。脚本写完,先在一台测试机跑 24 小时看日志和行为,再推集群。真正的自动化,是让故障还没发生,你就已经收到提醒。










