Linux服务健康检查怎么做_自动检测方案说明【技巧】-linux运维-PHP中文网

Linux服务健康检查怎么做_自动检测方案说明【技巧】

冰川箭仙

发布： 2025-12-20 21:13:02

原创

196人浏览过

Linux服务健康检查需三重校验：进程状态（systemctl）、端口监听（ss/netstat）、接口响应（curl）；监控CPU负载、内存available、磁盘使用率及inode、S.M.A.R.T.状态；日志按时间范围扫描error/fail/timeout；脚本化实现阈值判断与自动恢复。

linux服务健康检查怎么做_自动检测方案说明【技巧】

Linux服务健康检查不是只看“有没有在跑”，而是要确认它是否真正可用、响应及时、资源充足、日志干净。自动检测的关键在于“可量化、可触发、可恢复”——指标得有阈值，异常得能发现，问题得能自愈。

最直接的判断方式是验证进程是否存在、端口是否监听、服务能否响应请求。

用 systemctl is-active servicename 判断服务当前状态（active/inactive/failed）
用 ss -tuln | grep :端口号 或 netstat -tuln | grep :端口号 确认端口是否被正确监听
对 Web 类服务，加一层 HTTP 探活：curl -s -o /dev/null -w "%{http_code}" http://localhost:8080/health，返回 200 才算真健康
避免仅依赖 ps 查进程名，因为僵尸进程或假 PID 可能干扰判断；建议结合 systemctl + 端口 + 接口三重校验

CPU、内存、磁盘、负载这些底层指标一旦越界，服务大概率会降级甚至崩溃。

Content at Scale

SEO长内容自动化创作平台

154

CPU 负载：用 uptime 或 cat /proc/loadavg 获取 1/5/15 分钟平均负载，对比 CPU 核心数（如 4 核服务器，load > 8 就需关注）
内存：free -m 看可用内存，重点留意 available 字段（非 free），swap 使用超过 10% 就该预警
磁盘：df -h | awk '$5 > 90 {print $1,$5}' 找出使用率超 90% 的分区；同时用 df -i 检查 inode 是否耗尽（常见于日志暴增场景）
关键路径磁盘健康：运行 sudo smartctl -H /dev/sda 查 S.M.A.R.T. 状态，预防硬件级故障

很多服务“活着”，但日志里已反复报错——这是最隐蔽的亚健康状态。

用 journalctl -u nginx --since "1 hour ago" | grep -i "error\|fail\|timeout" 快速扫描近期错误
对长期运行的服务，定期检查错误频率：journalctl -u mysql --since "24 hours ago" | grep "ERROR" | wc -l，单日超 50 条就触发告警
匹配典型失败线索，例如 SSH 暴力破解：grep "Failed password" /var/log/auth.log | tail -20；磁盘满提示：grep "No space left" /var/log/syslog
避免全量扫描大日志，用 --since 限定时间范围 + tail -n 1000 截取最新片段提升效率

手动检查不可持续，必须靠脚本固化逻辑，并通过 cron 和恢复动作形成闭环。

写一个 shell 脚本，依次执行上述检查项，每项设明确阈值（如磁盘 >90%、HTTP 响应超时 >3s、连续 3 次 curl 失败）
检测失败时，不只发邮件，还要执行动作：比如 systemctl restart nginx、清理临时文件 rm -f /tmp/*.log、或压缩旧日志 logrotate -f /etc/logrotate.d/nginx
用 crontab -e 添加定时任务，例如每 5 分钟运行一次：*/5 * * * * /opt/scripts/health_check.sh >> /var/log/health.log 2>&1
脚本开头加 set -e，确保任一命令失败即终止，避免误判掩盖问题

以上就是Linux服务健康检查怎么做_自动检测方案说明【技巧】的详细内容，更多请关注php中文网其它相关文章！