通过监控CPU、内存、磁盘、服务和网络状态,及时发现Linux系统异常;2. 编写自动恢复脚本,检测磁盘空间、重启MySQL服务、恢复网络连接并记录日志;3. 使用cron每5分钟执行脚本,实现周期性检查;4. 集成邮件或消息通知,确保管理员掌握恢复情况。

当Linux系统出现异常,如服务崩溃、磁盘满载或网络中断时,手动处理效率低且响应不及时。构建自动恢复机制能显著提升系统稳定性。核心思路是通过监控关键指标,结合自动化脚本实现故障检测与自我修复。
1. 监控关键系统状态
自动恢复的前提是准确识别异常。常用监控项包括:
- CPU使用率过高:持续超过90%可能表示进程失控
- 内存耗尽:可用内存低于100MB时可能触发OOM
- 磁盘空间不足:根分区使用率超90%需预警
- 关键服务停止:如nginx、mysql等进程不存在
- 网络不可达:无法访问网关或外部主机
可使用ps、df、free、systemctl is-active等命令获取状态。
2. 编写自动恢复脚本
以下是一个基础的恢复脚本示例(save_system.sh):
#!/bin/bash LOG="/var/log/recovery.log" echo "$(date): 开始检查系统状态" >> $LOG检查磁盘空间
if [ $(df / | tail -1 | awk '{print $5}' | sed 's/%//') -gt 90 ]; then echo "$(date): 警告:根分区使用超90%" >> $LOG
可选:清理临时文件
find /tmp -type f -mtime +7 -delete fi
检查MySQL服务
if ! systemctl is-active --quiet mysql; then echo "$(date): MySQL服务已停止,尝试重启" >> $LOG systemctl restart mysql sleep 3 if ! systemctl is-active --quiet mysql; then echo "$(date): MySQL重启失败,请人工介入" >> $LOG fi fi
检查网络连通性
if ! ping -c 2 8.8.8.8 &> /dev/null; then echo "$(date): 网络断开,尝试重启网络" >> $LOG systemctl restart network fi
3. 设置定时任务执行
使用cron定期运行脚本:
- 编辑定时任务:crontab -e
- 添加一行:*/5 * * * * /path/to/save_system.sh
这表示每5分钟执行一次检测,可根据实际需求调整频率。
4. 日志记录与通知
在脚本中加入邮件或消息通知,便于及时掌握恢复情况:
# 示例:发送邮件(需配置mailx) echo "系统恢复事件: $(tail -n 5 $LOG)" | mail -s "服务器告警" admin@example.com
基本上就这些。脚本应根据具体环境定制,避免误判和过度操作。测试阶段建议先输出日志而非直接执行动作,确保逻辑正确。稳定后可逐步启用自动修复功能。









