Linux脚本自动化核心在于稳:异常有兜底、执行有痕迹、变更可回退;需具备状态感知与闭环响应,分层校验、配置分离、结构化日志及唯一run_id追踪。

Linux脚本自动化不是堆命令,而是用可预测、可恢复、可审计的方式让系统“自己管自己”。核心不在多,而在稳——稳在异常有兜底,稳在执行有痕迹,稳在变更可回退。
监控+响应:让脚本真正“主动”起来
单纯定时执行 cron 脚本只是“轮询”,不算真自动化。要提升稳定性,得让脚本具备状态感知和闭环响应能力。比如磁盘空间告警后,不只是发邮件,还要自动清理临时日志(保留最近7天)、压缩归档旧日志、记录操作日志并触发通知。
- 用 df -h / | awk 'NR==2 {print $5}' | sed 's/%//' 获取根分区使用率,配合 if 判断是否超阈值(如90%)
- 清理前先 touch /var/log/cleanup.lock 加锁,避免并发冲突;完成后用 logger "Auto-cleanup triggered at $(date)" 写入系统日志
- 关键操作加 dry-run 模式开关(如传参 --dry-run),默认只打印将执行的动作,确认无误再真实运行
错误处理不能只靠 exit $?
很多脚本用 set -e 就以为万无一失,但网络超时、权限拒绝、进程僵死等场景下,$? 可能为0却实际失败。稳定脚本必须分层校验:
- 命令执行后立刻检查输出是否含预期关键词(如 systemctl is-active nginx | grep -q "active")
- 对关键服务,加二次探活:启动后 sleep 2,再用 curl -f http://localhost:80/health 或 ss -tlnp | grep :80 确认端口真实就绪
- 所有外部调用(curl、ssh、mysql 命令等)必须设超时:timeout 10s curl -f http://api.example.com/health,避免卡死整个流程
配置与代码分离,升级不踩坑
把路径、阈值、邮箱、API 地址等硬编码进脚本,等于埋雷。稳定系统要求每次更新脚本逻辑时,配置不动、行为不变。
- 统一用 /etc/myapp/config.sh 存配置,脚本开头 source 它;该文件 chmod 600,仅 root 可写
- 配置项全部大写加前缀,如 MONITOR_DISK_WARN_PCT=85、NOTIFY_ADMIN_EMAIL="ops@company.local"
- 脚本自身用 version 号(如 # VERSION: 2.3.1),配合 md5sum 记录校验值,部署时自动比对防止覆盖出错
日志与追溯:出问题时你能3分钟定位到哪一行?
没有结构化日志的自动化脚本,等于黑盒。稳定性的前提是可观测性。
- 每段关键逻辑前加 echo "[$(date '+%F %T')] [INFO] Starting backup rotation..." | tee -a /var/log/backup.log
- 捕获 stderr 并重定向到日志:your_command 2>> /var/log/script.err.log,错误日志单独留存,方便 grep 过滤
- 给每个脚本分配唯一 run_id(如 RUN_ID=$(date +%s)_$$),所有日志、临时文件、归档名都带上它,便于关联追踪
基本上就这些。自动化不是替代人,而是把人从重复救火中解放出来,专注设计更健壮的规则。脚本越简单、越透明、越克制,系统反而越稳。










