Linux Shell自动化脚本的核心是逻辑清晰、容错可靠、结果可查:先明确任务边界(对谁→做什么→什么情况下停),用函数封装动作,批量执行需带错误处理与状态反馈,并通过配置化实现复用。

Linux Shell 自动化脚本不是写一堆命令凑数,核心是让重复、耗时、易错的任务“一次写好,反复执行,稳稳不出错”。关键不在语法多炫,而在逻辑清晰、容错可靠、结果可查。
明确任务边界:先想清楚“批量”到底批什么
别急着敲代码。先列清楚要批量处理的对象和动作:
- 对象:是一组日志文件(/var/log/app/*.log),还是多个远程服务器(host01, host02, db-prod),或是数据库里的几百条记录?
- 动作:是压缩归档、内容替换、服务重启、数据导出,还是组合操作(比如“先备份再更新再验证”)?
- 约束条件:是否需要按顺序执行?失败时跳过还是中断?有没有时间窗口(比如只能在凌晨2点运行)?
边界不清,脚本越写越乱。建议用纯文本草稿写三行:对谁 → 做什么 → 什么情况下停。
用函数封装动作,别堆 shell 命令流
把每个独立动作写成函数,比如 backup_log()、restart_service()、send_alert()。好处明显:
- 调试时可单独调用测试,不用跑完整流程;
- 加日志、加超时、加重试都只改一个地方;
- 主逻辑变成“调用函数A→检查返回值→调用函数B”,一目了然。
示例片段:
# 不推荐:一行接一行的命令流gzip /var/log/app/*.log
systemctl restart nginx
echo "done" > /tmp/deploy.log
→ 改成:
gzip "$1" 2>/dev/null || { echo "FAIL: gzip $1"; return 1; }
}
restart_nginx() {
systemctl restart nginx && sleep 2
systemctl is-active --quiet nginx || { echo "FAIL: nginx not running"; return 1; }
}
批量执行必须带错误处理和状态反馈
Shell 脚本默认遇到错误不中断(除非加 set -e),但光靠它不够。真实批量场景中,你要知道:
- 哪台机器执行失败了?
- 是网络超时、权限不足,还是命令本身报错?
- 失败后要不要继续下一台?要不要发邮件告警?
实用做法:
- 每条关键命令后用 || 捕获失败,并记录到统一日志(如 /var/log/batch-run-20241025.log);
- 用 $? 判断上条命令退出码,非0就记错误+跳过后续步骤或终止;
- 最后汇总成功/失败数量,输出类似:✅ 成功:12台 ❌ 失败:2台(host07, db03)。
让脚本可配置、可复用,别写死路径和参数
把可能变的部分抽出来,放在开头或单独配置文件里:
- 目标主机列表:用 HOSTS=(host01 host02 host03) 或读取 hosts.txt;
- 路径和阈值:定义 LOG_DIR="/var/log/app"、MAX_AGE_DAYS=7;
- 开关控制:比如 DRY_RUN=true 时只打印将要执行的命令,不真执行。
这样同一份脚本,改几行配置就能用于测试环境、预发环境、生产环境,而不是复制粘贴改一堆路径。










