Linux运维自动化核心在于可复用、可追溯、易协作,需坚持声明式描述、安全、幂等、分环境三原则;Ansible适合中小规模,SaltStack适配大规模,均须遵循IaC规范与故障应急机制。

Linux运维自动化不是写几个脚本就完事,关键在可复用、可追溯、易协作的设计逻辑。批量部署和配置管理的核心,是把“人执行的动作”变成“机器理解的声明式描述”,同时守住安全、幂等、分环境这三条底线。
用Ansible做轻量级批量部署:不装Agent,也能稳控百台机器
Ansible适合中小规模场景,SSH直连、YAML写法直观、模块丰富。重点不在“能跑”,而在“怎么组织”。建议按角色拆解playbook:web.yml、db.yml、monitor.yml,每个文件只负责一类服务;变量统一放在group_vars/或host_vars/下,避免硬编码IP或密码;敏感信息用ansible-vault加密,而不是注释掉或写进Git。
- 首次上线前,先用ansible all -m ping -u deploy_user验证连通性和权限
- 部署包用copy模块传文件时,加backup: yes,出错可快速回退
- 服务启动后加wait_for_connection和uri模块做简单健康检查,别只看systemctl是否返回0
用SaltStack管大规模配置:状态驱动+环境隔离是关键
SaltStack适合500+节点以上场景,Master-Minion架构天然支持高并发。真正落地难点不在安装,而在state文件设计。推荐按功能分SLS文件(如nginx.sls、users.sls),再用top.sls按环境(dev/staging/prod)绑定主机和状态;所有路径、端口、用户都定义为Jinja变量,通过pillar动态注入;禁止在state里写shell命令,该用file.managed就不用cmd.run。
- 每次修改pillar数据后,先salt '*' pillar.items确认下发结果,再执行state.highstate
- 用salt-run state.event pretty=True监听实时事件,排查执行卡点
- 给关键state加test=True参数预演,尤其涉及用户删除、服务重启等操作
配置即代码(IaC)落地要点:版本、评审、灰度三步不能少
所有playbook、SLS、模板文件必须进Git仓库,分支策略参考Git Flow:main存生产就绪配置,develop集成功能,feature分支命名带业务标识(如feat-redis-auth)。每次合并前走PR流程,至少一人CR;上线前用ansible-playbook --check或salt '*' state.show_highstate预览变更;生产环境首次应用,先选3台同类机器灰度,确认日志、监控、业务指标无异常再全量。
- 配置文件中禁用绝对路径硬编码,统一用{{ grains['os'] }}或{{ salt['grains.get']('env') }}动态适配
- 定时任务、系统参数等需持久化的内容,用cron.present或sysctl.present等原生模块,而非echo追加到crontab或sysctl.conf
- 每季度清理过期的host_vars、废弃的pillar key,避免“配置腐烂”
故障快速止血:自动化也要留手动出口
再完善的自动化,也要考虑“一键切回人工”的能力。比如Ansible playbook里保留deploy_manual.yml,只做基础环境准备(用户、目录、权限),跳过服务启停;Salt的top.sls里预留manual环境,对应minion_id以-manual结尾;所有部署脚本输出完整日志到/var/log/automate/,带时间戳和执行ID,方便关联ELK排查。










