MySQL异常报警需覆盖连接状态、复制健康、性能瓶颈、资源水位四类关键指标;小团队可用Shell脚本+crontab轻量兜底,中大型生产环境推荐Prometheus+mysqld_exporter+Alertmanager或开箱即用的PMM。

MySQL异常报警的核心是“及时发现 + 准确定位 + 快速通知”。不依赖单一工具,而是按实际环境选择适配方案:小团队可用脚本快速落地,中大型生产环境推荐 Prometheus 或 PMM 这类可观测性平台。
监控关键指标必须覆盖这四类
无论用哪种方案,以下指标是告警基础,缺一不可:
- 连接状态:Threads_connected(连接数突增/耗尽)、Aborted_connects(异常连接失败)
- 复制健康:Slave_IO_Running / Slave_SQL_Running 是否为 Yes;Seconds_Behind_Master 超过 60 秒需预警;Last_IO_Error / Last_SQL_Error 有内容即触发告警
- 性能瓶颈:Innodb_row_lock_waits(锁等待飙升)、Created_tmp_disk_tables(磁盘临时表过多)、Slow_queries(慢查询数量分钟级增长)
- 资源水位:Innodb_buffer_pool_usage(缓冲池使用率 >95%)、Uptime(实例意外重启)
轻量级:Shell脚本 + crontab 实时兜底
适合测试环境、临时应急或作为主监控的补充。原理简单:每分钟执行一次 SQL 检查,结果异常就发通知。
- 创建专用监控用户:
CREATE USER 'monitor'@'localhost' IDENTIFIED BY 'safe_pass'; GRANT PROCESS, REPLICATION CLIENT ON *.* TO 'monitor'@'localhost'; FLUSH PRIVILEGES; - 写检查脚本(如
/opt/bin/check_mysql.sh),核心逻辑示例:
mysql -u monitor -psafe_pass -e "SHOW SLAVE STATUS\G" 2>/dev/null | grep -E "(Slave_IO_Running|Slave_SQL_Running|Seconds_Behind_Master)" | awk '{print $2}' | head -3 | while read v; do [[ "$v" != "Yes" && "$v" != ~^[0-9]+$ ]] && echo "REPL ERROR" && exit 1; done - 结合企业微信机器人:脚本末尾加
curl -X POST "https://qyapi.weixin.qq.com/...?access_token=xxx" -H "Content-Type: application/json" -d '{"msgtype":"text","text":{"content":"MySQL复制中断!"}}' - 加入定时任务:
* * * * * /opt/bin/check_mysql.sh >/dev/null 2>&1
生产级:Prometheus + mysqld_exporter + Alertmanager
这是目前最稳定、可扩展性最强的方案,支持多实例、历史趋势、多维下钻和分级告警。
-
部署 exporter:下载二进制,用最小权限账号启动(配置文件
mysqld_exporter.cnf中指定 user/password/socket) -
Prometheus 配置抓取:在
prometheus.yml的scrape_configs下添加:
- job_name: 'mysql'
static_configs:
- targets: ['192.168.1.100:9104'] -
定义告警规则(
alert_rules.yml):
groups:
- name: mysql_alerts
rules:
- alert: MySQLReplicationLagHigh
expr: mysql_slave_seconds_behind_master{job="mysql"} > 60
for: 2m
labels:
severity: warning
annotations:
summary: "MySQL 主从延迟超过 60 秒" - Alertmanager 配置通知渠道:支持邮件、Webhook(钉钉/企微)、PagerDuty 等,可设置静默期、分组合并、升级通知
开箱即用型:Percona Monitoring and Management(PMM)
对 DBA 友好,尤其适合 MySQL 专项深度监控,内置 QAN(Query Analytics)、慢日志自动分析、复制延迟可视化图表。
- 服务端用 Docker 启动:
docker run -d -p 80:80 -p 443:443 --name pmm-server --restart always percona/pmm-server:2 - 客户端安装后执行:
pmm-admin add mysql --username=monitor --password=safe_pass --host=127.0.0.1 mydb - 登录 Web 控制台(
http://pmm-server-ip),在 “Alerting” 页面直接启用预置规则,或自定义阈值并绑定 Alertmanager - 优势明显:无需手动写 exporter 配置、不用调 prometheus.yml、QPS/TPS/锁等待等面板开箱即见










