如何监控MySQL性能指标保障系统稳定 MySQL性能监控实用教程提升运维效率-mysql教程-PHP中文网

mysql性能监控的核心指标包括连接数、innodb缓冲池命中率、慢查询、锁等待和临时表使用情况；选择合适的工具如pmm、pt-query-digest或prometheus+grafana，能有效采集和可视化这些指标；通过分析指标间的关联，可定位如连接泄露、内存不足、锁竞争等性能瓶颈，并采取优化sql、调整配置或改进应用逻辑等措施解决，从而实现从被动响应到主动预防的运维转变。

如何监控MySQL性能指标保障系统稳定 MySQL性能监控实用教程提升运维效率

MySQL性能监控，说白了，就是给你的数据库做个体检。这事儿不光是为了在出问题时能快速定位，更关键的是，它能帮你提前预警，避免那些让人头疼的系统崩溃。在我看来，一套行之有效的监控机制，是保障系统稳定运行、提升运维效率的基石，没有之一。它让你从被动救火变成主动预防，这其中的价值，只有真正经历过线上事故的人才能体会。

解决方案

要有效监控MySQL性能，我们得从几个层面入手：核心指标的采集、合适的监控工具选择，以及最关键的——如何解读这些数据并采取行动。这不仅仅是部署一个工具那么简单，更是一种思维模式的转变。你需要像个侦探一样，从各种看似独立的数字中找出关联，最终揪出那个隐藏的性能杀手。

MySQL性能监控的核心指标有哪些？

聊到MySQL性能监控，很多人第一反应可能是QPS、TPS。没错，这些确实重要，它们是衡量数据库活跃度的最直接指标。但光看这些，远远不够。我个人在日常运维中，更关注一些能揭示内部瓶颈的“深层”指标，它们往往更能反映出潜在的问题。

比如说，连接数（Threads_connected, Max_used_connections）。Threads_connected告诉你当前有多少活跃连接，而Max_used_connections则记录了MySQL启动以来达到过的最大连接数。如果这个值逼近甚至达到了

max_connections

登录后复制

的配置上限，那麻烦可能就大了。这通常意味着应用程序连接池配置不当、连接泄露，或者纯粹是业务量暴增导致数据库连接吃紧。一旦连接数爆掉，你的应用可能就没法连接数据库了，直接导致服务不可用。

再比如，InnoDB缓冲池命中率（Innodb_buffer_pool_read_requests vs Innodb_buffer_pool_reads）。前者是所有逻辑读请求，后者是实际从磁盘读取的次数。用

1 - (Innodb_buffer_pool_reads / Innodb_buffer_pool_read_requests)

登录后复制

就能算出命中率。这个值如果低于95%甚至更低，那说明你的缓冲池太小了，很多数据不得不频繁地从磁盘读取，I/O开销巨大，性能自然好不了。这就像你大脑的缓存不够用，每次思考都得去翻书，效率能高吗？

还有慢查询（Slow_queries, long_query_time）。这个就不用多说了，它是数据库性能杀手排行榜上的常客。

Slow_queries

登录后复制

统计的是执行时间超过

long_query_time

登录后复制

阈值的查询数量。光知道数量不够，你还得知道是哪些查询慢了，慢在哪里。

pt-query-digest

登录后复制

工具在这方面简直是神器，它能帮你分析慢查询日志，找出耗时最多、扫描行数最多的“罪魁祸首”。

另外，锁等待（Table_locks_waited, Innodb_row_lock_waits, Innodb_row_lock_time_avg）也是我非常关注的。

Table_locks_waited

登录后复制

表示表级锁等待次数，这通常发生在并发写入高或者DDL操作时。而

Innodb_row_lock_waits

登录后复制

和

Innodb_row_lock_time_avg

登录后复制

则反映了InnoDB行锁的竞争情况。如果这些值持续很高，那说明你的事务设计有问题，或者索引缺失导致行锁升级为表锁，甚至出现了死锁。业务高峰期，大量的锁等待能直接把数据库拖垮。

最后，别忘了临时表（Created_tmp_tables, Created_tmp_disk_tables）。MySQL在执行一些复杂的查询（比如包含

GROUP BY

登录后复制

、

ORDER BY

登录后复制

、

DISTINCT

登录后复制

等操作）时，如果内存不足以完成排序或聚合，就会创建临时表。

Created_tmp_disk_tables

登录后复制

表示在磁盘上创建的临时表数量。磁盘临时表意味着I/O操作，这会显著降低查询速度。如果这个值很高，那就要考虑优化查询语句、增加

tmp_table_size

登录后复制

和

max_heap_table_size

登录后复制

，或者干脆加内存了。

选择合适的MySQL监控工具与平台？

市面上的MySQL监控工具五花八门，从内置命令到专业的监控平台，各有千秋。选择哪个，真的要看你的团队规模、技术栈偏好和对监控深度的要求。

Chatbase

从你的知识库中构建一个AI聊天机器人

117

查看详情

最基础的，当然是MySQL自带的命令：

SHOW GLOBAL STATUS

登录后复制

、

SHOW VARIABLES

登录后复制

、

SHOW PROCESSLIST

登录后复制

。这些命令能让你实时查看当前数据库的状态和运行参数。对于快速排查一个突发问题，它们非常有效。但缺点也很明显，就是无法持久化数据，也没有告警功能，更别提历史趋势分析了。

再往上走一步，是像

pt-query-digest

登录后复制

这样的命令行工具。

pt-query-digest

登录后复制

是Percona Toolkit中的一员，专门用来分析慢查询日志。你把慢查询日志文件丢给它，它能给你一份详细的报告，告诉你哪些查询最慢、执行了多少次、平均耗时多少等等。这玩意儿对于定位具体的慢SQL，简直是“杀手锏”。我经常用它，因为很多时候，性能瓶颈就藏在那么几条写得不好的SQL里。

如果你需要一个更全面、更自动化的解决方案，那么专业的监控平台就该登场了。Percona Monitoring and Management (PMM) 是一个非常棒的选择。它集成了Prometheus（数据采集和存储）、Grafana（数据可视化）和各种Percona开发的exporter，提供了开箱即用的MySQL、MongoDB等数据库的监控模板。PMM的优势在于其对MySQL的深度理解，很多关键指标和图表都预设好了，部署起来相对简单，而且非常专业。

当然，如果你公司已经有了自己的监控体系，比如基于Prometheus + Grafana的通用监控平台，那完全可以自己集成MySQL Exporter来采集MySQL指标。这种方式的灵活性最高，你可以根据自己的需求定制任何图表和告警规则。但相应的，你需要对Prometheus和Grafana有更深入的了解，搭建和维护成本也会高一些。

还有像Zabbix、Nagios这类老牌的监控系统，它们也都有成熟的MySQL监控模板和插件。它们的特点是功能全面，除了数据库，还能监控服务器、网络等。但配置起来可能会比PMM稍微复杂一些，而且在数据库特定指标的深度分析上，可能不如PMM那么“专精”。

我个人的经验是，对于中小型团队，PMM是一个非常好的起点，它能让你快速搭建起一套专业的MySQL监控体系。对于大型或者有特殊需求的团队，基于Prometheus + Grafana的自建方案则提供了最大的自由度。

如何通过监控数据发现并解决MySQL性能瓶颈？

光有数据和工具还不够，最核心的能力在于如何“读懂”这些数据，并将其转化为实际的优化行动。这需要经验，也需要一点点“侦探”的直觉。

举几个例子，说说我平时是怎么通过监控数据来“找茬”的：

场景一：QPS/TPS正常，但响应时间飙高，且InnoDB缓冲池命中率下降。 这通常意味着数据库的读I/O压力增大了。QPS没变，但响应慢了，说明单位请求耗时增加了。缓冲池命中率低，则直接指向了内存不足以缓存热点数据，导致大量数据需要从磁盘读取。 解决方案： 优先检查是否有新的大查询上线，或者某个老查询的执行计划变差。
```
pt-query-digest
```
登录后复制
分析慢查询日志是首选。如果确实是查询优化问题，考虑加索引、改写SQL。如果SQL没问题，那就是内存瓶颈了，考虑增加
```
innodb_buffer_pool_size
```
登录后复制
配置，或者直接给服务器加内存。
场景二：
```
Threads_connected
```
登录后复制
持续走高，逼近
max_connections
登录后复制
，甚至出现
Too many connections
登录后复制
错误。这几乎总是应用程序连接管理的问题。要么是应用没有正确关闭数据库连接，导致连接泄露；要么是连接池配置过小，无法应对突发的业务高峰。 解决方案： 首先检查应用程序代码，确认连接是否正确释放。然后，调整应用程序连接池配置，比如HikariCP或Druid的
```
maximumPoolSize
```
登录后复制
。如果业务量确实暴增，且服务器资源允许，可以适当提高MySQL的
```
max_connections
```
登录后复制
参数。但注意，
```
max_connections
```
登录后复制
不是越高越好，过多的连接会消耗大量内存，并增加线程上下文切换开销。
场景三：
```
Innodb_row_lock_waits
```
登录后复制
和
Innodb_row_lock_time_avg
登录后复制
持续上涨。这明显是行锁竞争激烈。通常发生在并发事务对同一行数据进行更新或删除操作时。 解决方案： 检查
```
SHOW ENGINE INNODB STATUS\G
```
登录后复制
输出中的
```
LATEST DETECTED DEADLOCK
```
登录后复制
部分，看是否有死锁发生。分析
```
SHOW PROCESSLIST
```
登录后复制
，找出长时间处于
```
Locked
```
登录后复制
或
```
Waiting for row lock
```
登录后复制
状态的SQL。这往往是事务过长、事务中没有及时提交，或者更新/删除语句的
```
WHERE
```
登录后复制
条件没有用到索引，导致锁定了大量不必要的行。优化方案包括：缩短事务执行时间、确保更新/删除操作走索引、避免大事务、甚至考虑分库分表。
场景四：
```
Created_tmp_disk_tables
```
登录后复制
数量激增。 这意味着MySQL不得不频繁地在磁盘上创建临时表来完成查询操作，性能会非常差。 解决方案： 找出导致创建磁盘临时表的查询。通常是
```
GROUP BY
```
登录后复制
、
```
ORDER BY
```
登录后复制
、
```
DISTINCT
```
登录后复制
等操作涉及的数据量过大，或者查询中使用了无法利用索引的函数。优化SQL是首要任务，比如优化
```
GROUP BY
```
登录后复制
的字段顺序、避免在
```
ORDER BY
```
登录后复制
中使用复杂的表达式。其次，可以适当增大
```
tmp_table_size
```
登录后复制
和
```
max_heap_table_size
```
登录后复制
，让更多的临时表在内存中创建。但如果数据量实在太大，可能需要考虑重新设计表结构或业务逻辑。