Linux高负载如何排查_深度讲解提升系统稳定性【指导】-linux运维-PHP中文网

Linux高负载如何排查_深度讲解提升系统稳定性【指导】

冷炫風刃

发布： 2025-12-19 16:33:08

原创

614人浏览过

Linux高负载需综合判断，先看load average除以CPU核数是否≥1.0，再通过top、vmstat、iostat等定位CPU、内存、I/O或网络瓶颈，最后针对性优化。

linux高负载如何排查_深度讲解提升系统稳定性【指导】

Linux高负载不是单看CPU使用率高，而是系统整体“忙不过来”的综合表现。关键要区分：是CPU真忙？内存快撑爆？磁盘在死扛？还是网络卡在排队？下面从定位、归因、应对三步讲清楚，不绕弯子。

看懂负载值和CPU核心数的关系

执行 uptime 或 cat /proc/loadavg，你会看到类似 load average: 4.21, 3.89, 3.50 的三个数字——分别代表过去1、5、15分钟的平均负载。

别直接和100%比，要拿它除以CPU逻辑核数（nproc 或 grep -c 'processor' /proc/cpuinfo）：

负载 ÷ 核数＜ 0.7：基本健康
0.7 ≤ 负载 ÷ 核数＜ 1.0：需关注，可能有隐患
≥ 1.0：系统已过载，队列积压，响应延迟明显
≥ 2.0：严重过载，服务可能开始超时或失败

注意：短时峰值（比如1分钟负载突高但5/15分钟平稳）通常不用急；持续15分钟高于1.0才真正危险。

快速定位瓶颈类型

打开 top，第一眼盯三块：

%Cpu(s) 行：看 us（用户态）、sy（内核态）、wa（I/O等待）占比
→ wa 高（比如＞20%）：大概率是磁盘慢，不是CPU真忙
load average 值本身是否远超核数
Mem 和 Swap 行：available 内存是否极少、used swap 是否在增长
→ Swap 持续使用，说明物理内存不足，会拖垮整体性能

再补一条命令确认：vmstat 1 5 看 r（运行队列长度）、b（不可中断睡眠进程数）、wa（I/O等待），三者长期偏高就是典型高负载信号。

分方向查具体元凶

CPU密集型问题：
在 top 中按 P（大写P），看 %CPU 最高的几个进程；或用
ps -eo pid,ppid,%cpu,%mem,cmd --sort=-%cpu | head -10

会译·对照式翻译

会译是一款AI智能翻译浏览器插件，支持多语种对照式翻译

查看详情

内存/交换问题：
free -h 看 available；再用
ps -eo pid,%mem,cmd --sort=-%mem | head -10 找吃内存大户；
同时检查 dmesg | grep -i "oom\|kill"，看内核是否已触发OOM Killer杀进程。

I/O卡顿问题：
iostat -x 1 关注三列：
→ %util 接近100%：磁盘饱和
→ await 显著大于 svctm：I/O响应慢、队列堆积
→ r/s + w/s 异常高：读写请求暴增
配合 iotop 可直接看到哪个进程在猛刷盘。