Linux 出现大量 softirq 占用 CPU（ksoftirqd 打满）的几种典型原因

冰川箭仙

发布时间：2026-01-17 22:22:03

219人浏览过

来源于php中文网

原创

ksoftirqd 持续高 CPU 占用本质是软中断积压，主因包括：1. 网络流量突增或异常包致 NET_RX/NET_TX 飙升；2. 存储 I/O 压力大或驱动异常引发 BLOCK 软中断堆积；3. RCU 回调积压；4. 硬件中断风暴间接诱发。

linux 出现大量 softirq 占用 cpu（ksoftirqd 打满）的几种典型原因

Linux 中 ksoftirqd 进程持续高 CPU 占用，本质是内核软中断（softirq）处理积压，常见于网络、块设备、定时器等子系统负载过重或异常。关键不是进程本身“有问题”，而是它在拼命消化堆积的软中断任务。

网络流量突增或异常包导致 NET_RX/NET_TX 软中断飙升

这是最常见原因。当网卡收包速率远超协议栈处理能力（如突发 DDoS、大量小包、TCP 乱序重传加剧）、或存在驱动兼容性问题时，NET_RX 软中断会持续触发，ksoftirqd/N 被频繁唤醒并满载。

用 cat /proc/softirqs 查看各 CPU 上 NET_RX 和 NET_TX 计数增长是否远高于其他项
检查 ethtool -S ethX 中 rx_missed_errors、rx_over_errors 是否上升——说明网卡已丢包，软中断仍在徒劳处理
临时缓解可调大网卡 ring buffer：ethtool -G ethX rx 4096 tx 4096；长期需优化应用层收发逻辑或升级驱动

存储 I/O 压力大或驱动异常引发 BLOCK 软中断堆积

当磁盘响应慢（如高延迟 NVMe、饱和 HDD、RAID 卡故障）、或使用了不稳定的 SCSI/ATA 驱动时，I/O 完成回调会触发 BLOCK 软中断。若完成队列积压，ksoftirqd 就会持续忙于处理完成事件。

Paraflow

AI产品设计智能体

下载

观察 /proc/softirqs 中 BLOCK 和 BLOCK_IOPOLL 的值是否显著偏高
结合 iostat -x 1 看 %util 是否长期 100%、await 是否异常升高
检查 dmesg 是否有 “ata/N: failed command”、“nvme N: I/O timeout” 类错误；尝试更新固件或更换 I/O 调度器（如 mq-deadline 替代 bfq）

RCU 回调积压（RCU_SOFTIRQ）引发持续软中断调度

RCU（Read-Copy-Update）是内核关键同步机制。当大量内核对象（如 socket、task_struct、page）被快速创建销毁，或存在 RCU callback 延迟执行（如在关中断上下文停留过久），会导致 RCU_SOFTIRQ 积压，ksoftirqd 不断被拉起处理回调。

运行 cat /proc/sys/kernel/rcu_normal 或 rcu_pending（需开启 CONFIG_RCU_PERF）确认 RCU 压力
perf record -e 'irq:softirq_entry' -g -- sleep 5 后用 perf report 查看软中断入口热点，常看到 rcu_core、__rcu_reclaim 占比高
排查是否启用了低效模块（如某些旧版 eBPF 程序、netfilter conntrack 高并发场景），或内核版本存在已知 RCU bug（如 4.19 早期某些 commit）

硬件中断风暴（IRQ storm）间接诱发软中断过载

某些异常硬件行为（如网卡 DMA 错误、PCIe 链路不稳定、老旧 USB 控制器）会导致同一 IRQ 号被反复触发，每次硬中断都会排队对应软中断。即使单次软中断处理快，高频触发仍让 ksoftirqd 无法喘息。

用 cat /proc/interrupts 观察某 CPU 上特定 IRQ 计数是否秒级暴涨（尤其对比其他 CPU）
检查 dmesg | grep -i "error\|warn\|pci\|dma" 是否有硬件报错；尝试禁用可疑设备（如 echo 0 > /sys/bus/pci/devices/.../enable）验证
对支持 MSI-X 的设备，启用多队列并绑定到不同 CPU（echo cpu_mask > /sys/class/net/ethX/device/msi_irqs/...），避免单 CPU 被 IRQ 打爆