0

0

Linux 出现大量 softirq 占用 CPU(ksoftirqd 打满)的几种典型原因

冰川箭仙

冰川箭仙

发布时间:2026-01-17 22:22:03

|

219人浏览过

|

来源于php中文网

原创

ksoftirqd 持续高 CPU 占用本质是软中断积压,主因包括:1. 网络流量突增或异常包致 NET_RX/NET_TX 飙升;2. 存储 I/O 压力大或驱动异常引发 BLOCK 软中断堆积;3. RCU 回调积压;4. 硬件中断风暴间接诱发。

linux 出现大量 softirq 占用 cpu(ksoftirqd 打满)的几种典型原因

Linux 中 ksoftirqd 进程持续高 CPU 占用,本质是内核软中断(softirq)处理积压,常见于网络、块设备、定时器等子系统负载过重或异常。关键不是进程本身“有问题”,而是它在拼命消化堆积的软中断任务。

网络流量突增或异常包导致 NET_RX/NET_TX 软中断飙升

这是最常见原因。当网卡收包速率远超协议处理能力(如突发 DDoS、大量小包、TCP 乱序重传加剧)、或存在驱动兼容性问题时,NET_RX 软中断会持续触发,ksoftirqd/N 被频繁唤醒并满载。

  • cat /proc/softirqs 查看各 CPU 上 NET_RXNET_TX 计数增长是否远高于其他项
  • 检查 ethtool -S ethXrx_missed_errorsrx_over_errors 是否上升——说明网卡已丢包,软中断仍在徒劳处理
  • 临时缓解可调大网卡 ring buffer:ethtool -G ethX rx 4096 tx 4096;长期需优化应用层收发逻辑或升级驱动

存储 I/O 压力大或驱动异常引发 BLOCK 软中断堆积

当磁盘响应慢(如高延迟 NVMe、饱和 HDD、RAID 卡故障)、或使用了不稳定的 SCSI/ATA 驱动时,I/O 完成回调会触发 BLOCK 软中断。若完成队列积压,ksoftirqd 就会持续忙于处理完成事件。

Paraflow
Paraflow

AI产品设计智能体

下载
  • 观察 /proc/softirqsBLOCKBLOCK_IOPOLL 的值是否显著偏高
  • 结合 iostat -x 1%util 是否长期 100%、await 是否异常升高
  • 检查 dmesg 是否有 “ata/N: failed command”、“nvme N: I/O timeout” 类错误;尝试更新固件或更换 I/O 调度器(如 mq-deadline 替代 bfq

RCU 回调积压(RCU_SOFTIRQ)引发持续软中断调度

RCU(Read-Copy-Update)是内核关键同步机制。当大量内核对象(如 socket、task_struct、page)被快速创建销毁,或存在 RCU callback 延迟执行(如在关中断上下文停留过久),会导致 RCU_SOFTIRQ 积压,ksoftirqd 不断被拉起处理回调。

  • 运行 cat /proc/sys/kernel/rcu_normalrcu_pending(需开启 CONFIG_RCU_PERF)确认 RCU 压力
  • perf record -e 'irq:softirq_entry' -g -- sleep 5 后用 perf report 查看软中断入口热点,常看到 rcu_core__rcu_reclaim 占比高
  • 排查是否启用了低效模块(如某些旧版 eBPF 程序、netfilter conntrack 高并发场景),或内核版本存在已知 RCU bug(如 4.19 早期某些 commit)

硬件中断风暴(IRQ storm)间接诱发软中断过载

某些异常硬件行为(如网卡 DMA 错误、PCIe 链路不稳定、老旧 USB 控制器)会导致同一 IRQ 号被反复触发,每次硬中断都会排队对应软中断。即使单次软中断处理快,高频触发仍让 ksoftirqd 无法喘息。

  • cat /proc/interrupts 观察某 CPU 上特定 IRQ 计数是否秒级暴涨(尤其对比其他 CPU)
  • 检查 dmesg | grep -i "error\|warn\|pci\|dma" 是否有硬件报错;尝试禁用可疑设备(如 echo 0 > /sys/bus/pci/devices/.../enable)验证
  • 对支持 MSI-X 的设备,启用多队列并绑定到不同 CPU(echo cpu_mask > /sys/class/net/ethX/device/msi_irqs/...),避免单 CPU 被 IRQ 打爆

相关专题

更多
scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

187

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

280

2023.10.25

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

390

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

572

2023.08.10

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

390

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

572

2023.08.10

class在c语言中的意思
class在c语言中的意思

在C语言中,"class" 是一个关键字,用于定义一个类。想了解更多class的相关内容,可以阅读本专题下面的文章。

465

2024.01.03

python中class的含义
python中class的含义

本专题整合了python中class的相关内容,阅读专题下面的文章了解更多详细内容。

13

2025.12.06

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

43

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 7.3万人学习

Git 教程
Git 教程

共21课时 | 2.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号