"NETDEV WATCHDOG: transmit queue timed out" 导致网卡卡死的修复流程

冷漠man

发布时间：2026-01-25 03:47:09

630人浏览过

来源于php中文网

原创

NETDEV WATCHDOG超时直接卡死网卡是内核主动保护机制，因驱动层TX描述符耗尽、DMA失败或硬件卡死导致发送停滞，需重载驱动或升级固件修复。

为什么 `NETDEV WATCHDOG` 超时会直接卡死网卡

这不是单纯的告警，而是内核在检测到网卡驱动长时间未完成数据包发送（默认 5 秒）后，主动触发的保护性停用。一旦触发，对应队列会被禁用，tx_queue_len 归零，ifconfig 或 ip link 里能看到 NO-CARRIER 或持续 LOWER_UP 但无流量，dmesg 里反复刷出该错误——说明驱动已放弃恢复，必须人工干预。

根本原因几乎都落在驱动层：TX 描述符耗尽、DMA 映射失败、硬件状态机卡在 BUSY、中断未及时响应
不是网络拥塞或丢包问题，ping 和 tcpdump 在本地可能完全正常，但出向流量彻底停滞
重启网络服务（systemctl restart networking）无效，必须重载驱动或重启内核模块

快速定位是哪个网卡和驱动在出问题

先确认报错绑定的具体设备：dmesg -T | grep -i "watchdog.*timed out"，输出类似 NETDEV WATCHDOG: eth0 (tg3): transmit queue 0 timed out，重点看括号里的驱动名（这里是 tg3）和接口名（eth0）。

查驱动归属：ethtool -i eth0 | grep driver，验证是否与 dmesg 一致
查当前驱动状态：lsmod | grep tg3（替换成你实际的驱动名），确认是否已加载
查硬件是否异常：lspci -vv -s $(ethtool -i eth0 | awk '/bus-info/ {print $3}') | grep -A10 "Kernel driver"，观察是否有 Interrupt 字段缺失或 MSI-X 状态异常

临时恢复：卸载并重载驱动（不重启系统）

这是最快让网卡“活过来”的方式，但仅治标。执行前确保你有带外管理（如 iDRAC/iLO）或本地终端访问，避免 SSH 断连后失联。

关闭接口：ip link set eth0 down
卸载驱动：rmmod tg3（替换成你的驱动名，如 e1000e、ixgbe）
重新加载：modprobe tg3
启用接口：ip link set eth0 up
验证：ethtool eth0 | grep "Link detected" 应为 yes，且 cat /proc/interrupts | grep eth0 有中断计数增长

注意：某些驱动（如 mlx5_core）依赖多个模块，需按依赖顺序卸载；若报 Module tg3 is in use，用 lsof -nPi | grep eth0 找占用进程，或加 -f 强制（不推荐）。

Sologo AI

SologoAI 是一款AI在线LOGO生成工具，帮助用户快速创建独特且专业的品牌标识和配套VI设计。

下载

永久修复要盯紧三个配置点

临时重载只是绕过问题，真正稳定需从硬件兼容性、驱动参数、队列调度三方面收敛。

升级固件：尤其是 Broadcom（tg3）、Intel（e1000e）网卡，老版本 NIC 固件在高吞吐下易卡 TX 状态机，去厂商官网下最新 .bin 文件 + bnx2-firmware 或 intel-microcode 包更新
调驱动参数：在 /etc/modprobe.d/ 下新建文件（如 net-fix.conf），添加：
```
options tg3 disable_msi=1
options tg3 enable_mcp=0
```
（disable_msi 对老主板更稳，enable_mcp 关闭某些 BCM 芯片的电源管理副作用）
压测验证：用 iperf3 -c X.X.X.X -t 300 -P 4 持续 5 分钟，同时 watch -n1 'cat /sys/class/net/eth0/queues/tx-0/byte_count' 观察是否突变为 0 —— 这才是真实复现点

很多团队卡在“重载完好了几天又复发”，往往是因为只改了驱动参数却没升固件，或者误把 net.core.netdev_watchdog_timeo 调大（掩盖问题，不解决）。真正稳定的系统，dmesg 里不该出现这行错误。

Linux 定时任务 cron 的常见坑

pure-ftpd 虚拟用户无法 chdir 的 ChrootEveryone 配置细节

Linux 网络延迟高的可能原因

Linux 日志文件无限增长的治理方案

Linux 服务配置变更如何做到可回滚？

相关标签:

主板网卡驱动 .net lsp 为什么 print 接口 class tcpdump ssh

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux 文件系统缓存是如何工作的？下一篇：暂无

作者最新文章

ethtool -S eth0 rx_missed_errors 持续增加的硬件/驱动/ring buffer 原因

2026-01-24 17:37

Linux NAS 与本地磁盘的差异

2026-01-24 17:49

multipathd "map in use" 无法 remove 的 dmsetup remove --force 使用

2026-01-24 17:53

SQL 如何通过设计避免死锁？

2026-01-24 17:55

俄罗斯引擎官方入口无需登录俄罗斯引擎yandex官方入口

2026-01-24 17:58

AO3官网入口2026最新地址 2026年AO3网页版链接免登录

2026-01-24 17:59

最新Yandex网页版入口地址 Yandex搜索引擎网页免登录地址

2026-01-24 17:59

Python 如何安全地执行用户输入的表达式（不要用 eval）

2026-01-24 18:02

gc.get_referents() 如何用来快速排查对象引用链

2026-01-24 18:03

SQL 线上误操作如何防范？

2026-01-24 18:05

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PC软件

相关专题

python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容，供大家免费下载体验。

186

2023.09.27

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

1072

2023.10.19