Linux网络排障需按ip link→ip addr→ip route顺序检查L2/L3状态与路由,注意netfilter hook点、default路由仅首条生效、tcpdump接口选择及各层隐式干预。

Linux 网络栈不是黑盒,但直接看 net/ 源码不现实;真正影响日常排障和配置效果的,是数据包在用户空间、内核协议栈、驱动、物理介质之间的流转路径和关键控制点。
网卡 up 了但 ping 不通?先确认 ip link 和 ip addr 的状态含义
ip link 显示的是链路层(L2)状态:UP 表示驱动已加载、硬件已启用、MAC 地址已分配;LOWER_eth0 类似标记说明物理连接可能断开(如网线未插)。而 ip addr 显示的是网络层(L3)配置:是否有合法 inet 地址、是否 scope global、是否被 deprecated 标记(比如 IPv6 临时地址过期后仍存在但不可用)。
- 常见误判:看到
state UP就以为网络通了,其实可能没配 IP 或子网掩码错(如写成/32却没加路由) - 检查顺序建议:
ip link show eth0→ip addr show eth0→ip route show -
ip addr flush dev eth0后必须手动ip addr add+ip link set up,不能只依赖ifconfig eth0 up(该命令不处理地址)
iptables 和 nftables 规则为什么有时不生效?关键在 hook 点和优先级
规则是否命中,取决于数据包经过的 netfilter hook 点(如 PREROUTING、INPUT、FORWARD、OUTPUT、POSTROUTING)以及该链上规则的匹配顺序。现代内核中,nftables 是默认后端,iptables 实际是兼容层封装,二者共用同一套 hook 和 conntrack 机制。
- 最常踩的坑:
iptables -A INPUT -j DROP会立刻阻断所有新连接(包括 SSH),且没有隐式允许 ESTABLISHED;应加-m state --state ESTABLISHED,RELATED -j ACCEPT在前 -
nft list ruleset能看到完整规则树,比iptables -L -v -n更直观反映实际执行顺序 - 本地进程发包走
OUTPUT链,不是INPUT;目标为本机的入包才进INPUT
路由表里出现多条 default via?Linux 默认只用第一条,除非配置策略路由
内核路由子系统对 default 路由的处理是“最长前缀匹配 + 第一条胜出”,不会自动负载均衡或故障转移。即使你用 ip route add default via 192.168.1.1 和 ip route add default via 192.168.2.1 加了两条,默认只走第一条;第二条始终闲置,除非第一条被 ip route del 删除。
- 真要多出口冗余,得用
ip rule+ 多张路由表(如table 100、table 101)配合源地址选择或 fwmark -
ip route get 8.8.8.8是验证当前实际选路的最简方式,它模拟查找过程并返回真实下一跳和出接口 - 注意
metric值:同网段多条直连路由时,metric小的优先;但对default路由,metric不影响默认选第一条的行为
tcpdump 抓不到包?可能是方向、接口或内核过滤点不对
tcpdump 默认监听在指定接口的 AF_PACKET 层,抓的是进入/离开该接口的原始帧。这意味着:本地生成的包在 OUTPUT 链处理前就已被捕获;而转发包若不显式指定桥接接口(如 br0)或使用 any,很可能漏掉。
- 抓本机发往外部的包:
tcpdump -i eth0 host 8.8.8.8 - 抓本机收到的包(含回环):
tcpdump -i any host 127.0.0.1或tcpdump -i lo - 抓转发流(如做网关):
tcpdump -i br0(而不是物理口eth0),或确认sysctl net.bridge.bridge-nf-call-iptables=0否则可能被 netfilter 提前丢弃 - 加
-nn -vvv可看 TCP 状态标志、窗口、时间戳等细节,比默认输出更有诊断价值
ip route show table local | grep ^broadcast # 查看本地广播路由,确认是否覆盖了预期网段 ip -s link show eth0 | grep -A 3 "RX:" # 看接收错误计数(dropped/overrun),区分是驱动丢包还是上层丢包
真正卡住问题的,往往不是“怎么配”,而是没意识到某层(比如邻居子系统、conntrack 状态、bridge fdb 表)正在悄悄干预数据流。抓包 + 查状态 + 模拟路由,三者缺一不可。










