0

0

K3s pod 启动时 "failed to allocate IP" 或 IP 耗尽

舞夢輝影

舞夢輝影

发布时间:2026-01-18 13:27:30

|

238人浏览过

|

来源于php中文网

原创

K3s中Flannel CNI无法分配Pod IP的核心原因是子网耗尽或本地子网状态异常,表现为节点子网未释放、ARP缓存污染或IP池用尽,可通过检查configmap、清理残留、调整CIDR等手段快速恢复。

k3s pod 启动时 \

这是 K3s 中非常典型的网络问题,本质是 CNI(通常是 Flannel)无法为新 Pod 分配 IP 地址,常见于集群运行一段时间后、节点重启后、或大规模部署 Pod 时。核心原因不是“没 IP”,而是 IP 地址池已用尽本地子网分配状态异常

检查 Flannel 子网分配是否耗尽

K3s 默认使用 Flannel,每个节点从集群 CIDR(如 10.42.0.0/16)中分配一个 /24 子网(即 256 个 IP),用于该节点上所有 Pod。一旦节点数达到 256 个,子网就用完了;但更常见的是:某节点的子网被反复申请却未释放(比如节点异常离线后未清理)。

  • 查看当前子网分配情况:kubectl get nodes -o wide 看各节点 IP,再查 Flannel 配置:kubectl -n kube-system get cm kube-flannel-cfg -o yaml | grep -A 5 "Network\|SubnetLen"
  • 直接检查 Flannel 的子网租约:kubectl -n kube-system get configmap -l tier=node —— 正常应有与节点数一致的 configmap(如 coreos.com/flannel/subnets/node-192.168.1.10);缺失或重复意味着分配异常
  • 若发现某节点 configmap 存在但节点已下线,手动删除它:kubectl -n kube-system delete cm coreos.com/flannel/subnets/node-xxx,Flannel 会在节点重连时重新分配

确认节点本地子网是否被占满

单个节点的 /24 子网最多支持 253 个活跃 Pod(去掉 .0/.1/.255)。如果该节点长期运行大量短生命周期 Pod(如 Job、CronJob),可能因 iptables 规则残留、cni0 网桥 ARP 表堆积或容器运行时未彻底清理,导致可用 IP 实际减少。

Replit Agent
Replit Agent

Replit最新推出的AI编程工具,可以帮助用户从零开始自动构建应用程序。

下载
  • 登录问题节点,查看 cni0 网桥 IP 分配:ip addr show cni0,确认其 inet 是类似 10.42.x.1/24,说明子网已加载
  • 检查已分配的 Pod IP:kubectl get pods -o wide --field-selector spec.nodeName=NODE_NAME,统计数量;再对比 arp -n -i cni0 | wc -l,若远大于 Pod 数,说明 ARP 缓存污染
  • 临时清理(谨慎):ip neigh flush dev cni0,并重启 flanneld:sudo systemctl restart k3s-agent(或 k3s-server)

调整 CIDR 或子网大小(预防性措施)

默认 10.42.0.0/16 + /24 每节点,最多支撑 256 节点 × 253 Pod ≈ 64K Pod。若规划超量,需提前调整。

  • 扩大集群 CIDR:启动 K3s 时加参数 --cluster-cidr 10.42.0.0/12(支持 4096 个 /24 子网),同时确保 Flannel 配置中 SubnetLen: 24 不变
  • 减小子网(不推荐):设 SubnetLen: 26 可支持更多节点(1024),但每节点仅 61 个 Pod,适合轻量节点场景
  • 修改方式:编辑 /var/lib/rancher/k3s/server/manifests/kube-flannel.yml(或通过 Helm chart 覆盖),更新 ConfigMap 中的 NetConf,然后重启 k3s

验证和快速恢复

多数情况下,问题可快速缓解,无需重建集群。

  • 先尝试重启问题节点上的 k3s 服务:sudo systemctl restart k3s(server)或 sudo systemctl restart k3s-agent(agent)
  • 观察日志:sudo journalctl -u k3s -n 100 -f | grep -i "flannel\|ipam\|failed to allocate"
  • 确认新 Pod 是否能正常获取 IP:kubectl run test-pod --image=busybox:1.35 -- sleep 3600,再 kubectl get pod -o wide

相关专题

更多
堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

390

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

572

2023.08.10

数据库Delete用法
数据库Delete用法

数据库Delete用法:1、删除单条记录;2、删除多条记录;3、删除所有记录;4、删除特定条件的记录。更多关于数据库Delete的内容,大家可以访问下面的文章。

269

2023.11.13

drop和delete的区别
drop和delete的区别

drop和delete的区别:1、功能与用途;2、操作对象;3、可逆性;4、空间释放;5、执行速度与效率;6、与其他命令的交互;7、影响的持久性;8、语法和执行;9、触发器与约束;10、事务处理。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

209

2023.12.29

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

43

2026.01.16

全民K歌得高分教程大全
全民K歌得高分教程大全

本专题整合了全民K歌得高分技巧汇总,阅读专题下面的文章了解更多详细内容。

84

2026.01.16

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

24

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

35

2026.01.15

Java音频处理教程汇总
Java音频处理教程汇总

本专题整合了java音频处理教程大全,阅读专题下面的文章了解更多详细内容。

16

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
HTML5/CSS3/JavaScript/ES6入门课程
HTML5/CSS3/JavaScript/ES6入门课程

共102课时 | 6.7万人学习

前端基础到实战(HTML5+CSS3+ES6+NPM)
前端基础到实战(HTML5+CSS3+ES6+NPM)

共162课时 | 18.9万人学习

第二十二期_前端开发
第二十二期_前端开发

共119课时 | 12.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号