LinuxKubernetes故障排查教程_Pod异常与网络问题

舞夢輝影

发布时间：2026-01-01 14:00:17

610人浏览过

来源于php中文网

原创

Pod异常状态需分层排查：先用kubectl describe查看状态与Events，再查日志和exec调试，接着验证节点资源与调度约束，最后逐层检查CNI、DNS及Service网络连通性。

linuxkubernetes故障排查教程_pod异常与网络问题

Pod 一直处于 Pending、CrashLoopBackOff 或 NotReady 状态，通常不是单一原因导致，而是资源、配置、镜像、节点或网络中某一个环节出了问题。快速定位的关键是分层检查：先看 Pod 自身状态和事件，再查容器日志，接着验证节点资源与调度约束，最后聚焦网络连通性与 CNI 插件行为。

看 Pod 状态和 Events 是第一反应

运行 kubectl describe pod -n ，重点关注两块内容：

Conditions：比如 Initialized=False 可能是 Init 容器失败；Ready=False 说明主容器没通过 readiness probe；ContainersReady=False 表示至少一个容器未就绪
Events（最实用）：常见提示如 FailedScheduling（资源不足/污点不匹配）、ImagePullBackOff（镜像名错/私有仓库没 secret）、FailedMount（PV/PVC 绑定失败或权限问题）

如果 Events 里出现 NodeAffinity 或 Taints 相关拒绝信息，要同步检查节点的 taint 和 Pod 的 toleration 配置是否匹配。

查容器日志和 exec 进去诊断

即使 Pod 处于 CrashLoopBackOff，只要它启动过，就能拿到上一次崩溃前的日志：

kubectl logs -n --previous 查上一轮容器输出
kubectl logs -n -c 指定多容器中的某一个
如果容器还能短暂运行，用 kubectl exec -it -n -- sh 进入调试（注意：有些精简镜像不含 sh，可试 ash 或 /bin/bash）

进容器后优先检查：配置文件路径是否存在、环境变量是否注入正确、依赖服务 DNS 是否能解析（nslookup kubernetes.default.svc.cluster.local）、端口是否被占用（netstat -tuln）。

Pi智能演示文档

领先的AI PPT生成工具

下载

确认节点资源与调度是否正常

Pod 卡在 Pending，大概率是调度器找不到合适节点。执行以下命令交叉验证：

kubectl get nodes -o wide 看节点是否 Ready，资源（CPU/Mem）是否充足
kubectl top nodes 查实时资源使用率（需 metrics-server 已部署）
kubectl get events --sort-by=.lastTimestamp | tail -20 找集群级调度失败事件
检查 Pod 的 resource requests 是否远超节点可用容量，或设置了 nodeSelector 但没有节点打对应 label

临时测试可删掉 resource request/limit 或修改 nodeSelector，看 Pod 是否能成功调度——这能帮你快速隔离是策略问题还是资源问题。

网络不通？从底层 CNI 到 Service 逐层验证

Pod 之间 ping 不通、无法访问 Service、DNS 解析失败，按这个顺序排查：

Pod IP 层通信：在源 Pod 中 ping 。失败说明 CNI 插件未正确配置（如 calico/node 未运行、flannel 启动失败、kube-proxy 异常）
DNS 解析：nslookup kubernetes.default.svc.cluster.local。失败先查 CoreDNS Pod 是否 Running，再看其日志（kubectl logs -n kube-system deployment/coredns），并确认 kubelet 的 --cluster-dns 参数指向正确地址
Service 访问：用 ClusterIP + port curl，同时查 kubectl get endpoints 确认后端 Pod 地址已同步；再查 iptables/ipvs 规则是否生成（kubectl get svc -o wide 对比 endpoint IPs 是否一致）

如果所有 Pod 都无法访问外网，检查节点 host 上的 iptables FORWARD 链是否被 DROP，以及 CNI 插件是否配置了正确的 masquerade 规则。

Linux磁盘性能评估流程_IO瓶颈定位方法【教程】

Linux运维协同流程优化_效率提升解析【教程】

Linux网络优化实践方案_稳定通信策略解析【教程】

Linux容器日志管理教程_Docker日志收集与分析案例

Linux系统审计日志配置_安全合规实践解析【教程】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux企业级账号体系教程_统一认证与权限控制实战下一篇：暂无

作者最新文章

同名Power！realme真我也将推出10000mAh电池机型

2025-12-30 12:05

菜鸟裹裹查询单号查询入口_官方物流数据同步更新

2025-12-30 12:10

中文简繁体转换快捷键_中文简繁体在线转换使用方法

2025-12-30 12:13

一次解决两个问题 vivo新专利将散热风扇集成天线

2025-12-30 12:15

AirPods也曾有过多巴胺色系？第一代缤纷充电盒原型机曝光

2025-12-30 12:47

yandexcom免登录入口网址_Yandex国际版搜索引擎无需登录访问入口

2025-12-30 13:41

Python接口调用策略_重试超时说明【指导】

2025-12-30 13:41

ao3中文网页版镜像免费_ao3中文网页版镜像官方正版入口正规网址2026

2025-12-30 13:43

Python魔术方法详解_特殊行为解析【教程】

2025-12-30 13:59

ao3官方网站入口怎么进_AO3官网入口镜像访问方法指南

2025-12-30 14:05

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

resource是什么文件

Resource文件是一种特殊类型的文件，它通常用于存储应用程序或操作系统中的各种资源信息。它们在应用程序开发中起着关键作用，并在跨平台开发和国际化方面提供支持。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

141

2023.12.20

sort排序函数用法

sort排序函数的用法：1、对列表进行排序，默认情况下，sort函数按升序排序，因此最终输出的结果是按从小到大的顺序排列的；2、对元组进行排序，默认情况下，sort函数按元素的大小进行排序，因此最终输出的结果是按从小到大的顺序排列的；3、对字典进行排序，由于字典是无序的，因此排序后的结果仍然是原来的字典，使用一个lambda表达式作为key参数的值，用于指定排序的依据。

379

2023.09.04