LinuxKubernetes节点管理教程_节点维护与故障排查

冷漠man

发布时间：2026-01-09 22:03:08

113人浏览过

来源于php中文网

原创

kubectl get nodes可查看节点状态，Ready表示健康，NotReady说明kubelet未就绪或通信异常；需关注AGE、VERSION、OS-IMAGE；进一步用describe node、systemctl status kubelet、journalctl排查；维护时先cordon再drain，修复常见故障如网络不通、证书过期、磁盘耗尽、CRI异常；建议启用kubelet指标、Node Problem Detector及版本校验。

linuxkubernetes节点管理教程_节点维护与故障排查

查看节点状态与基本信息

节点是否正常运行，第一步要看 kubectl get nodes 的输出。状态为 Ready 表示节点已注册且健康，NotReady 则说明 kubelet 未就绪或通信异常。注意观察 AGE（上线时间）、VERSION（Kubernetes 版本）和 OS-IMAGE（操作系统镜像），这些信息能快速定位版本不一致或系统老化问题。

进一步排查可用执行：

kubectl describe node ：查看 Conditions（如 MemoryPressure、DiskPressure、PIDPressure）、Allocatable 资源、已调度 Pod 列表及最近事件
ssh 到节点后运行 systemctl status kubelet：确认 kubelet 进程是否活跃，日志中是否有 TLS 认证失败、cgroup 配置错误等关键报错
journalctl -u kubelet -n 100 --no-pager：获取最近 100 行 kubelet 日志，重点关注 “failed to load”、“connection refused”、“certificate has expired” 类提示

节点临时下线与安全驱逐

维护前需让节点停止接收新 Pod，并迁移已有工作负载。直接关闭 kubelet 或重启机器会导致 Pod 意外终止，应使用 cordon + drain 组合操作。

标准流程如下：

Content at Scale

SEO长内容自动化创作平台

下载

kubectl cordon ：标记节点为不可调度，新 Pod 不会再被分配至此
kubectl drain --ignore-daemonsets --delete-emptydir-data：优雅驱逐所有可迁移 Pod（跳过 DaemonSet 管理的 Pod；若 Pod 使用 emptyDir，需加 --delete-emptydir-data 显式允许清理）
等待 drain 完成后再执行系统更新、磁盘扩容或硬件更换等操作
恢复时运行 kubectl uncordon 解除调度限制

常见节点故障场景与修复

节点长期处于 NotReady 或反复震荡，通常由以下几类原因引起：

网络不通：检查节点能否访问 API Server（curl -k https://:6443/healthz），确认防火墙是否放行 6443（API Server）、10250（kubelet metrics）、30000–32767（NodePort）端口
证书过期：kubelet 使用的 client 证书默认有效期为 1 年。若报 “x509: certificate has expired or is not yet valid”，需轮换证书 —— 可通过 kubeadm certs renew node（kubeadm 集群）或手动签发并重载 kubelet
磁盘或 inodes 耗尽：运行 df -h 和 df -i，重点检查 /var/lib/kubelet 和容器运行时根目录（如 /var/lib/containerd）。清理镜像（crictl rmi --prune）或旧容器日志可释放空间
CRI 运行时异常：确认 containerd 或 dockerd 是否运行（systemctl is-active containerd），检查其日志（journalctl -u containerd），常见问题包括插件未加载、沙箱镜像拉取失败

节点资源监控与长期健康保障

被动排障不如主动监控。建议在节点上部署基础可观测能力：

启用 kubelet 的 --enable-server=true 和 --read-only-port=10255（或更安全的 10250 + TLS），供 Prometheus 抓取指标
配置 Node Problem Detector（NPD）：监听系统日志（如 kernel oom-killer、disk full）并上报为 NodeCondition，便于 kubectl describe node 直观发现
定期校验节点组件版本一致性：kubectl get nodes -o wide 对比 VERSION 列，避免因 minor 版本跳跃（如 v1.26 → v1.28）引发兼容性问题
对关键节点启用 taints（如 node-role.kubernetes.io/control-plane:NoSchedule）防止误调度，同时为 worker 节点添加 label（如 env=prod）便于策略化管理

Linux网络调优项目教程_TCPIP参数优化与带宽管理

Linux主机网络配置实战_地址与网关设置解析【指导】

Linux系统信息快速获取_主机状态查看方法【技巧】

Linux系统运行日志理解_问题定位思路解析【指导】

Linux服务器高可用项目教程_PacemakerCorosyncHA实践

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux主机网络配置实战_地址与网关设置解析【指导】下一篇：LinuxKubernetes性能调优教程_集群瓶颈分析方法

作者最新文章

第一次坐飞机所有流程

2026-01-08 08:35

苹果手机怎么查询wifi密码_苹果已连接WiFi密码查看

2026-01-08 08:41

PythonAI转型实战路线教程_真实成长案例拆解

2026-01-08 09:17

photoshop不能保存成图片_photoshop保存问题排查教程

2026-01-08 10:22

Python协程入门教程_asyncawait语法解析

2026-01-08 10:26

oppo官网防伪查询方法_OPPO序列号真伪防伪验证入口

2026-01-08 10:41

春运开始时间春运开始时间怎么算

2026-01-08 10:50

百度云网页版百度网盘入口_百度网盘网页版统一登录地址

2026-01-08 10:52

Python注释与文档教程_docstring规范详解

2026-01-08 11:09

商标注册申请怎么缴费_商标注册申请怎么缴费详细步骤及注意事项

2026-01-08 11:09

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

curl_exec

curl_exec函数是PHP cURL函数列表中的一种，它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例，这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE，或者在失败时返回FALSE。

425

2023.06.14

linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容，可以阅读本专题下面的文章。

174

2023.10.30

数据库Delete用法

数据库Delete用法：1、删除单条记录；2、删除多条记录；3、删除所有记录；4、删除特定条件的记录。更多关于数据库Delete的内容，大家可以访问下面的文章。

269

2023.11.13

drop和delete的区别

drop和delete的区别：1、功能与用途；2、操作对象；3、可逆性；4、空间释放；5、执行速度与效率；6、与其他命令的交互；7、影响的持久性；8、语法和执行；9、触发器与约束；10、事务处理。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

208

2023.12.29

Golang云原生微服务Kubernetes_Golang怎么集成Kubernetes开发云原生服务

Golang云原生微服务Kubernetes (K8s) 是指使用 Go 语言（Golang）编写的云原生微服务，并利用 Kubernetes 平台进行容器化部署、自动化管理、弹性伸缩和高效编排的一整套现代应用架构方案。

2025.12.22

Golang云原生微服务Kubernetes_Golang怎么集成Kubernetes开发云原生服务

2025.12.22

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1880

2024.08.16

Golang 分布式缓存与高可用架构

本专题系统讲解 Golang 在分布式缓存与高可用系统中的应用，涵盖缓存设计原理、Redis/Etcd集成、数据一致性与过期策略、分布式锁、缓存穿透/雪崩/击穿解决方案，以及高可用架构设计。通过实战案例，帮助开发者掌握如何使用 Go 构建稳定、高性能的分布式缓存系统，提升大型系统的响应速度与可靠性。

2026.01.09