K3s 集群出现大量 "node not found" 或 "node lease not renewed"

舞姬之光

发布时间：2026-01-18 18:13:02

605人浏览过

来源于php中文网

原创

K3s节点失联主因是Lease心跳中断，需检查网络连通性、证书有效性（client-k3s.pem/key）、kubelet是否正常更新NodeLease、系统资源及时间同步（偏差≤1分钟）。

$k3s 集群出现大量 \$

这是 K3s 节点失联的典型表现，本质是节点无法持续向服务端（server node）上报心跳（通过 Lease 机制），导致控制平面认为节点已离线。

检查节点网络连通性与证书有效性

K3s 使用双向 TLS 认证，节点必须能稳定访问 server 的 API 地址（默认 https://:6443），且本地证书未过期或被误删。

在 agent 节点执行：curl -k https://:6443/healthz，确认能返回 ok；若超时或拒绝连接，说明网络不通或 server 未监听该地址
检查 /var/lib/rancher/k3s/agent/client-k3s.pem 和 client-k3s-key.pem 是否存在且可读；证书通常有效期为 1 年，可通过 openssl x509 -in /var/lib/rancher/k3s/agent/client-k3s.pem -noout -dates 查看有效期
若证书过期或缺失，重启 k3s agent 会自动重签（前提是 server 正常且 agent 首次注册用的 token 仍有效）；如 token 已失效，需重新生成并更新 agent 启动参数

确认节点 Lease 更新是否被阻塞

K3s agent 通过 kubelet 每 10 秒更新一次 NodeLease 对象。若 kubelet 卡住、资源耗尽或 etcd（或 sqlite）写入延迟高，lease 就无法刷新。

MiniMax开放平台

MiniMax-与用户共创智能，新一代通用大模型

下载

在 agent 节点运行：journalctl -u k3s-agent -n 50 --no-pager | grep -i "lease\|node status"，观察是否有持续上报日志；若长时间无输出，说明 kubelet 未正常工作
检查系统资源：top 或 htop 看 CPU/内存是否打满；df -h /var/lib/rancher/k3s 确保磁盘未满（尤其 sqlite db 文件增长快时）
如使用嵌入式 sqlite（默认），高负载下可能因 WAL 锁或 fsync 延迟导致 lease 更新失败；可临时启用 --with-node-id 并观察是否缓解（减少部分元数据竞争），但根本解法是优化 I/O 或切换到轻量级外部 DB（如 dqlite）

排查时间同步问题

Lease 依赖准确的时间戳判断过期。若节点间系统时间偏差超过 1 分钟（Kubernetes 默认容忍窗口），server 可能拒绝过期或未来时间的 lease 更新。

在所有节点执行：timedatectl status，确认 System clock synchronized: yes 且偏差
避免仅依赖 systemd-timesyncd；生产环境建议统一配置 chrony 或 ntp，并指向同一可靠 NTP 源
特别注意虚拟机、容器化节点或云主机——某些平台（如 AWS EC2）需额外启用 chrony 并禁用 hypervisor 时间同步冲突

验证 server 端状态与日志

“node not found” 错误也可能源于 server 侧状态异常，例如节点注册信息丢失、etcd/dqlite 数据损坏或 controller-manager 异常。

在 server 节点执行：kubectl get nodes 和 kubectl get leases -A | grep ，确认节点对象和对应 lease 是否真实缺失
查看 server 日志：journalctl -u k3s -n 100 --no-pager | grep -i "node\|lease\|register"，重点找 failed to update node lease、node not found for lease 或注册阶段的 certificate signed by unknown authority
若发现大量 “context deadline exceeded” 或 “i/o timeout” 报错，大概率是 backend 存储响应慢（sqlite 写入卡顿、dqlite leader 切换中、或外部 etcd 不可用）

Linux 安全：如何使用 kube-bench 检查 Kubernetes 安全基线

使用宝塔在服务器上部署 Vue + Node 项目全流程

【玩转 Cloud Studio】以 Rust 为例定制自己的开发环境

十一、可观测性——你的应用健康吗

VS Code的Git Control无法正确识别husky(NVM)问题

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：K3s 节点 cordon/drain 后 pod 不调度到其他节点的原因汇总下一篇：暂无

作者最新文章

苹果手机价格和图片大全_苹果手机型号图片价格对比表

2026-01-16 10:13

爱思刷机跳过id锁激活是真的吗

2026-01-16 10:23

个人所得税专项扣除_2025个人所得税专项扣除项目及填报教程

2026-01-16 10:23

无人机驾驶证含金量高吗

2026-01-16 10:25

Google Gemini将串连Gmail、YouTube！对话纪录、历史资料通通找得到

2026-01-16 10:59

苹果序列号L开头是哪里生产的苹果序列号以L开头生产地是哪里

2026-01-16 11:06

AI助台积电再刷新营收高峰！魏哲家预言：2026全年营收增3成

2026-01-16 11:20

都别争了！REDMI Turbo 5 Max跑分超360万，越级挑战4000元档旗舰

2026-01-16 11:21

booking预订官网入口 booking网酒店预订官网

2026-01-16 11:21

booking酒店预订单怎么添加同行人

2026-01-16 11:24

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

curl_exec

curl_exec函数是PHP cURL函数列表中的一种，它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例，这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE，或者在失败时返回FALSE。

428

2023.06.14

linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容，可以阅读本专题下面的文章。

175

2023.10.30

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6095

2023.09.14

登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容，供大家免费下载体验。

806

2023.09.14