微信公众号讲师中心

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机/移动开发手机游戏

最近更新

搜索

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程

首页 > 新闻 > IT新闻 > 正文

OpenAI 如何将 Fluent Bit CPU 使用率降低 50%，释放 3 万核计算资源

花韻仙語

发布： 2025-11-19 15:44:02

原创

501人浏览过

openai 如何将 fluent bit cpu 使用率降低 50%，释放 3 万核计算资源

OpenAI 每天处理超过 9 PB 的日志，对 AI 研究和推理生产至关重要。所有工作负载都运行在 Kubernetes 上，每个节点运行多个 DaemonSet：Fluent Bit、OpenTelemetry Collector、DataDog Agent 等。由于 OpenAI 快速增长，一些日志工作负载向不同存储发送了重复日志，OpenAI 技术人员 Fabian Ponce 称之为“DaemonSet 大杂烩”。

最繁忙的主机开始触发 Linux CFS 限速。日志 DaemonSet 被限速时，日志会丢失。对于 AI 研究来说，每条日志都可能包含重要信息，丢失不可接受。团队无法增加更多 CPU，基础设施已满负荷。

解决方案：用 perf 找根因

发现

Ponce 加入可观测性团队第一个月，使用 Linux 性能分析工具 perf 对 Fluent Bit 部署进行分析。

报告显示异常：CPU 使用时间大部分没用在字符串处理上，反而是 stat 系统调用耗费最多。问题出在 Fluent Bit 如何监控日志文件。默认用 Linux 的 inotify API 监测文件变化，但 inotify 事件不包含写入数据量，Fluent Bit 每次事件后立即调用 stat 获取文件大小，更新数据库，判断读取进度和可读数据量。

在 OpenAI 规模下，容器逐行刷新日志，引发系统调用风暴，成千上万次无意义的 stat 调用，线程高速占用 CPU。

实施

解决办法非常简单：完全关闭 inotify，改为基于 stat 的轮询，只需一行配置改动：inotify: false。Ponce 首次上线测试集群后，CPU 使用率立刻降低 50%。

团队随后在全集群推广此改动，针对频繁写日志的容器，stat 轮询频率最高达每秒一次。即使如此，系统调用次数也比 inotify 少几个数量级。

“我们让 Fluent Bit CPU 使用率降低 50%，为整个研究和应用基础设施释放了大量容量。这就是 CNCF 生态的力量，深刻理解工具，才能实现全局优化。” — Fabian Ponce，OpenAI 技术成员

由于 CPU 是 Kubernetes 节点共享资源，减少 Fluent Bit 资源占用提升了所有共址工作负载性能。这 3 万核资源重新投入 ChatGPT 推理和 AI 实验。

贡献回馈社区

关闭 inotify 解决了燃眉之急，但长远来看更好的方案是“节流” stat 调用。Ponce 说：“Fluent Bit 其实只需要个时间窗口，收到 inotify 事件后，安排在 500 毫秒内执行一次 stat。”这种防抖方式既保留了 inotify 的响应灵敏性，又避免系统调用爆炸。

Kits AI

Kits AI

Kits.ai 是一个为音乐家提供一站式AI音乐创作解决方案的网站，提供AI语音生成和免费AI语音训练

Kits AI

413

Kits AI

和 Fluent Bit 维护者沟通后，他们对该改进持开放态度。OpenAI 计划将此功能贡献到上游，让整个 CNCF 社区受益。

影响：基于 CNCF 打造的 PB 级日志平台 OLogs

OpenAI 的优化支持了 OLogs 平台，内部日志日处理量超 9 PB，完全基于 CNCF 项目：

Kubernetes 负责编排，保证可扩展性和可靠性。
Fluent Bit 聚合日志，添加 Kubernetes 元数据，根据动态配置抽样，转换成 OLogs 格式。
Envoy 负责路由存储，未来分片时关键角色。
OpenTelemetry 标准化可观测性堆栈。

平台提供 OLogs 查询语言（OQL）快速检索，复杂分析支持完整 SQL。团队还在开发“宽事件”存储高基数数据，传统时序数据库难以承载。

关键成果

Fluent Bit CPU 使用率全集群降低 50%
释放 3 万核 CPU 资源用于 AI 工作负载
日处理日志超 9 PB，性能无下降
过载主机 Linux CFS 限速事件大幅减少
消除因限速导致的主要日志丢失，恢复管道稳定性
降低资源争用，提升节点整体性能
计划贡献改进给 CNCF 社区

总结与展望

“如果有系统 root 权限，15 分钟就能跑 perf。” Ponce 强调。这次优化不需要 PB 级规模，只要日志量与持续刷写的行为合适，就能带来显著收益。

极端规模才暴露的问题，解决后能提升整个社区的工具质量。

“云时代带来了更多分布式系统思维，有助于可靠性和扩展，但硬件层面的优化知识不可替代。”

— Fabian Ponce，OpenAI 技术成员

OpenAI 正在减少第三方可观测性成本，将更多能力内建于 CNCF 堆栈。团队从 7-8 人扩大到 16 人，成为基于 CNCF 的数据基础设施团队。

源码地址：点击下载

以上就是OpenAI 如何将 Fluent Bit CPU 使用率降低 50%，释放 3 万核计算资源的详细内容，更多请关注php中文网其它相关文章！

大家都在看：

轻量级 Linux 桌面环境 LXQt 2.3 发布开源 Rust 浏览器引擎 Servo 0.0.1 发布告别繁琐！Blender 玲珑管理器为 Linux 开启 CUDA 渲染超能力 SUSE 成为首个集成 Agentic AI（自主式 AI）的 Linux 企业发行版阿里 AI 编程工具 Qoder 发布 Linux 版本

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：Cloudflare 遭遇全球大规模服务中断，故障复盘报告已发布下一篇：震撼！台积电前採购副总李文如传跳槽辉达新职位曝光

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

Mac截图全攻略：快捷键一览

2025-11-19 12:30:02
Tkinter Menubutton与Menu正确关联指南

2025-11-19 12:34:26
解决IIS URL重写规则导致静态资源加载失败的问题

2025-11-19 12:42:36
《CEDEC 2026》7月22日举行日本最大游戏开发者大会

2025-11-19 12:45:02
NumPy reshape 深度解析：方法与函数的差异与应用

2025-11-19 12:47:00
在Gravis可视化NetworkX图时为节点添加交互式工具提示

2025-11-19 12:50:02
解决Symfony本地应用连接Docker容器数据库的指南

2025-11-19 12:50:21
利用Flask和Jinja2在表单提交后显示成功或错误消息

2025-11-19 12:51:34
PHP API开发中JSON响应前的HTML输出问题解析与解决方案

2025-11-19 12:56:02
使用Python高效识别和处理CSV文件中的列数不一致及编码问题

2025-11-19 12:56:57

最新问题

震撼！台积电前採购副总李文如传跳槽辉达新职位曝光台积电前资材管理副总李文如近日正式请辞，据《自由时报》独家报导，李文如将加入辉达（NVIDIA）担任企业级用户营运（WWFO）副总裁，将负责台湾各大企业客户销售及战略协作。据了解，李文如在台积电任职期间，曾于2024年8月升任副总经理，成为公司史上最年轻管理高层之一，此次加入辉达，受聘于全球营运业务部，并非单纯的台湾总经理职级，而是身兼全球及台湾区重大客户销售与服务协调，属于国际性战略职位。市场上认为，由于台积电与辉达长期在AI晶片领域紧密合作，该人事挪动并不受台积电竞业条款限

2025-11-19 15:45:28

833

OpenAI 如何将 Fluent Bit CPU 使用率降低 50%，释放 3 万核计算资源 OpenAI每天处理超过9PB的日志，对AI研究和推理生产至关重要。所有工作负载都运行在Kubernetes上，每个节点运行多个DaemonSet：FluentBit、OpenTelemetryCollecto

2025-11-19 15:44:02

500

Cloudflare 遭遇全球大规模服务中断，故障复盘报告已发布 11月18日晚，Cloudflare遭遇波及全球的大规模网络故障，导致ChatGPT、社交媒体平台X等多家网站部分用户无法正常访问。彼时，Cloudflare在系统状态页面称正就“可能影响多个客户”的问题展开调查

2025-11-19 15:39:01

140

安谋科技发布新一代 NPU IP “周易” X3 近日，安谋科技正式发布新一代NPUIP“周易”X3。该产品采用最新DSP+DSA架构，可灵活支持端侧多任务场景。据了解，其配套的“周易”NPUCompassAI软件平台优化大模型端到端性能，新增对Hugg

2025-11-19 15:35:02

758

全国卫星导航定位基准站将被纳入统一监管，明年 1 月起实施感谢网友若怡、Roronoa_、西窗旧事的线索投递！11月18日消息，自然资源部今天公布了《卫星导航定位基准站管理办法》（后简称《办法》），从明年1月1日起，将对全国卫星导航定位基准站的建设和运行维护等全链条工作进行统一规范管理。《办法》所称卫星导航定位基准站，是指对卫星导航信号进行长期连续观测，并通过通信设施将观测数据实时或者定时传送至数据中心的地面固定观测站。《办法》规定，卫星导航定位基准站建设和运行维护实行统一规划、统一标准、统一监管，坚持合理布局、依法备案、资源共享、保障安全的

2025-11-19 15:34:00

682

两个商业插件改为开源插件！开源无代码 / 低代码平台 NocoBase 定价调整原文链接：https://www.nocobase.com/cn/blog/two-commercial-plugins-are-now-open-source根据社区用户的积极反馈，NocoBase决定将以下两款高频使用的工作流插件由商业版转为开源版本：JSON计算JSON变量映射为何选择开源？这两款插件在实际工作流中应用广泛，常作为SQL查询、HTTP请求等节点的后续处理环节。由于此前属于商业功能，导致部分社区版用户在使用核心功能时受到限制，影响整体体验。为了提升开放性和可用性，我们决

2025-11-19 15:26:01

382

lamp-cloud 5.7.0 发布，新增缓存清理+修复优化全覆盖项目迭代更新日志一、新增功能（feat）lamp-web-max-vben：新增清理当前应用的资源缓存的接口system：实现资源缓存清

2025-11-19 15:25:24

942

Win11 测试“AI 文件连接器”：Claude 可直接请求本地文件微软正在Windows11的最新预览版本中试验MCP（模型上下文协议）连接器，该功能可让Claude等第三方AI通过文件资源管理器向用户请求访问本地文件的权限。一旦获得授权，AI便能在无需将数据上传至云端的情况下读取文件内容并执行相应任务。整个流程类似于：“打开Claude→输入‘用《我的文档》里的资料制作PPT’→系统弹出授权窗口→AI在本地解析文件并生成结果”。微软展示了多个应用场景，例如利用本地照片一键生成房地产展示网站，或让Claude对整个文件夹内容进行汇总后自动生成PowerPoi

2025-11-19 14:38:01

542

JPROCMS 1.5.4 发布，开源免费 Java CMS 网站内容管理系统，支持 SaaS 更新日志新增栏目详情读取顶级栏目属性新增栏目创建自动赋予赋予角色数据权限功能新增内容类型操作功能新增上下篇API接口参数支持上层栏目远程下载图片新增Referheader解决远程抓取部分图片refer限制下载不

2025-11-19 14:30:11

469

跟进YouTube！Meta推短片内容保护机制助原创者抗盗版社群媒体巨擘Meta近日推出一项全新的内容保护机制，旨在协助Facebook短影片创作者防范未经授权的内容盗用。这项名为「Facebook内容保护」的工具，能够自动侦测平台上的原创Reels是否被他人转载，并提供多种应对选项，强化创作者对自身作品的掌控权。该工具目前支援行動裝置使用，当系统检测到影片被他人使用时，创作者将收到通知，并可依需求选择后续处理方式：包括封锁该影片在Facebook与Instagram上的显示权限、持续追蹤其传播数据，或加入署名链接导回原始内容。此外，创作者亦能主动放弃所

2025-11-19 14:12:02

112

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新 English: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

PHP中文网APP: 随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部