openai 近日发布最新技术博客,详细介绍了其如何对开源关系型数据库 postgresql 进行深度定制与规模化改造,成功支撑 chatgpt 及 openai api 的全球高并发业务,此举重新定义了业界对传统关系型数据库扩展能力的边界认知。

伴随 ChatGPT 用户量持续攀升,OpenAI 在过去一年中观测到 PostgreSQL 的整体负载增长逾 10 倍。为应对峰值达数百万查询/秒(QPS)的流量压力,并维持毫秒级响应延迟,团队在数据库架构、运维策略与应用协同层面实施了系统性升级。

整体架构仍沿用稳健的单主节点(single-primary)+ 多地域只读副本集群模式:所有写操作集中于主库,而约 50 个地理分散的只读副本承担全球范围内的读请求。该设计规避了分片带来的复杂性与一致性挑战,同时高效承载海量读取场景。


关键优化举措
1. 写负载剥离与精简
为缓解主库写入瓶颈,OpenAI 将部分高吞吐、可水平扩展的写密集型任务迁移至专用分片存储(如 Azure Cosmos DB),并在服务层主动收敛非必要写入,显著降低主库事务压力。
2. 全面推行读写分离
仅保留必须与写事务强绑定的读操作在主库执行;其余绝大多数读请求均由各地副本承接,有效分流主节点资源消耗。
3. 连接复用与智能缓存协同
引入 PgBouncer 作为连接池中间件,将平均连接建立耗时从约 50ms 优化至 5ms;配合分级缓存机制(含本地缓存 + 分布式缓存),防止缓存失效风暴引发数据库瞬时过载。
4. 查询治理与资源分级管控
严格限制多表 JOIN 等高开销 SQL 执行,将复杂关联逻辑前置至应用层处理;通过资源隔离策略(如独立实例或 cgroup 限流),将后台分析类、低优先级请求与核心在线服务物理/逻辑隔离,杜绝“噪声邻居”干扰。
5. 主库高可用与快速故障恢复
主库部署于高可用 HA 架构下,并配置实时热备节点,确保主节点异常时可在秒级内完成无缝切换,最大限度保障服务 SLA。
经上述综合调优,OpenAI 的 PostgreSQL 集群实现以下关键指标:
- 支撑百万至数百万 QPS 的稳定读取吞吐
- 实现全球各区域毫秒级访问延迟
- 达成 99.999% 的服务可用性
- p99 延迟控制在十几毫秒以内
在最近 12 个月运行周期中,仅发生一次 SEV-0 级别数据库事件,起因是 ImageGen 功能用户激增导致局部资源饱和。
这一实践有力印证:在严谨的工程方法论与精细化架构设计支撑下,PostgreSQL 完全可胜任超大规模生产环境的核心数据底座角色。对于多数尚未面临强分片需求的团队而言,它提供了一条更可控、更成熟、更具性价比的技术演进路径。
后续,OpenAI 正在评估包括 PostgreSQL 原生分片(如 Citus 集成)、级联复制增强、以及异步复制链路优化等方向,以进一步提升只读副本扩展弹性与跨区域同步效率。
源码地址:点击下载










