0

0

postgresqlhashagg如何工作_postgresql聚合算法机制

舞姬之光

舞姬之光

发布时间:2025-11-23 17:26:02

|

140人浏览过

|

来源于php中文网

原创

Hash Aggregate通过哈希表分组聚合数据,适用于无序大表且分组较少场景;读取数据后提取分组键构建哈希表,累加聚合值并输出结果;当分组过多超出work_mem时会溢出到磁盘;相比需排序的GroupAggregate,Hash Aggregate更快但耗内存,常用于无索引或未排序的GROUP BY查询。

postgresqlhashagg如何工作_postgresql聚合算法机制

PostgreSQL 中的 HASHAGG(Hash Aggregate)是一种高效的聚合执行机制,主要用于处理带有 GROUP BY 的聚合查询。它通过构建哈希表来分组数据,然后在每个分组内计算聚合函数(如 COUNTSUMAVG 等),适用于大数据量但分组数量相对较小的场景。

Hash Aggregate 的基本工作流程

当 PostgreSQL 执行计划选择使用 Hash Aggregate 时,其内部大致按以下步骤运行:

  • 读取输入数据:从子节点(如顺序扫描、索引扫描或其他操作)逐行读取原始数据。
  • 提取分组键(GROUP BY 列):对每一行提取用于分组的字段值。
  • 构建哈希表:以分组键为哈希键,在内存中创建一个哈希表。如果该分组键已存在,则更新对应聚合状态;若不存在,则插入新条目并初始化聚合状态(如 sum=0, count=1)。
  • 累加聚合值:对于每个分组,持续更新聚合中间状态,例如将数值累加到 sum 中,或递增 count。
  • 输出结果:所有输入行处理完毕后,遍历哈希表,将每个分组键及其最终聚合结果返回给上层节点。

何时使用 Hash Aggregate?

PostgreSQL 查询规划器会根据成本估算决定是否采用 Hash Aggregate。常见触发条件包括:

  • 输入数据未排序,且没有可用的索引支持有序分组。
  • 分组数量适中,可以在内存中容纳整个哈希表。
  • 相比 Sort + Group Aggregate,Hash Aggregate 避免了显式排序开销,适合无序大数据集。

可以通过 EXPLAIN 查看执行计划中是否出现 HashAggregate 节点:

HashAggregate (cost=...)
Group Key: column_name
-> Seq Scan on table_name ...

内存管理与磁盘溢出

Hash Aggregate 主要在内存中运行,但如果分组过多导致内存不足,PostgreSQL 支持将部分哈希桶写入磁盘(spill to disk),这一过程称为“hash 溢出”。

BlackBox AI
BlackBox AI

AI编程助手,智能对话问答助手

下载
  • 受参数 work_mem 控制:每个查询操作可使用的最大内存。
  • 当哈希表超过 work_mem 限制时,系统会将部分数据写入临时文件,降低性能但保证查询能完成。
  • 可通过增加 work_mem 或优化查询减少分组数来避免溢出。

与 Sort + Group Aggregate 的对比

PostgreSQL 还支持另一种聚合方式:先排序再分组(通常叫 GroupAggregate)。

  • GroupAggregate:要求输入按分组键排序,适合已有索引或上游已排序的情况,内存占用低,但排序本身可能昂贵。
  • HashAggregate:不要求排序,直接哈希分组,速度快但内存消耗高,不适合极高基数的分组。

例如,以下查询更可能走 HashAggregate:

SELECT category, SUM(price)
FROM products
GROUP BY category;

如果 category 没有索引或数据无序,PostgreSQL 很可能选择 Hash Aggregate 提高性能。

基本上就这些。Hash Aggregate 是 PostgreSQL 在处理非排序输入聚合时的核心优化手段,合理利用它能显著提升分析类查询效率。

相关专题

更多
counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

197

2023.11.20

sort排序函数用法
sort排序函数用法

sort排序函数的用法:1、对列表进行排序,默认情况下,sort函数按升序排序,因此最终输出的结果是按从小到大的顺序排列的;2、对元组进行排序,默认情况下,sort函数按元素的大小进行排序,因此最终输出的结果是按从小到大的顺序排列的;3、对字典进行排序,由于字典是无序的,因此排序后的结果仍然是原来的字典,使用一个lambda表达式作为key参数的值,用于指定排序的依据。

385

2023.09.04

页面置换算法
页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章,大家可以免费体验。

402

2023.08.14

postgresql常用命令
postgresql常用命令

postgresql常用命令psql、createdb、dropdb、createuser、dropuser、l、c、dt、d table_name、du、i file_name、e和q等。本专题为大家提供postgresql相关的文章、下载、课程内容,供大家免费下载体验。

158

2023.10.10

常用的数据库软件
常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

970

2023.11.02

postgresql常用命令有哪些
postgresql常用命令有哪些

postgresql常用命令psql、createdb、dropdb、createuser、dropuser、l、c、dt、d table_name、du、i file_name、e和q等。更详细的postgresql常用命令,大家可以访问下面的文章。

196

2023.11.16

postgresql常用命令介绍
postgresql常用命令介绍

postgresql常用命令有l、d、d5、di、ds、dv、df、dn、db、dg、dp、c、pset、show search_path、ALTER TABLE、INSERT INTO、UPDATE、DELETE FROM、SELECT等。想了解更多postgresql的相关内容,可以阅读本专题下面的文章。

267

2023.11.20

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

4

2026.01.15

公务员递补名单公布时间 公务员递补要求
公务员递补名单公布时间 公务员递补要求

公务员递补名单公布时间不固定,通常在面试前,由招录单位(如国家知识产权局、海关等)发布,依据是原入围考生放弃资格,会按笔试成绩从高到低递补,递补考生需按公告要求限时确认并提交材料,及时参加面试/体检等后续环节。要求核心是按招录单位公告及时响应、提交材料(确认书、资格复审材料)并准时参加面试。

23

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 3.8万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号