postgresqlhashagg如何工作_postgresql聚合算法机制

舞姬之光

发布时间：2025-11-23 17:26:02

140人浏览过

来源于php中文网

原创

Hash Aggregate通过哈希表分组聚合数据，适用于无序大表且分组较少场景；读取数据后提取分组键构建哈希表，累加聚合值并输出结果；当分组过多超出work_mem时会溢出到磁盘；相比需排序的GroupAggregate，Hash Aggregate更快但耗内存，常用于无索引或未排序的GROUP BY查询。

postgresqlhashagg如何工作_postgresql聚合算法机制

PostgreSQL 中的 HASHAGG（Hash Aggregate）是一种高效的聚合执行机制，主要用于处理带有 GROUP BY 的聚合查询。它通过构建哈希表来分组数据，然后在每个分组内计算聚合函数（如 COUNT、SUM、AVG 等），适用于大数据量但分组数量相对较小的场景。

Hash Aggregate 的基本工作流程

当 PostgreSQL 执行计划选择使用 Hash Aggregate 时，其内部大致按以下步骤运行：

读取输入数据：从子节点（如顺序扫描、索引扫描或其他操作）逐行读取原始数据。
提取分组键（GROUP BY 列）：对每一行提取用于分组的字段值。
构建哈希表：以分组键为哈希键，在内存中创建一个哈希表。如果该分组键已存在，则更新对应聚合状态；若不存在，则插入新条目并初始化聚合状态（如 sum=0, count=1）。
累加聚合值：对于每个分组，持续更新聚合中间状态，例如将数值累加到 sum 中，或递增 count。
输出结果：所有输入行处理完毕后，遍历哈希表，将每个分组键及其最终聚合结果返回给上层节点。

何时使用 Hash Aggregate？

PostgreSQL 查询规划器会根据成本估算决定是否采用 Hash Aggregate。常见触发条件包括：

输入数据未排序，且没有可用的索引支持有序分组。
分组数量适中，可以在内存中容纳整个哈希表。
相比 Sort + Group Aggregate，Hash Aggregate 避免了显式排序开销，适合无序大数据集。

可以通过 EXPLAIN 查看执行计划中是否出现 HashAggregate 节点：

HashAggregate (cost=...)
Group Key: column_name
-> Seq Scan on table_name ...

内存管理与磁盘溢出

Hash Aggregate 主要在内存中运行，但如果分组过多导致内存不足，PostgreSQL 支持将部分哈希桶写入磁盘（spill to disk），这一过程称为“hash 溢出”。

BlackBox AI

AI编程助手，智能对话问答助手

下载

受参数 work_mem 控制：每个查询操作可使用的最大内存。
当哈希表超过 work_mem 限制时，系统会将部分数据写入临时文件，降低性能但保证查询能完成。
可通过增加 work_mem 或优化查询减少分组数来避免溢出。

与 Sort + Group Aggregate 的对比

PostgreSQL 还支持另一种聚合方式：先排序再分组（通常叫 GroupAggregate）。

GroupAggregate：要求输入按分组键排序，适合已有索引或上游已排序的情况，内存占用低，但排序本身可能昂贵。
HashAggregate：不要求排序，直接哈希分组，速度快但内存消耗高，不适合极高基数的分组。

例如，以下查询更可能走 HashAggregate：

SELECT category, SUM(price)
FROM products
GROUP BY category;

如果 category 没有索引或数据无序，PostgreSQL 很可能选择 Hash Aggregate 提高性能。

基本上就这些。Hash Aggregate 是 PostgreSQL 在处理非排序输入聚合时的核心优化手段，合理利用它能显著提升分析类查询效率。

SQL数据库NULL语义处理_三值逻辑影响

SQL数据库事务日志一致性_崩溃恢复边界分析

SQL数据库锁兼容矩阵_冲突与共存关系

SQL数据库数据一致性设计_强一致与最终一致

SQL数据库时间同步问题_时区与时间函数陷阱

相关标签:

go 大数据 ai 内存占用 cos 聚合函数 gate count sort select 算法 postgresql

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：postgresqlunion与unionall有何差异_postgresql集合操作原理下一篇：postgresql后台进程有哪些作用_postgresql后台任务机制解析

作者最新文章

苹果手机价格表最新2026_苹果官网iPhone全系列最新报价表

2026-01-15 09:51

国考调剂名单什么时候公布？个人怎么申请调剂

2026-01-15 09:58

2026中国人民银行分数线是多少？中国人民银行最低分数线是多少

2026-01-15 10:01

2026热门国考单位有哪些国考考哪些单位好

2026-01-15 10:03

国考补录公告什么时候发布？怎么查询补录名单

2026-01-15 10:04

抖音极速版红包雨技巧

2026-01-15 10:06

苹果不得不这么做！与谷歌「联姻」的背后原因竟是...

2026-01-15 10:19

苹果首款摺叠机长这样？iPhone Fold模具设计曝光支援磁吸功能

2026-01-15 10:27

国考递补公告时间是什么时候递补公告会短信通知吗

2026-01-15 11:12

REDMI Turbo 5 Pro《GeekBench》测试参数流出！传首配天玑 9500e 晶片、同系 Max 版外观可能係咁？

2026-01-15 11:38

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

197

2023.11.20

sort排序函数用法

sort排序函数的用法：1、对列表进行排序，默认情况下，sort函数按升序排序，因此最终输出的结果是按从小到大的顺序排列的；2、对元组进行排序，默认情况下，sort函数按元素的大小进行排序，因此最终输出的结果是按从小到大的顺序排列的；3、对字典进行排序，由于字典是无序的，因此排序后的结果仍然是原来的字典，使用一个lambda表达式作为key参数的值，用于指定排序的依据。

385

2023.09.04

页面置换算法

页面置换算法是操作系统中用来决定在内存中哪些页面应该被换出以便为新的页面提供空间的算法。本专题为大家提供页面置换算法的相关文章，大家可以免费体验。

402

2023.08.14

postgresql常用命令

postgresql常用命令psql、createdb、dropdb、createuser、dropuser、l、c、dt、d table_name、du、i file_name、e和q等。本专题为大家提供postgresql相关的文章、下载、课程内容，供大家免费下载体验。

158

2023.10.10

常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

970

2023.11.02

postgresql常用命令有哪些

postgresql常用命令psql、createdb、dropdb、createuser、dropuser、l、c、dt、d table_name、du、i file_name、e和q等。更详细的postgresql常用命令，大家可以访问下面的文章。

196

2023.11.16

postgresql常用命令介绍

postgresql常用命令有l、d、d5、di、ds、dv、df、dn、db、dg、dp、c、pset、show search_path、ALTER TABLE、INSERT INTO、UPDATE、DELETE FROM、SELECT等。想了解更多postgresql的相关内容，可以阅读本专题下面的文章。

267

2023.11.20

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15