UNION 去重而 UNION ALL 保留重复行;2. UNION 因去重开销大,性能低于 UNION ALL;3. 两者均需列数和数据类型兼容;4. 根据是否需去重选择操作符,优先用 UNION ALL 提升性能。

在 PostgreSQL 中,UNION 与 UNION ALL 都用于合并两个或多个 SELECT 查询的结果集,但它们在处理重复数据时有本质区别。
1. 去重行为不同
UNION 会自动去除结果中的重复行。PostgreSQL 在执行 UNION 时,会对合并后的结果集进行排序或哈希操作,识别并删除完全相同的记录,只保留一条。
UNION ALL 则不做任何去重处理,它会将所有查询结果原封不动地合并在一起,包括重复的行。
例如:
SELECT 1 AS idUNION
SELECT 1;
-- 结果:只返回一行 (1) SELECT 1 AS id
UNION ALL
SELECT 1;
-- 结果:返回两行 (1, 1)
2. 性能差异明显
由于 UNION 需要进行去重操作,通常涉及内部排序或构建哈希表,这会带来额外的 CPU 和内存开销,尤其在处理大量数据时性能下降较明显。
UNION ALL 直接拼接结果,不进行额外计算,因此执行速度更快,资源消耗更低。
如果确定查询结果中无重复,或业务允许重复数据存在,优先使用 UNION ALL 更高效。
3. 集合操作原理简析
PostgreSQL 的集合操作(如 UNION、INTERSECT、EXCEPT)基于数学中的集合运算模型:
- 每个 SELECT 查询视为一个“多重集”(multiset),即允许重复元素的集合。
- UNION 对应“并集”运算,且默认为“去重并集”。
- UNION ALL 是“多重集并集”,保留所有出现次数。
- 这些操作要求参与的查询具有相同数量的列,且对应列的数据类型兼容。
执行流程大致为:先分别执行各子查询,再将结果按指定规则合并,最后对 UNION 进行去重处理。
4. 使用建议
根据实际需求选择合适的操作符:
- 需要唯一结果时使用 UNION,比如报表统计去重汇总。
- 追求性能或明确接受重复时用 UNION ALL,如日志合并、分段数据导出。
- 避免在可使用 UNION ALL 的场景误用 UNION,以免造成不必要的性能损耗。
基本上就这些。理解两者差异有助于写出更高效、语义更清晰的 SQL 查询。










