MySQL 8.0+启用ONLY_FULL_GROUP_BY后,SELECT非聚合字段必须出现在GROUP BY中或用聚合函数包裹;COUNT(*)与COUNT(1)等价,COUNT(col)需判空且性能略低;WHERE应过滤行、HAVING过滤分组,错用致性能骤降;JOIN后GROUP BY易因一对多引发笛卡尔积和结果失真。

GROUP BY 后字段必须出现在 SELECT 或聚合函数中
MySQL 8.0+ 默认启用 sql_mode=ONLY_FULL_GROUP_BY,这意味着 SELECT 列表里所有非聚合字段都必须严格出现在 GROUP BY 子句中。否则会报错:Expression #1 of SELECT list is not in GROUP BY clause and contains nonaggregated column。
常见误写:
SELECT user_id, name, COUNT(*) FROM orders GROUP BY user_id;
这里 name 既没参与分组,也没被聚合,MySQL 不知道该取哪一行的 name —— 它拒绝“猜”。解决办法只有两种:
- 把
name加进GROUP BY(如果业务逻辑允许,比如user_id和name是一一对应的) - 用聚合函数包裹,例如
MAX(name)或ANY_VALUE(name)(后者是 MySQL 特有,表示接受任意值,但需确认语义安全)
COUNT(*)、COUNT(1)、COUNT(col) 性能差异真实存在吗?
在绝大多数 InnoDB 场景下:COUNT(*) 和 COUNT(1) 完全等价,优化器会忽略常量表达式,直接走索引或聚簇索引的行计数逻辑;而 COUNT(col) 会跳过 col 为 NULL 的行,必须实际读取该列值,开销略高。
注意点:
- 如果
col有NOT NULL约束,COUNT(col)和COUNT(*)在语义和性能上几乎一致 - 没有合适索引时,三者都会触发全表扫描;但如果有覆盖索引(如对
status建了索引),COUNT(status)可能走索引树,比COUNT(*)快 - 别迷信 “
COUNT(1)比COUNT(*)快” —— 这是过时经验,在现代 MySQL 中不成立
WHERE 和 HAVING 混用导致性能崩溃
WHERE 过滤行,HAVING 过滤分组结果,二者执行阶段不同。把本该写在 WHERE 的条件挪到 HAVING 里,会让 MySQL 先做全量分组,再筛组,极大增加内存和 CPU 开销。
反例:
系统功能强大、操作便捷并具有高度延续开发的内容与知识管理系统,并可集合系统强大的新闻、产品、下载、人才、留言、搜索引擎优化、等功能模块,为企业部门提供一个简单、易用、开放、可扩展的企业信息门户平台或电子商务运行平台。开发人员为脆弱页面专门设计了防刷新系统,自动阻止恶意访问和攻击;安全检查应用于每一处代码中,每个提交到系统查询语句中的变量都经过过滤,可自动屏蔽恶意攻击代码,从而全面防止SQL注入攻击
SELECT user_id, COUNT(*) c FROM orders GROUP BY user_id HAVING user_id > 1000;
正确写法是:
SELECT user_id, COUNT(*) c FROM orders WHERE user_id > 1000 GROUP BY user_id;
关键区别:
-
WHERE user_id > 1000可利用user_id索引快速定位,减少输入到GROUP BY的行数 -
HAVING user_id > 1000无法下推,必须先按所有user_id分组(哪怕最终只留 10 行),临时表可能爆内存 - 尤其当
orders表有千万级数据,且GROUP BY字段区分度低时,这个错误会让查询从秒级变分钟级
聚合 + JOIN 容易触发笛卡尔积和临时表膨胀
多表 JOIN 后再 GROUP BY,若关联键不是一对一,极易放大行数。例如用户表 × 订单表 × 订单项表,一个用户多个订单、一个订单多个商品,COUNT(*) 会统计“订单项”数量而非“订单”数量,结果失真。
典型陷阱:
SELECT u.id, COUNT(*) FROM users u JOIN orders o ON u.id = o.user_id JOIN order_items oi ON o.id = oi.order_id GROUP BY u.id;
想统计每个用户的订单数,却得到每个用户的订单项总数。修复方式取决于语义:
- 要订单数 → 改用
COUNT(DISTINCT o.id) - 要订单项数 → 显式说明意图,但需确认是否真需要跨三层聚合
- 更稳妥:先子查询聚合订单层,再 JOIN 用户表,避免中间结果膨胀
临时表大小受 tmp_table_size 和 max_heap_table_size 控制,一旦溢出磁盘,性能断崖下跌 —— 这类问题往往在测试环境看不出来,上线后大数据量才暴露。









