答案:掌握去重后筛选需理解执行顺序,优先用HAVING处理聚合条件,子查询和窗口函数应对复杂场景。

在MySQL中,去重和筛选是日常查询中最常见的操作。很多人在使用 DISTINCT 或 GROUP BY 去重后,发现无法灵活地进一步筛选数据,尤其是当需要基于去重后的结果做条件过滤时。其实只要理解执行顺序和合理使用子查询或 HAVING,就能高效实现目标。
1. 使用 DISTINCT 去重后筛选
DISTINCT 用于去除完全重复的行,但它不能直接配合 WHERE 对聚合结果做判断。若要去重后再筛选,推荐将去重结果作为子查询处理。
- 比如从订单表中获取不同用户的订单数大于1的用户邮箱:
SELECT email FROM (SELECT email, COUNT(*) AS cnt FROM orders GROUP BY email) t WHERE cnt > 1;
- 虽然用了 GROUP BY,但思路一致:先分组(相当于去重统计),再在外层筛选。
- 如果只是简单去重字段,如 SELECT DISTINCT email FROM users; 想加条件,直接在 WHERE 中写即可,因为此时无需聚合判断。
2. 利用 GROUP BY 配合 HAVING 筛选聚合后数据
GROUP BY 不仅能去重,还能配合聚合函数统计。HAVING 可以对聚合结果进行筛选,这是 WHERE 无法做到的。
- 例如:找出至少下过2个订单的用户:
SELECT user_id, COUNT(*) AS order_count FROM orders GROUP BY user_id HAVING COUNT(*) >= 2;
- HAVING 是作用于分组后的数据,适合“去重+统计+筛选”场景。
- 相比子查询,性能更优,代码更简洁。
3. 结合窗口函数实现复杂去重筛选
对于需要保留去重后某条具体记录(如最新一条),可用 ROW_NUMBER() 等窗口函数。
- 例如:每个用户只取最新一条订单,并筛选金额大于100的:
SELECT * FROM (SELECT *, ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY create_time DESC) AS rn FROM orders) t WHERE rn = 1 AND amount > 100;
- 先按用户分区排序编号,取每组第一条实现去重,再通过外层 WHERE 筛选。
- 适用于需保留完整记录且有条件过滤的场景。
基本上就这些常用技巧。关键是理解 SQL 执行顺序:WHERE → GROUP BY → 聚合函数 → HAVING → SELECT → DISTINCT → ORDER BY → LIMIT。合理利用子查询、HAVING 和窗口函数,就能轻松实现去重后的精准筛选。不复杂但容易忽略细节。









