<p>答案:MySQL去重需先识别重复数据,再安全删除冗余记录。以email为判断依据时,可用SELECT email, COUNT() FROM users GROUP BY email HAVING COUNT() > 1查询重复;MySQL 8.0+推荐使用ROW_NUMBER()窗口函数配合DELETE与CTE删除重复项,保留id最小的记录;低版本可采用自连接DELETE u1 FROM users u1, users u2 WHERE u1.email = u2.email AND u1.id > u2.id实现;也可通过临时表保存MIN(id)并删除原表不在临时表中的数据;去重后应添加ALTER TABLE users ADD UNIQUE INDEX idx_email_unique (email)防止未来重复;操作前必须备份表CREATE TABLE users_backup AS SELECT * FROM users,并在测试环境验证,生产环境低峰期执行。</p>

在MySQL中处理重复数据是日常数据库维护中的常见需求。编写一个有效的去重脚本,关键在于准确识别重复记录,并安全地保留一条有效数据,同时删除冗余项。下面详细介绍几种实用的MySQL去重方法,适用于不同场景。
去重前要明确“什么是重复”。通常基于一个或多个字段判断,比如手机号、邮箱、用户名等唯一标识。
示例:假设有一张用户表 users,结构如下:
CREATE TABLE users (
id INT AUTO_INCREMENT PRIMARY KEY,
name VARCHAR(50),
email VARCHAR(100)
);
我们以 email 字段作为判断重复的依据。
先查询哪些 email 出现了多次:
SELECT email, COUNT(*) as cnt FROM users GROUP BY email HAVING cnt > 1;
这一步帮助你评估去重范围,避免误删。
MySQL 8.0+ 支持窗口函数,可高效去重。思路是为每组重复数据编号,只保留编号为1的记录。
创建临时表或使用 CTE(公用表表达式):
DELETE t1 FROM users t1
INNER JOIN (
SELECT
id,
ROW_NUMBER() OVER (PARTITION BY email ORDER BY id) as rn
FROM users
) t2 ON t1.id = t2.id
WHERE t2.rn > 1;
说明:
对于 MySQL 5.7 及以下版本,不支持窗口函数,可用自连接或临时表方式。
方法一:自连接删除
DELETE u1 FROM users u1, users u2 WHERE u1.email = u2.email AND u1.id > u2.id;
逻辑:保留 id 较小的记录,删除相同 email 中 id 更大的。
方法二:利用临时表
-- 创建临时表保存去重后的数据 CREATE TEMPORARY TABLE temp_users AS SELECT MIN(id) as id, email FROM users GROUP BY email; <p>-- 删除原表数据 DELETE FROM users WHERE id NOT IN (SELECT id FROM temp_users);</p>
注意:该方法会一次性删除所有不在临时表中的记录,操作前建议备份。
去重完成后,建议添加唯一约束,防止数据再次重复:
ALTER TABLE users ADD UNIQUE INDEX idx_email_unique (email);
后续插入重复 email 时会报错,强制程序处理重复逻辑。
基本上就这些。根据你的 MySQL 版本和业务需求选择合适的方法。核心原则是:先查再删,保留关键记录,操作留痕。
以上就是mysql去重脚本怎么编写_mysql去重脚本编写详细教程的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号