先清理重复数据再归档,确保主表精简与历史保留。一、用ROW_NUMBER()去重并存入临时表;二、创建含归档时间的归档表;三、将去重数据插入归档表;四、验证数据一致性后清理原表,支持分批操作避免锁表现象。

MySQL去重后如何归档数据?关键在于先清理重复,再安全迁移有效记录。 实际业务中,数据去重和归档常结合使用,以释放主表空间并保留历史信息。以下是清晰的操作流程。
一、确认并执行去重操作
在归档前,确保目标数据已去重。常见方式包括:
- 使用
SELECT DISTINCT提取唯一记录 - 通过
GROUP BY配合聚合函数(如保留最新一条) - 利用窗口函数
ROW_NUMBER()标记重复行,删除冗余项
例如,按关键字段去重保留 id 最小的一条:
CREATE TABLE tmp_unique AS
SELECT * FROM (
SELECT *,
ROW_NUMBER() OVER (PARTITION BY col1, col2 ORDER BY id) AS rn
FROM original_table
) t WHERE rn = 1;二、创建归档表结构
归档表结构通常与原表一致,或根据需求精简。建议添加归档时间字段便于管理:
CREATE TABLE archive_table (
LIKE original_table
);
ALTER TABLE archive_table ADD COLUMN archive_time DATETIME DEFAULT CURRENT_TIMESTAMP;也可直接从原表复制结构:
CREATE TABLE archive_table LIKE original_table;
三、将去重后数据写入归档表
将去重后的结果插入归档表:
INSERT INTO archive_table SELECT * FROM tmp_unique;
若需附加归档标记,可显式赋值时间或其他元信息。
四、验证并清理原表
- 核对归档表记录数与去重后数据是否一致
- 抽样比对关键字段,确保数据完整
- 确认无误后,清空原表或删除原始数据
例如清空原表并重新导入唯一数据:
TRUNCATE TABLE original_table; INSERT INTO original_table SELECT * FROM tmp_unique;
或采用分批归档方式避免锁表过久,适用于大数据量场景。
基本上就这些。整个过程核心是“先稳后动”,确保每一步都有备份或临时表支撑,防止数据丢失。









