Excel提供五种AI驱动数据清洗方法:Copilot自动识别重复与错误;DeepSeek提示工程生成定制公式;UNIQUE+FILTER+IFERROR构建动态去重链;CLEANTEXT函数语义级文本净化;条件格式+数据验证+AI注释实现人机协同。

一、使用Excel Copilot自动识别并清理重复与错误数据
Copilot作为内嵌于Excel的AI助手,可基于上下文理解数据语义,自动检测重复记录、格式不一致、大小写混杂、多余空格及非标准字符等典型清洗问题。它无需编写公式,直接在“数据”选项卡中触发,适合快速处理中等规模结构化表格。
1、确保您的Excel版本已启用Copilot(需Microsoft 365订阅且更新至最新版)。
2、选中待清洗的数据区域(建议包含表头),或点击任意单元格使Excel自动识别整张表格。
3、转到【数据】选项卡,点击【清理数据】按钮,Copilot将立即扫描并弹出建议面板。
4、在面板中勾选【标记重复值】、【标准化文本大小写】、【删除前导/尾随空格】、【统一数字格式】等具体建议项。
5、点击【应用所选建议】,Copilot将在原表旁插入新工作表展示清洗前后对比,并高亮所有被修改的单元格位置及原始内容。
二、借助DeepSeek提示工程驱动Excel批量清洗
DeepSeek类大模型可通过高质量提示词精准解析用户意图,将模糊需求(如“把手机号中间四位替换成星号”“合并同名客户的所有订单金额”)转化为可执行的Excel函数逻辑或Power Query步骤。该方法适用于复杂业务规则下的定制化清洗任务。
1、在Excel中复制3–5行典型样本数据(含原始值与期望清洗结果示例)。
2、打开DeepSeek对话界面,输入提示词:“你是一名Excel高级数据工程师。以下是我提供的原始数据样例(附列名):[粘贴样例]。请生成一个完整的、可直接粘贴进Excel单元格的公式,实现【具体清洗目标,例如:提取A列中首次出现的邮箱地址,忽略大小写和前后空格】。”
3、接收DeepSeek返回的公式(如:=TRIM(SUBSTITUTE(LOWER(A2)," ",""))),验证无误后批量下拉填充。
4、对多步骤清洗任务,要求DeepSeek输出分步Power Query M代码,并指导在【数据】→【从表格/区域】→【高级编辑器】中替换代码。
三、利用UNIQUE+FILTER+IFERROR组合构建AI增强型去重清洗链
该方法不依赖外部AI服务,而是通过动态数组函数模拟智能判断逻辑,在保留源数据前提下,自动分离唯一值、标记重复频次、过滤错误类型值(如非法日期、超长文本、非数字字符),形成可刷新的清洗流水线。
1、在空白列(如D列)输入公式:=UNIQUE(FILTER(A2:A1000,ISNUMBER(SEARCH("@",A2:A1000)))),用于提取A列中含“@”符号的有效邮箱候选集。
2、在E列输入:=COUNTIF(A:A00,A2),统计每行在全列中的重复次数。
3、在F列输入:=IF(OR(E2>1,LEN(A2)>50,NOT(ISNUMBER(--SUBSTITUTE(A2,"-","")))), "需核查", "通过"),综合判定是否为异常记录。
4、在G列用FILTER函数筛选F列为“通过”的行:=FILTER(A2:C1000,F2:F1000="通过"),生成最终清洗后数据区。
5、当源数据更新时,所有公式自动重算,无需手动触发或重新操作。
四、调用Excel内置AI函数CLEANTEXT进行语义级文本净化
CLEANTEXT是Excel 365中新增的实验性AI函数(需开启Beta功能),可理解自然语言指令,对文本执行拼写纠错、缩写还原、敏感信息脱敏、术语标准化等操作,远超传统SUBSTITUTE或TRIM能力范围。
1、确认已启用Beta版AI函数:文件 → 选项 → Excel选项 → 高级 → 勾选【启用实验性AI函数】。
2、在目标单元格输入:=CLEANTEXT(B2,"将公司名称标准化为工商注册全称,去除'有限公司'以外的括号内容,并修正常见错别字如'科技'写成'科计'")。
3、按Enter后,函数即时返回AI优化后的文本结果,例如将“北京科计有限公丝”自动修正为“北京科技有限公司”。
4、双击填充柄向下扩展,全部B列文本将按同一语义规则批量清洗;若某行返回#AI_ERROR,表示该条目存在歧义,需人工复核。
五、通过条件格式+数据验证+AI辅助注释实现人机协同清洗
该方法将AI能力嵌入Excel常规操作流,以可视化方式暴露问题,并由AI提供上下文解释,降低人工判断门槛,特别适合审计、财务等强合规场景。
1、选中待清洗列(如C列“客户等级”),在【开始】→【条件格式】→【突出显示单元格规则】中设置:单元格值≠“A”且≠“B”且≠“C”,标为红色背景。
2、右键该列任意单元格 →【设置单元格格式】→【数据验证】→ 允许【序列】,来源填入:A,B,C。
3、在相邻列(如D列)输入公式:=IF(OR(C2="D",C2="Z"),"【AI提示】检测到非标等级码,请核查是否应为A/B/C之一;历史记录中'Z'曾代表'暂停合作客户',建议统一归类为'B'。", "")。
4、将D列设为批注列,隐藏显示,仅在鼠标悬停时浮现AI生成的业务语境说明;所有红色高亮单元格均自动绑定对应AI注释。











