使用 Pandas 正则替换文本中特定 ID 为对应描述值

心靈之曲

发布时间：2025-12-29 14:48:30

175人浏览过

来源于php中文网

原创

使用 Pandas 正则替换文本中特定 ID 为对应描述值

本文介绍如何利用 pandas 的 `str.replace()` 配合正则表达式，精准地将 excel 文本列中出现的编号（如 123、345）按映射表批量替换成对应人名（如 john、marshall），支持多处匹配与单词边界保护。

在实际数据处理中，常需将自由文本中嵌入的标识符（如员工编号、产品 ID）替换为更具可读性的描述（如姓名、名称）。直接使用 .map() 仅适用于整字段精确匹配，而原始需求是在句子中局部查找并替换子串——这正是 str.replace() 结合正则表达式的典型应用场景。

以下是完整、健壮的实现方案：

import pandas as pd
import re

# 1. 读取数据
df_articles = pd.read_excel('Articles.xlsx')
df_macros = pd.read_excel('macros.xlsx')

# 2. 构建 ID → Description 映射 Series（确保 ID 转为字符串，避免类型不匹配）
mapping_series = df_macros.astype({'ID': str}).set_index('ID')['Description']

# 3. 构造带单词边界的正则模式：\b(123|345|678)\b
# \b 确保只匹配独立单词，避免 '1234' 中误替换 '123'
pattern = r'\b(' + '|'.join(re.escape(str(id_val)) for id_val in mapping_series.index) + r')\b'

# 4. 执行安全替换：对 Content_Text 列逐句匹配并替换
df_articles['Content_Text'] = df_articles['Content_Text'].str.replace(
    pattern,
    lambda match: mapping_series.get(match.group(0), match.group(0)),  # 未命中时保留原文
    regex=True
)

# 5. 保存结果
df_articles.to_excel('updated_Articles.xlsx', index=False)

✅ 关键要点说明：

LLaMA

Meta公司发布的下一代开源大型语言模型

下载

re.escape()：自动转义 ID 中可能出现的正则元字符（如 .、*、+），提升鲁棒性；
\b 单词边界：防止 123 错误匹配 1234 或 abc123def（后者不含边界，不匹配）；
lambda match：动态查表，确保大小写/格式严格一致；
.get(..., match.group(0))：对未定义 ID 保持原文，避免静默丢弃或报错。

⚠️ 注意事项：

若 ID 列含空值或非字符串类型（如浮点数 123.0），务必先用 astype(str).str.rstrip('.0') 清洗；
大量 ID 时，正则模式长度受限（Python 默认上限约 10k 字符），超限时建议分批处理或改用 apply() + 自定义函数；
如需区分大小写匹配，str.replace(..., case=True, regex=True) 可显式控制（默认即区分）。

该方法兼顾准确性、可维护性与性能，是处理“文本内符号化占位符替换”任务的标准实践。

Python自动化脚本批量处理Excel报表核心方法【指导】

Python快速掌握爬虫开发中生成报告技巧【教程】

Python自动化办公实战_批量文件处理与表格操作【教程】

Python如何做自动化发票识别_OCR票据处理步骤【教学】

Python分析报告自动生成_pdf与Excel输出实例【教程】

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何用纯 Python 实现“将列表中每个位置替换为其余元素乘积”的转换下一篇：Flask 登录功能失效的常见原因与修复指南

作者最新文章

如何正确使用 PHP 预处理语句更新多图商品信息（含文件上传与旧图清理）

2025-12-27 13:37

模拟经营游戏《肋萨拉：顶峰王国》即将更新正式版

2025-12-27 13:41

PHP 中使用复杂（花括号）语法动态插值 SQL 文件中的变量

2025-12-27 13:47

如何在 Pandas 中使用列名列表批量传递多列数据给 apply 函数

2025-12-27 13:48

如何用 CSS 实现响应式图片在固定比例容器中保持宽高比并完全适配

2025-12-27 13:48

专为X3D处理器打造，技嘉X870E X3D系列主板全面上线

2025-12-27 13:51

播放突破两百万！国产抗战新作《抵抗者》热度高涨

2025-12-27 14:00

如何让 div 在网页中精确居中（水平+垂直）

2025-12-27 14:04

JavaScript 数学函数中 NaN 的常见原因与判别式计算错误分析

2025-12-27 14:06

如何为 JButton 设置背景图片（图标）

2025-12-27 14:06

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

710

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

737

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

573

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

696

2023.08.11