
在数据处理过程中,我们经常需要根据现有数据生成新的文本字段。例如,从一个包含描述性文本的列中提取特定的数字或字符串片段,然后将其与固定的文本组合,形成一个新的、格式化的文本列。pandas提供了强大的字符串操作功能,结合正则表达式,可以高效地完成这类任务。
首先,我们创建一个示例DataFrame,其中包含一个名为PROJEKT[BEZEICHNUNG]的列,我们将从该列中提取数字并进行拼接。
import pandas as pd
# 示例数据
data = {
'PROJEKT[BEZEICHNUNG]': [
'Project Alpha 8 Beta 4',
'Task Gamma 8 Delta 5',
'Stage Epsilon 8 Zeta 5',
'Initiative Eta 7 Theta 4',
'Report 9-3',
'Another 8-4 project',
'No numbers here' # 包含没有数字的行,用于演示异常处理
]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)
print("-" * 40)str.findall(pattern)方法会返回一个Series,其中每个元素是一个列表,包含所有匹配pattern的非重叠字符串。要访问这些列表中的特定元素,我们需要使用Pandas的str索引器。
原理:
示例代码:
# 方法一: 使用 str.findall 结合 str 索引器
print("方法一: 使用 str.findall 结合 str 索引器")
# 1. 提取所有数字序列
match_findall = df['PROJEKT[BEZEICHNUNG]'].str.findall(r'\d+')
# match_findall 的输出示例:
# 0 ['8', '4']
# 1 ['8', '5']
# ...
# 6 [] # 没有匹配到数字的行会得到空列表
# 2. 使用 .str 索引器访问每个列表中的元素,并处理NaN
df['EINGRUPPIERUNG_Method1'] = (
'P' + match_findall.str[0].fillna('') +
' Stufe ' + match_findall.str[1].fillna('')
)
print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method1']])
print("-" * 40)str.extract(pattern, expand=True)方法是专门为从字符串中提取结构化数据而设计的。它使用正则表达式中的捕获组(括号())来提取数据,并直接将其转换为新的DataFrame列。
原理:
示例代码:
# 方法二: 利用 str.extract 进行结构化提取
print("方法二: 利用 str.extract 进行结构化提取")
# 1. 使用正则表达式捕获组直接提取数字
# 正则表达式中的括号 () 定义了捕获组
# expand=True 会将捕获组作为独立的列返回一个DataFrame
match_extract = df['PROJEKT[BEZEICHNUNG]'].str.extract(r'(\d+).*?(\d+)', expand=True)
# match_extract 的输出示例:
# 0 1
# 0 8 4
# 1 8 5
# ...
# 6 NaN NaN # 没有匹配的行
# 2. 直接拼接DataFrame的列,并处理NaN
df['EINGRUPPIERUNG_Method2'] = (
'P' + match_extract[0].fillna('') +
' Stufe ' + match_extract[1].fillna('')
)
print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method2']])
print("-" * 40)str.replace(pattern, repl, regex=True)方法可以根据正则表达式pattern匹配字符串,并用repl字符串替换匹配的部分。在repl中,可以使用反向引用(\1, \2等)来引用pattern中的捕获组。
原理:
示例代码:
# 方法三: 结合 str.replace 和正则表达式反向引用
print("方法三: 结合 str.replace 和正则表达式反向引用")
# 使用 (.*?) 匹配任意字符,(\d+) 捕获数字
# r'P\1 Stufe \2' 中的 \1 和 \2 引用捕获组
# 注意:如果字符串不匹配整个模式,str.replace不会改变它
df['EINGRUPPIERUNG_Method3'] = df['PROJEKT[BEZEICHNUNG]'].str.replace(
r'.*?(\d+).*?(\d+).*',
r'P\1 Stufe \2',
regex=True
)
# 对于不匹配的行(如'No numbers here'),str.replace会保留原始字符串。
# 如果期望不匹配的行也为空字符串,需要额外处理,例如:
df['EINGRUPPIERUNG_Method3'] = df['EINGRUPPIERUNG_Method3'].where(
df['EINGRUPPIERUNG_Method3'].str.contains(r'P\d+ Stufe \d+', na=False), # 检查是否包含期望的模式
'' # 不包含则设置为空字符串
)
print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method3']])
print("-" * 40)Pandas结合正则表达式提供了多种灵活且强大的方法来处理DataFrame中的字符串数据。
选择哪种方法取决于具体的业务需求、数据特性以及对性能和代码可读性的偏好。理解这些方法的内部机制和行为差异,将帮助您更高效、准确地完成Pandas中的文本数据处理任务。
以上就是Pandas DataFrame中动态文本拼接与正则表达式数据提取教程的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号