Pandas DataFrame中利用正则表达式与str方法拼接动态文本教程

DDD
发布: 2025-09-22 12:23:11
原创
421人浏览过

Pandas DataFrame中利用正则表达式与str方法拼接动态文本教程

本教程详细介绍了在Pandas DataFrame中如何将固定文本与从另一列中通过正则表达式提取的动态数字进行高效拼接。文章将探讨str.findall、str.extract和str.replace等多种方法,并提供具体代码示例,帮助用户灵活处理复杂的字符串组合场景,提升数据处理能力。

在数据处理过程中,我们经常需要从dataframe的某一列中提取特定模式的数据(如数字、特定字符序列),并将其与固定文本或其他列的内容组合成新的字符串。这种操作在生成报告、创建新的标识符或进行数据标准化时尤为常见。pandas库提供了强大的字符串处理功能,特别是结合正则表达式,能够高效地完成这类任务。

准备工作

首先,我们创建一个示例DataFrame来模拟问题场景:

import pandas as pd

# 示例数据
data = {
    'PROJEKT[BEZEICHNUNG]': [
        '项目A 8 阶段 4',
        '项目B 8 阶段 5',
        '项目C 8 阶段 5',
        '项目D 7 阶段 4',
        '项目E 9 阶段 3'
    ]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)
登录后复制

我们的目标是从PROJEKT[BEZEICHNUNG]列中提取所有的数字,并将它们与固定文本(如"P"和" Stufe ")拼接成一个新的列EINGRUPPIERUNG,例如P8 Stufe 4。

方法一:结合str.findall与str访问器

str.findall方法可以查找字符串中所有匹配正则表达式的非重叠项,并返回一个列表序列。然后,我们可以使用Series.str访问器来访问这些列表中的单个元素。

  1. 提取所有匹配项: 使用str.findall(r'\d+')提取所有数字序列。这将返回一个Series,其中每个元素都是一个包含所有找到数字的列表。

    match = df['PROJEKT[BEZEICHNUNG]'].str.findall(r'\d+')
    print("\n使用str.findall提取的数字列表:")
    print(match)
    登录后复制

    输出示例:

    千图设计室AI海报
    千图设计室AI海报

    千图网旗下的智能海报在线设计平台

    千图设计室AI海报 172
    查看详情 千图设计室AI海报
    0    [8, 4]
    1    [8, 5]
    2    [8, 5]
    3    [7, 4]
    4    [9, 3]
    Name: PROJEKT[BEZEICHNUNG], dtype: object
    登录后复制
  2. 访问列表元素并拼接: 通过match.str[0]和match.str[1]可以访问每个列表的第一个和第二个元素。然后,使用加号+进行字符串拼接。

    df['EINGRUPPIERUNG_Method1'] = 'P' + match.str[0] + ' Stufe ' + match.str[1]
    print("\n方法一结果 (str.findall + str访问器):")
    print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method1']])
    登录后复制

    输出示例:

      PROJEKT[BEZEICHNUNG] EINGRUPPIERUNG_Method1
    0        项目A 8 阶段 4             P8 Stufe 4
    1        项目B 8 阶段 5             P8 Stufe 5
    2        项目C 8 阶段 5             P8 Stufe 5
    3        项目D 7 阶段 4             P7 Stufe 4
    4        项目E 9 阶段 3             P9 Stufe 3
    登录后复制

    注意事项:

    • 此方法要求正则表达式能够准确地提取出所需的所有数字,并且它们的顺序是固定的。
    • 如果str.findall返回的列表中元素数量不符合预期(例如,某个字符串中只找到一个数字),则match.str[index]可能会引发IndexError或返回NaN,需要进行额外的错误处理。

方法二:使用str.extract直接捕获

str.extract方法通过正则表达式的捕获组(括号()内的部分)直接提取数据,并将其组织成一个新的DataFrame。这对于提取特定位置或模式的数据非常方便。

  1. 定义捕获组: 使用正则表达式r'(\d+).*(\d+)'来捕获两个数字序列。(\d+)表示一个或多个数字,.*表示任意字符(除换行符外)零次或多次。expand=True确保结果是一个DataFrame。

    match_extract = df['PROJEKT[BEZEICHNUNG]'].str.extract(r'(\d+).*(\d+)', expand=True)
    print("\n使用str.extract提取的捕获组:")
    print(match_extract)
    登录后复制

    输出示例:

       0  1
    0  8  4
    1  8  5
    2  8  5
    3  7  4
    4  9  3
    登录后复制
  2. 拼接捕获结果:match_extract现在是一个DataFrame,其列(0, 1, ...)对应于正则表达式中的捕获组。我们可以直接使用这些列进行字符串拼接。

    df['EINGRUPPIERUNG_Method2'] = 'P' + match_extract[0] + ' Stufe ' + match_extract[1]
    print("\n方法二结果 (str.extract):")
    print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method2']])
    登录后复制

    注意事项:

    • str.extract只返回第一个匹配项的捕获组。如果一个字符串中有多个匹配项,它只会提取第一个。
    • 如果正则表达式没有匹配到任何内容,str.extract会返回一个包含NaN值的行。在拼接时,NaN值会自动转换为字符串"nan",可能需要进一步处理(如使用fillna(''))。

方法三:使用str.replace与反向引用

str.replace方法,当regex=True时,可以利用正则表达式进行查找和替换。更强大的是,它允许在替换字符串中使用反向引用(\1, \2等)来指代正则表达式捕获组的内容。

  1. 定义匹配模式和替换模式: 使用正则表达式r'.*(\d+).*(\d+).*'来匹配整个字符串,并捕获其中的两个数字。替换字符串r'P\1 Stufe \2'则利用\1和\2来引用这两个捕获的数字。

    df['EINGRUPPIERUNG_Method3'] = df['PROJEKT[BEZEICHNUNG]'].replace(
        r'.*(\d+).*(\d+).*',
        r'P\1 Stufe \2',
        regex=True
    )
    print("\n方法三结果 (str.replace + 反向引用):")
    print(df[['PROJEKT[BEZEICHNUNG]', 'EINGRUPPIERUNG_Method3']])
    登录后复制

    注意事项:

    • 此方法直接对原始列进行替换操作,生成新的字符串。它通常是最简洁的方式,如果最终结果是原始字符串的直接转换,且需要包含捕获组内容时。
    • 如果正则表达式没有匹配到任何内容,原始字符串将保持不变。
    • 确保正则表达式能够匹配整个目标字符串,否则可能无法按预期替换。

总结

Pandas提供了多种灵活的方法来处理DataFrame中的字符串拼接和正则表达式提取。

  • str.findall + str访问器 适用于需要先获取所有匹配项列表,再根据索引访问特定元素的情况。它的优势在于可以处理多个匹配项,但需要手动处理列表元素的访问。
  • str.extract 是提取特定捕获组并直接将其组织成新列的理想选择。它返回一个DataFrame,使得后续的拼接操作非常直观,尤其适用于从复杂字符串中提取结构化信息。
  • str.replace与反向引用 提供了一种高度简洁的解决方案,可以直接通过正则表达式匹配和替换来生成目标字符串。当目标是根据捕获组内容转换整个字符串时,此方法非常高效。

在选择方法时,应根据具体的数据结构、提取需求和对错误处理的考量来决定。通常,str.extract在提取结构化信息时更具优势,而str.replace则在直接转换字符串时更为简洁。理解这些方法的细微差别,将有助于更高效地进行Pandas数据处理。

以上就是Pandas DataFrame中利用正则表达式与str方法拼接动态文本教程的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号