0

0

Pandas DataFrame混合数据列的正则表达式模式提取教程

心靈之曲

心靈之曲

发布时间:2025-11-27 14:17:02

|

533人浏览过

|

来源于php中文网

原创

Pandas DataFrame混合数据列的正则表达式模式提取教程

本教程详细介绍了如何使用pandas库结合正则表达式,从包含混合类型数据的dataframe列中高效地提取和识别特定文本模式。文章将通过实际代码示例,演示如何利用`str.extract()`函数构建复杂的正则表达式,以处理列中的多样化条目,并对提取结果进行进一步处理,从而实现数据清洗和模式识别的目标。

在数据分析和处理过程中,我们经常会遇到DataFrame中某些列包含混合数据类型或复杂字符串的情况。例如,一个列可能同时包含纯数字、文本标识符以及由多种信息组合而成的字符串。从这类列中准确地提取出我们感兴趣的特定模式,是数据预处理的关键步骤。Pandas库结合Python强大的正则表达式功能,提供了高效且灵活的解决方案。

1. 环境准备与数据加载

首先,我们需要导入必要的库并加载数据。本教程以从Excel文件读取数据为例,演示如何将数据导入Pandas DataFrame。

import pandas as pd
import numpy as np # 虽然示例中未使用,但通常与Pandas一起使用

# 定义Excel文件路径
excel_file_path = 'F:\\Google Drive\\Matthias\\Arbeit\\ISQM\\08 - Tool Menü - Skripte DD 19.12.2023\\Testskripte\\value_cnts_2.xlsx'

# 使用pd.read_excel直接加载数据
# sheet_name参数可以指定要读取的工作表,默认为第一个
try:
    df = pd.read_excel(excel_file_path, sheet_name=0)
    print("DataFrame加载成功,前5行数据:")
    print(df.head())
except FileNotFoundError:
    print(f"错误:文件未找到,请检查路径: {excel_file_path}")
except Exception as e:
    print(f"加载Excel文件时发生错误: {e}")

# 假设我们关注的列是 'Nachfolger'
# 打印该列的一些信息,以便了解数据概况
print("\n'Nachfolger' 列数据概况:")
print(df['Nachfolger'].value_counts(dropna=False))

在实际应用中,df['Nachfolger'] 列可能包含如 "54;20", "----", "52;128AA;207;22;223", "138EE;34" 等多种形式的字符串。我们的目标是从这些字符串中识别并提取出 "EE", "AA", "EA+", "EA-" 等特定模式。

2. 理解 str.extract() 函数

Pandas Series对象提供了一系列字符串方法,其中 str.extract() 是用于通过正则表达式从字符串中提取模式的强大工具

  • 基本用法: Series.str.extract(pat, expand=True)
    • pat: 要匹配的正则表达式模式。
    • expand: 如果为 True (默认值),则返回一个DataFrame,其中每列对应于正则表达式中的一个捕获组。如果为 False,则返回一个Series (如果只有一个捕获组) 或一个DataFrame (如果多个捕获组)。

当正则表达式包含捕获组(用括号 () 包裹的部分)时,str.extract() 会为每个捕获组创建一个新的列来存储匹配到的内容。如果某个字符串没有匹配到模式,则对应位置会填充 NaN。

3. 构建正则表达式进行模式提取

为了从混合数据列中提取多个不同的模式,我们可以使用正则表达式的“或”运算符 | 来组合多个模式。

假设我们想要提取 "EE", "AA", "EA+", "EA-" 这四种模式。

  • "EE" 和 "AA" 是直接的字符串匹配。
  • "EA+" 和 "EA-" 可以用 EA[+-] 来表示,其中 [+-] 匹配字符 + 或 -。

将它们组合起来,我们可以构建如下的正则表达式:(EE|EA[+-]|AA)。

现在,我们将其应用于DataFrame:

KAIZAN.ai
KAIZAN.ai

使用AI来改善客户服体验,提高忠诚度

下载
# 提取 'EE', 'EA+', 'EA-', 'AA' 模式
# str.extract会为每个匹配项创建一个新的列
df['Verknüpfung_模式'] = df['Nachfolger'].str.extract(r'(EE|EA[+-]|AA)', expand=False)

# 打印提取后的DataFrame,并关注新增的列
print("\n提取模式后的DataFrame:")
print(df[['Nachfolger', 'Verknüpfung_模式']].head(40))

# 统计提取到的模式及其频次
print("\n提取模式的频次统计:")
print(df['Verknüpfung_模式'].value_counts(dropna=False))

代码解释:

  • r'(EE|EA[+-]|AA)': r 前缀表示这是一个原始字符串,避免反斜杠的转义问题。括号 () 定义了一个捕获组,| 表示“或”逻辑,[+-] 匹配 + 或 -。
  • expand=False: 在只有一个捕获组时,返回一个Series,这通常更方便。如果模式中包含多个捕获组,即使 expand=False 也会返回DataFrame。在这个例子中,虽然有多个子模式,但它们都被包含在一个主捕获组内,所以会返回一个Series。

4. 处理提取结果

str.extract() 在没有匹配到模式时会返回 NaN。根据需求,我们可能需要对这些 NaN 值进行处理,例如填充默认值或进行计数。

填充缺失值:

如果希望将未匹配的 NaN 值替换为其他标识(例如 0 或空字符串),可以使用 fillna() 方法。

# 将未匹配的NaN值填充为 '无匹配'
df['Verknüpfung_模式_填充'] = df['Verknüpfung_模式'].fillna('无匹配')

print("\n填充NaN值后的模式列:")
print(df[['Nachfolger', 'Verknüpfung_模式_填充']].head(40))

# 统计填充后的模式
print("\n填充后模式的频次统计:")
print(df['Verknüpfung_模式_填充'].value_counts())

计数匹配项:

如果目标是统计每种模式出现的次数,可以直接对提取后的列使用 value_counts()。如果需要计算非 NaN 的匹配总数,可以先删除 NaN 值再计数。

# 计算每种成功匹配的模式的数量
successful_matches_counts = df['Verknüpfung_模式'].dropna().value_counts()
print("\n成功匹配模式的计数:")
print(successful_matches_counts)

# 如果需要计算总共有多少行包含至少一个匹配模式
total_rows_with_match = df['Verknüpfung_模式'].notna().sum()
print(f"\n总共有 {total_rows_with_match} 行包含至少一个匹配模式。")

5. 完整示例代码

下面是一个整合了上述步骤的完整代码示例,展示了从加载数据到最终提取和处理模式的全过程。

import pandas as pd
import numpy as np

# 1. 定义Excel文件路径
excel_file_path = 'F:\\Google Drive\\Matthias\\Arbeit\\ISQM\\08 - Tool Menü - Skripte DD 19.12.2023\\Testskripte\\value_cnts_2.xlsx'

# 2. 加载Excel数据到DataFrame
try:
    df = pd.read_excel(excel_file_path, sheet_name=0)
    print("DataFrame加载成功。")
except FileNotFoundError:
    print(f"错误:文件未找到,请检查路径: {excel_file_path}")
    exit() # 如果文件未找到,退出程序
except Exception as e:
    print(f"加载Excel文件时发生错误: {e}")
    exit()

# 3. 定义正则表达式模式
# 匹配 'EE', 'EA+', 'EA-', 'AA'
regex_pattern = r'(EE|EA[+-]|AA)'

# 4. 使用 str.extract() 提取模式
# expand=False 在只有一个捕获组时返回Series
df['Verknüpfung_提取模式'] = df['Nachfolger'].str.extract(regex_pattern, expand=False)

# 5. 处理提取结果:填充NaN值
# 将未匹配的模式填充为 '无匹配',以便于后续统计
df['Verknüpfung_最终模式'] = df['Verknüpfung_提取模式'].fillna('无匹配')

# 6. 打印部分结果和统计信息
print("\n--- 提取和处理后的DataFrame(部分)---")
print(df[['Nachfolger', 'Verknüpfung_提取模式', 'Verknüpfung_最终模式']].head(40))

print("\n--- 提取模式的频次统计 ---")
# 统计最终模式列中每种模式的出现次数
print(df['Verknüpfung_最终模式'].value_counts())

print("\n--- 成功匹配模式的独立计数 ---")
# 仅统计成功匹配的模式(不包括 '无匹配')
print(df['Verknüpfung_提取模式'].dropna().value_counts())

print(f"\n总行数: {len(df)}")
print(f"包含匹配模式的行数: {df['Verknüpfung_提取模式'].notna().sum()}")
print(f"不包含匹配模式的行数: {df['Verknüpfung_提取模式'].isna().sum()}")

6. 注意事项与最佳实践

  • 正则表达式的精确性: 正则表达式是模式匹配的核心。确保你的正则表达式能够准确地捕捉到目标模式,同时避免误匹配。可以使用 Regex101 等在线工具进行测试和调试。
  • 处理 NaN 值: str.extract() 在没有匹配时会生成 NaN。根据后续分析需求,合理使用 fillna()、dropna() 或 notna() 来处理这些缺失值。
  • 性能考虑: 对于非常大的数据集,频繁地对字符串列执行复杂的正则表达式操作可能会影响性能。在处理前可以考虑对数据进行抽样或优化正则表达式。
  • str.contains() 与 str.extract() 的选择:
    • 如果你只需要检查一个字符串是否包含某个模式(返回布尔值),使用 str.contains() 更高效。
    • 如果你需要提取匹配到的具体内容,则 str.extract() 是正确的选择。
  • 命名捕获组: 在复杂的正则表达式中,可以使用命名捕获组 (?Ppattern)。这样 str.extract() 返回的DataFrame列名将直接使用你定义的名称,提高了代码的可读性。例如 df['Verknüpfung'] = df['Nachfolger'].str.extract(r'(?PEE|EA[+-]|AA)')。

总结

通过本教程,我们学习了如何利用Pandas的 str.extract() 方法结合正则表达式,从DataFrame的混合数据列中高效地识别和提取特定模式。掌握这一技术对于数据清洗、特征工程以及从非结构化文本中提取有价值信息至关重要。正确构建正则表达式并理解 str.extract() 的工作原理,将大大提升你在Pandas中处理复杂字符串数据的能力。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

755

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

636

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

618

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

707

2023.08.11

Golang gRPC 服务开发与Protobuf实战
Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践,涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC(Unary/Server/Client/Bidirectional)、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例,帮助学习者掌握 使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系,适用于微服务与内部系统通信场景。

8

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 11.9万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.4万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号