Pandas DataFrame混合数据列的正则表达式模式提取教程

心靈之曲

发布时间：2025-11-27 14:17:02

533人浏览过

来源于php中文网

原创

Pandas DataFrame混合数据列的正则表达式模式提取教程

本教程详细介绍了如何使用pandas库结合正则表达式，从包含混合类型数据的dataframe列中高效地提取和识别特定文本模式。文章将通过实际代码示例，演示如何利用`str.extract()`函数构建复杂的正则表达式，以处理列中的多样化条目，并对提取结果进行进一步处理，从而实现数据清洗和模式识别的目标。

在数据分析和处理过程中，我们经常会遇到DataFrame中某些列包含混合数据类型或复杂字符串的情况。例如，一个列可能同时包含纯数字、文本标识符以及由多种信息组合而成的字符串。从这类列中准确地提取出我们感兴趣的特定模式，是数据预处理的关键步骤。Pandas库结合Python强大的正则表达式功能，提供了高效且灵活的解决方案。

1. 环境准备与数据加载

首先，我们需要导入必要的库并加载数据。本教程以从Excel文件读取数据为例，演示如何将数据导入Pandas DataFrame。

import pandas as pd
import numpy as np # 虽然示例中未使用，但通常与Pandas一起使用

# 定义Excel文件路径
excel_file_path = 'F:\\Google Drive\\Matthias\\Arbeit\\ISQM\\08 - Tool Menü - Skripte DD 19.12.2023\\Testskripte\\value_cnts_2.xlsx'

# 使用pd.read_excel直接加载数据
# sheet_name参数可以指定要读取的工作表，默认为第一个
try:
    df = pd.read_excel(excel_file_path, sheet_name=0)
    print("DataFrame加载成功，前5行数据:")
    print(df.head())
except FileNotFoundError:
    print(f"错误：文件未找到，请检查路径: {excel_file_path}")
except Exception as e:
    print(f"加载Excel文件时发生错误: {e}")

# 假设我们关注的列是 'Nachfolger'
# 打印该列的一些信息，以便了解数据概况
print("\n'Nachfolger' 列数据概况:")
print(df['Nachfolger'].value_counts(dropna=False))

在实际应用中，df['Nachfolger'] 列可能包含如 "54;20", "----", "52;128AA;207;22;223", "138EE;34" 等多种形式的字符串。我们的目标是从这些字符串中识别并提取出 "EE", "AA", "EA+", "EA-" 等特定模式。

2. 理解 str.extract() 函数

Pandas Series对象提供了一系列字符串方法，其中 str.extract() 是用于通过正则表达式从字符串中提取模式的强大工具。

基本用法: Series.str.extract(pat, expand=True)
- pat: 要匹配的正则表达式模式。
- expand: 如果为 True (默认值)，则返回一个DataFrame，其中每列对应于正则表达式中的一个捕获组。如果为 False，则返回一个Series (如果只有一个捕获组) 或一个DataFrame (如果多个捕获组)。

当正则表达式包含捕获组（用括号 () 包裹的部分）时，str.extract() 会为每个捕获组创建一个新的列来存储匹配到的内容。如果某个字符串没有匹配到模式，则对应位置会填充 NaN。

3. 构建正则表达式进行模式提取

为了从混合数据列中提取多个不同的模式，我们可以使用正则表达式的“或”运算符 | 来组合多个模式。

假设我们想要提取 "EE", "AA", "EA+", "EA-" 这四种模式。

"EE" 和 "AA" 是直接的字符串匹配。
"EA+" 和 "EA-" 可以用 EA[+-] 来表示，其中 [+-] 匹配字符 + 或 -。

将它们组合起来，我们可以构建如下的正则表达式：(EE|EA[+-]|AA)。

现在，我们将其应用于DataFrame：

KAIZAN.ai

使用AI来改善客户服体验，提高忠诚度

下载

# 提取 'EE', 'EA+', 'EA-', 'AA' 模式
# str.extract会为每个匹配项创建一个新的列
df['Verknüpfung_模式'] = df['Nachfolger'].str.extract(r'(EE|EA[+-]|AA)', expand=False)

# 打印提取后的DataFrame，并关注新增的列
print("\n提取模式后的DataFrame:")
print(df[['Nachfolger', 'Verknüpfung_模式']].head(40))

# 统计提取到的模式及其频次
print("\n提取模式的频次统计:")
print(df['Verknüpfung_模式'].value_counts(dropna=False))

代码解释:

r'(EE|EA[+-]|AA)': r 前缀表示这是一个原始字符串，避免反斜杠的转义问题。括号 () 定义了一个捕获组，| 表示“或”逻辑，[+-] 匹配 + 或 -。
expand=False: 在只有一个捕获组时，返回一个Series，这通常更方便。如果模式中包含多个捕获组，即使 expand=False 也会返回DataFrame。在这个例子中，虽然有多个子模式，但它们都被包含在一个主捕获组内，所以会返回一个Series。

4. 处理提取结果

str.extract() 在没有匹配到模式时会返回 NaN。根据需求，我们可能需要对这些 NaN 值进行处理，例如填充默认值或进行计数。

填充缺失值:

如果希望将未匹配的 NaN 值替换为其他标识（例如 0 或空字符串），可以使用 fillna() 方法。

# 将未匹配的NaN值填充为 '无匹配'
df['Verknüpfung_模式_填充'] = df['Verknüpfung_模式'].fillna('无匹配')

print("\n填充NaN值后的模式列:")
print(df[['Nachfolger', 'Verknüpfung_模式_填充']].head(40))

# 统计填充后的模式
print("\n填充后模式的频次统计:")
print(df['Verknüpfung_模式_填充'].value_counts())

计数匹配项:

如果目标是统计每种模式出现的次数，可以直接对提取后的列使用 value_counts()。如果需要计算非 NaN 的匹配总数，可以先删除 NaN 值再计数。

# 计算每种成功匹配的模式的数量
successful_matches_counts = df['Verknüpfung_模式'].dropna().value_counts()
print("\n成功匹配模式的计数:")
print(successful_matches_counts)

# 如果需要计算总共有多少行包含至少一个匹配模式
total_rows_with_match = df['Verknüpfung_模式'].notna().sum()
print(f"\n总共有 {total_rows_with_match} 行包含至少一个匹配模式。")

5. 完整示例代码

下面是一个整合了上述步骤的完整代码示例，展示了从加载数据到最终提取和处理模式的全过程。

import pandas as pd
import numpy as np

# 1. 定义Excel文件路径
excel_file_path = 'F:\\Google Drive\\Matthias\\Arbeit\\ISQM\\08 - Tool Menü - Skripte DD 19.12.2023\\Testskripte\\value_cnts_2.xlsx'

# 2. 加载Excel数据到DataFrame
try:
    df = pd.read_excel(excel_file_path, sheet_name=0)
    print("DataFrame加载成功。")
except FileNotFoundError:
    print(f"错误：文件未找到，请检查路径: {excel_file_path}")
    exit() # 如果文件未找到，退出程序
except Exception as e:
    print(f"加载Excel文件时发生错误: {e}")
    exit()

# 3. 定义正则表达式模式
# 匹配 'EE', 'EA+', 'EA-', 'AA'
regex_pattern = r'(EE|EA[+-]|AA)'

# 4. 使用 str.extract() 提取模式
# expand=False 在只有一个捕获组时返回Series
df['Verknüpfung_提取模式'] = df['Nachfolger'].str.extract(regex_pattern, expand=False)

# 5. 处理提取结果：填充NaN值
# 将未匹配的模式填充为 '无匹配'，以便于后续统计
df['Verknüpfung_最终模式'] = df['Verknüpfung_提取模式'].fillna('无匹配')

# 6. 打印部分结果和统计信息
print("\n--- 提取和处理后的DataFrame（部分）---")
print(df[['Nachfolger', 'Verknüpfung_提取模式', 'Verknüpfung_最终模式']].head(40))

print("\n--- 提取模式的频次统计 ---")
# 统计最终模式列中每种模式的出现次数
print(df['Verknüpfung_最终模式'].value_counts())

print("\n--- 成功匹配模式的独立计数 ---")
# 仅统计成功匹配的模式（不包括 '无匹配'）
print(df['Verknüpfung_提取模式'].dropna().value_counts())

print(f"\n总行数: {len(df)}")
print(f"包含匹配模式的行数: {df['Verknüpfung_提取模式'].notna().sum()}")
print(f"不包含匹配模式的行数: {df['Verknüpfung_提取模式'].isna().sum()}")

6. 注意事项与最佳实践

正则表达式的精确性: 正则表达式是模式匹配的核心。确保你的正则表达式能够准确地捕捉到目标模式，同时避免误匹配。可以使用 Regex101 等在线工具进行测试和调试。
处理 NaN 值: str.extract() 在没有匹配时会生成 NaN。根据后续分析需求，合理使用 fillna()、dropna() 或 notna() 来处理这些缺失值。
性能考虑: 对于非常大的数据集，频繁地对字符串列执行复杂的正则表达式操作可能会影响性能。在处理前可以考虑对数据进行抽样或优化正则表达式。
str.contains() 与 str.extract() 的选择:
- 如果你只需要检查一个字符串是否包含某个模式（返回布尔值），使用 str.contains() 更高效。
- 如果你需要提取匹配到的具体内容，则 str.extract() 是正确的选择。
命名捕获组: 在复杂的正则表达式中，可以使用命名捕获组 (?Ppattern)。这样 str.extract() 返回的DataFrame列名将直接使用你定义的名称，提高了代码的可读性。例如 df['Verknüpfung'] = df['Nachfolger'].str.extract(r'(?PEE|EA[+-]|AA)')。

总结

通过本教程，我们学习了如何利用Pandas的 str.extract() 方法结合正则表达式，从DataFrame的混合数据列中高效地识别和提取特定模式。掌握这一技术对于数据清洗、特征工程以及从非结构化文本中提取有价值信息至关重要。正确构建正则表达式并理解 str.extract() 的工作原理，将大大提升你在Pandas中处理复杂字符串数据的能力。

如何高效地从CSV提取数据并自动导入Word生成表格

如何在Python中高效提取CSV数据并自动导入Word文档生成表格

如何用Python自动化将CSV数据导入并嵌入Word文档表格

如何高效将CSV数据导入Word并生成表格

如何在不直接传递字节流的情况下读取 Excel 文件数据