使用 Pandas 和正则表达式拆分包含分隔符和全大写值的列

霞舞

发布时间：2025-10-08 12:08:24

653人浏览过

来源于php中文网

原创

使用 pandas 和正则表达式拆分包含分隔符和全大写值的列

本文档介绍了如何使用 Pandas 和正则表达式高效地将 DataFrame 中的一列按照特定分隔符（' - '）和全大写字母组合进行拆分。我们将探讨两种主要方法：一种是使用 Pandas 内置的字符串操作 .str.extract()，另一种是结合使用 re 模块进行更灵活的模式匹配。通过这些方法，你可以轻松地将包含复杂模式的列拆分为多个有意义的列，从而简化数据分析和处理流程。

使用 Pandas 的向量化字符串操作

Pandas 提供了强大的向量化字符串操作，可以高效地处理 DataFrame 中的文本数据。以下是如何使用 .str.extract() 和正则表达式来拆分列的示例：

import pandas as pd

df = pd.DataFrame({
   'Value': ['Juan-Diva - HOLLS', 'Carlos - George - ESTE BAN', 'Javier Plain - Hotham Ham - ALPINE', 'Yul - KONJ KOL MON'],
})

# 正则表达式模式
pattern = r'^(.*?) - ([A-Z\s-]+)$'

# 提取分组到两个新列
df[['First', 'Last']] = df['Value'].str.extract(pattern)

# 显示 DataFrame
print(df)

代码解释：

导入 Pandas: import pandas as pd 导入 Pandas 库，用于数据处理。
创建 DataFrame: 创建一个包含示例数据的 DataFrame。
正则表达式模式: pattern = r'^(.*?) - ([A-Z\s-]+)$' 定义了用于拆分字符串的正则表达式模式。这个模式的含义如下：
- ^: 匹配字符串的开头。
- (.*?): 匹配任意字符（非贪婪模式），并将其捕获到第一个分组中。
- -: 匹配分隔符 " - "。
- ([A-Z\s-]+): 匹配由大写字母、空格或连字符组成的字符串，并将其捕获到第二个分组中。
- $: 匹配字符串的结尾。
提取分组: df[['First', 'Last']] = df['Value'].str.extract(pattern) 使用 .str.extract() 方法和定义的正则表达式模式从 'Value' 列中提取分组，并将结果分别存储到 'First' 和 'Last' 列中。
显示 DataFrame: print(df) 打印修改后的 DataFrame，显示拆分后的结果。

输出：

                                Value                      First          Last
0                   Juan-Diva - HOLLS                  Juan-Diva         HOLLS
1          Carlos - George - ESTE BAN            Carlos - George      ESTE BAN
2  Javier Plain - Hotham Ham - ALPINE  Javier Plain - Hotham Ham        ALPINE
3                  Yul - KONJ KOL MON                        Yul  KONJ KOL MON

此代码使用正则表达式 r'^(.*?) - ([A-Z\s-]+)$' 和 .str.extract()。该模式旨在将字符串拆分为两部分：

^(.*?) 捕获字符串开头到最后一个 " - " 之间的内容。
([A-Z\s-]+)$ 捕获字符串的最后一段，该段必须仅包含大写字母、空格或连字符。

此模式确保拆分发生在最后一个 " - " 之后，后跟一系列大写字符、空格或连字符的字符串。

松果AI写作

专业全能的高效AI写作工具

下载

使用 re 模块的替代方法

虽然 Pandas 的向量化字符串操作通常更有效，但 re 模块提供了更大的灵活性。以下是如何使用 re 模块实现相同结果的示例：

import pandas as pd
import re

df = pd.DataFrame({
    'Value': ['Juan-Diva - HOLLS', 'Carlos - George - ESTE BAN', 'Javier Plain - Hotham Ham - ALPINE', 'Yul - KONJ KOL MON'],
})

# 用于拆分字符串的函数
def split_value(s):
    # 查找最后一次出现的 ' - ' 后跟大写字母
    match = re.search(r'^(.*?) - ([A-Z\s-]+)$', s)
    if match:
        return match.group(1), match.group(2)
    else:
        return s, None

# 将函数应用于 'Value' 列中的每一行
df[['First', 'Last']] = df['Value'].apply(lambda x: split_value(x)).tolist()

print(df)

代码解释：

导入库: 导入 pandas 用于数据处理和 re 用于正则表达式操作。
创建 DataFrame: 创建一个包含示例数据的 DataFrame。
定义 split_value 函数:
- 此函数接受一个字符串 s 作为输入。
- 它使用 re.search 函数查找与正则表达式 r'^(.*?) - ([A-Z\s-]+)$' 匹配的模式。
- 如果找到匹配项（if match:）：
  - match.group(1) 返回第一个捕获组的内容（在 " - " 之前的部分）。
  - match.group(2) 返回第二个捕获组的内容（由大写字母、空格或连字符组成的部分）。
  - 函数返回这两个组的元组。
- 如果没有找到匹配项（else:）：
  - 函数返回原始字符串 s 和 None 的元组。
应用函数并创建新列:
- df['Value'].apply(lambda x: split_value(x)) 将 split_value 函数应用于 'Value' 列中的每个值。lambda x: split_value(x) 是一个匿名函数，它接受一个值 x 并将其传递给 split_value 函数。
- .tolist() 将 apply 方法的结果（一系列元组）转换为列表。
- df[['First', 'Last']] = ... 将列表中的元组分配给新的 'First' 和 'Last' 列。

输出：

                                Value                      First          Last
0                   Juan-Diva - HOLLS                  Juan-Diva         HOLLS
1          Carlos - George - ESTE BAN            Carlos - George      ESTE BAN
2  Javier Plain - Hotham Ham - ALPINE  Javier Plain - Hotham Ham        ALPINE
3                  Yul - KONJ KOL MON                        Yul  KONJ KOL MON

我使用 re.search 函数来根据指定的模式查找匹配项。模式 r'^(.*?) - ([A-Z\s-]+)$' 与上面使用的模式相同。如果找到匹配项，该函数将返回字符串的两个部分；否则，它将返回原始字符串和 'Last' 列的 None。然后将结果转换为列表并分配给新列 'First' 和 'Last'。