
本文档介绍了如何使用 Pandas 和正则表达式高效地将 DataFrame 中的一列按照特定分隔符(' - ')和全大写字母组合进行拆分。我们将探讨两种主要方法:一种是使用 Pandas 内置的字符串操作 .str.extract(),另一种是结合使用 re 模块进行更灵活的模式匹配。通过这些方法,你可以轻松地将包含复杂模式的列拆分为多个有意义的列,从而简化数据分析和处理流程。
使用 Pandas 的向量化字符串操作
Pandas 提供了强大的向量化字符串操作,可以高效地处理 DataFrame 中的文本数据。以下是如何使用 .str.extract() 和正则表达式来拆分列的示例:
import pandas as pd
df = pd.DataFrame({
'Value': ['Juan-Diva - HOLLS', 'Carlos - George - ESTE BAN', 'Javier Plain - Hotham Ham - ALPINE', 'Yul - KONJ KOL MON'],
})
# 正则表达式模式
pattern = r'^(.*?) - ([A-Z\s-]+)$'
# 提取分组到两个新列
df[['First', 'Last']] = df['Value'].str.extract(pattern)
# 显示 DataFrame
print(df)代码解释:
- 导入 Pandas: import pandas as pd 导入 Pandas 库,用于数据处理。
- 创建 DataFrame: 创建一个包含示例数据的 DataFrame。
-
正则表达式模式: pattern = r'^(.*?) - ([A-Z\s-]+)$' 定义了用于拆分字符串的正则表达式模式。这个模式的含义如下:
- ^: 匹配字符串的开头。
- (.*?): 匹配任意字符(非贪婪模式),并将其捕获到第一个分组中。
- -: 匹配分隔符 " - "。
- ([A-Z\s-]+): 匹配由大写字母、空格或连字符组成的字符串,并将其捕获到第二个分组中。
- $: 匹配字符串的结尾。
- 提取分组: df[['First', 'Last']] = df['Value'].str.extract(pattern) 使用 .str.extract() 方法和定义的正则表达式模式从 'Value' 列中提取分组,并将结果分别存储到 'First' 和 'Last' 列中。
- 显示 DataFrame: print(df) 打印修改后的 DataFrame,显示拆分后的结果。
输出:
Value First Last 0 Juan-Diva - HOLLS Juan-Diva HOLLS 1 Carlos - George - ESTE BAN Carlos - George ESTE BAN 2 Javier Plain - Hotham Ham - ALPINE Javier Plain - Hotham Ham ALPINE 3 Yul - KONJ KOL MON Yul KONJ KOL MON
此代码使用正则表达式 r'^(.*?) - ([A-Z\s-]+)$' 和 .str.extract()。该模式旨在将字符串拆分为两部分:
- ^(.*?) 捕获字符串开头到最后一个 " - " 之间的内容。
- ([A-Z\s-]+)$ 捕获字符串的最后一段,该段必须仅包含大写字母、空格或连字符。
此模式确保拆分发生在最后一个 " - " 之后,后跟一系列大写字符、空格或连字符的字符串。
使用 re 模块的替代方法
虽然 Pandas 的向量化字符串操作通常更有效,但 re 模块提供了更大的灵活性。以下是如何使用 re 模块实现相同结果的示例:
import pandas as pd
import re
df = pd.DataFrame({
'Value': ['Juan-Diva - HOLLS', 'Carlos - George - ESTE BAN', 'Javier Plain - Hotham Ham - ALPINE', 'Yul - KONJ KOL MON'],
})
# 用于拆分字符串的函数
def split_value(s):
# 查找最后一次出现的 ' - ' 后跟大写字母
match = re.search(r'^(.*?) - ([A-Z\s-]+)$', s)
if match:
return match.group(1), match.group(2)
else:
return s, None
# 将函数应用于 'Value' 列中的每一行
df[['First', 'Last']] = df['Value'].apply(lambda x: split_value(x)).tolist()
print(df)代码解释:
- 导入库: 导入 pandas 用于数据处理和 re 用于正则表达式操作。
- 创建 DataFrame: 创建一个包含示例数据的 DataFrame。
-
定义 split_value 函数:
- 此函数接受一个字符串 s 作为输入。
- 它使用 re.search 函数查找与正则表达式 r'^(.*?) - ([A-Z\s-]+)$' 匹配的模式。
- 如果找到匹配项(if match:):
- match.group(1) 返回第一个捕获组的内容(在 " - " 之前的部分)。
- match.group(2) 返回第二个捕获组的内容(由大写字母、空格或连字符组成的部分)。
- 函数返回这两个组的元组。
- 如果没有找到匹配项(else:):
- 函数返回原始字符串 s 和 None 的元组。
-
应用函数并创建新列:
- df['Value'].apply(lambda x: split_value(x)) 将 split_value 函数应用于 'Value' 列中的每个值。lambda x: split_value(x) 是一个匿名函数,它接受一个值 x 并将其传递给 split_value 函数。
- .tolist() 将 apply 方法的结果(一系列元组)转换为列表。
- df[['First', 'Last']] = ... 将列表中的元组分配给新的 'First' 和 'Last' 列。
输出:
Value First Last 0 Juan-Diva - HOLLS Juan-Diva HOLLS 1 Carlos - George - ESTE BAN Carlos - George ESTE BAN 2 Javier Plain - Hotham Ham - ALPINE Javier Plain - Hotham Ham ALPINE 3 Yul - KONJ KOL MON Yul KONJ KOL MON
我使用 re.search 函数来根据指定的模式查找匹配项。模式 r'^(.*?) - ([A-Z\s-]+)$' 与上面使用的模式相同。如果找到匹配项,该函数将返回字符串的两个部分;否则,它将返回原始字符串和 'Last' 列的 None。然后将结果转换为列表并分配给新列 'First' 和 'Last'。
注意事项和总结
- 性能: 对于大型数据集,Pandas 的向量化字符串操作通常比使用 re 模块更有效。但是,对于更复杂的模式匹配,re 模块可能更灵活。
- 正则表达式: 掌握正则表达式对于文本数据处理至关重要。确保理解所使用的模式,并根据需要进行调整。
- 错误处理: 在实际应用中,需要考虑错误处理。例如,如果某些行的格式与预期不符,则需要添加适当的逻辑来处理这些情况。
- 数据清洗: 在拆分列之前,可能需要对数据进行清洗,例如删除前导或尾随空格。
总而言之,本文档介绍了两种使用 Pandas 和正则表达式拆分 DataFrame 中列的方法。通过选择合适的方法并根据需要调整正则表达式,你可以高效地处理和转换文本数据。










