使用 Pandas 按指定分隔符拆分列并提取大写值

碧海醫心

发布时间：2025-10-08 09:57:17

674人浏览过

来源于php中文网

原创

使用 pandas 按指定分隔符拆分列并提取大写值

本文介绍了如何使用 Pandas 库高效地将 DataFrame 中的字符串列按照特定规则进行拆分，提取分隔符（" - "）后的大写字符串部分，并将其分别存储到新的列中。文章提供了基于 Pandas 内置字符串操作和 re 模块的两种解决方案，并详细解释了正则表达式的使用方法，以确保代码的正确性和性能。

在数据处理过程中，经常需要根据特定的分隔符将字符串列拆分成多个部分。本文将介绍如何使用 Pandas 库，结合正则表达式，将 DataFrame 中的一列字符串按照最后一个 " - " 分隔符进行拆分，并提取分隔符后的全大写字符串部分。

方法一：使用 Pandas 内置的字符串操作

Pandas 提供了强大的字符串操作功能，可以结合正则表达式轻松实现字符串的拆分和提取。以下代码演示了如何使用 str.extract() 方法，结合正则表达式，将 Value 列拆分成 First 和 Last 两列。

import pandas as pd

df = pd.DataFrame({
   'Value': ['Juan-Diva - HOLLS', 'Carlos - George - ESTE BAN', 'Javier Plain - Hotham Ham - ALPINE', 'Yul - KONJ KOL MON'],
})

# 正则表达式模式
pattern = r'^(.*?) - ([A-Z\s-]+)$'

# 使用 str.extract() 提取分组到两个新列
df[['First', 'Last']] = df['Value'].str.extract(pattern)

# 显示 DataFrame
print(df)

代码解释：

导入 Pandas 库: import pandas as pd
创建 DataFrame: 使用示例数据创建一个 DataFrame。
定义正则表达式模式: pattern = r'^(.*?) - ([A-Z\s-]+)$'。该模式的含义如下：
- ^: 匹配字符串的开头。
- (.*?): 匹配任意字符（非贪婪模式），并将其捕获到第一个分组中。
- -: 匹配 " - " 分隔符。
- ([A-Z\s-]+): 匹配由大写字母、空格或连字符组成的字符串，并将其捕获到第二个分组中。
- $: 匹配字符串的结尾。
使用 str.extract() 提取数据: df[['First', 'Last']] = df['Value'].str.extract(pattern)。该方法使用定义的正则表达式模式从 Value 列中提取数据，并将提取到的分组分别赋值给 First 和 Last 列。
打印结果: print(df)。

输出结果：

                                Value                      First          Last
0                   Juan-Diva - HOLLS                  Juan-Diva         HOLLS
1          Carlos - George - ESTE BAN            Carlos - George      ESTE BAN
2  Javier Plain - Hotham Ham - ALPINE  Javier Plain - Hotham Ham        ALPINE
3                  Yul - KONJ KOL MON                        Yul  KONJ KOL MON

方法二：使用 re 模块

除了使用 Pandas 内置的字符串操作，还可以使用 Python 的 re 模块来实现字符串的拆分和提取。以下代码演示了如何使用 re.search() 函数，结合正则表达式，将 Value 列拆分成 First 和 Last 两列。

Shakespeare

一款人工智能文案软件，能够创建几乎任何类型的文案。

下载

import pandas as pd
import re

df = pd.DataFrame({
    'Value': ['Juan-Diva - HOLLS', 'Carlos - George - ESTE BAN', 'Javier Plain - Hotham Ham - ALPINE', 'Yul - KONJ KOL MON'],
})

# 定义拆分字符串的函数
def split_value(s):
    # 查找最后一个 " - " 后跟大写字母的匹配项
    match = re.search(r'^(.*?) - ([A-Z\s-]+)$', s)
    if match:
        return match.group(1), match.group(2)
    else:
        return s, None

# 将函数应用于 'Value' 列的每一行
df[['First', 'Last']] = df['Value'].apply(lambda x: split_value(x)).tolist()

print(df)

代码解释：

导入 Pandas 和 re 模块: import pandas as pd 和 import re。
创建 DataFrame: 使用示例数据创建一个 DataFrame。
定义 split_value 函数: 该函数接收一个字符串作为输入，并使用 re.search() 函数查找匹配项。如果找到匹配项，则返回两个分组；否则，返回原始字符串和 None。
应用函数并创建新列: df[['First', 'Last']] = df['Value'].apply(lambda x: split_value(x)).tolist()。该行代码使用 apply() 方法将 split_value 函数应用于 Value 列的每一行，并将结果转换为列表，然后赋值给 First 和 Last 列。

输出结果：

                                Value                      First          Last
0                   Juan-Diva - HOLLS                  Juan-Diva         HOLLS
1          Carlos - George - ESTE BAN            Carlos - George      ESTE BAN
2  Javier Plain - Hotham Ham - ALPINE  Javier Plain - Hotham Ham        ALPINE
3                  Yul - KONJ KOL MON                        Yul  KONJ KOL MON

总结

本文介绍了两种使用 Pandas 拆分字符串列并提取大写值的方法。第一种方法使用 Pandas 内置的 str.extract() 方法，代码简洁高效。第二种方法使用 re 模块，灵活性更高，可以处理更复杂的字符串拆分逻辑。在实际应用中，可以根据具体的需求选择合适的方法。

注意事项：

正则表达式的性能可能受到模式复杂度的影响，对于大规模数据，建议优化正则表达式以提高效率。
如果字符串中没有匹配的模式，str.extract() 方法会返回 NaN 值。
在使用 re 模块时，需要注意处理匹配失败的情况，避免程序出错。

希望本文能够帮助您更好地理解和使用 Pandas 进行字符串处理。

Python对象ID复用是否会影响Pickle序列化结果？

如何在 Windows 上正确使用 pip 安装 Python 模块

Slurm 作业卡在 Hugging Face 数据集映射阶段的排查与解决指南

Python 3 中 zip 返回迭代器导致位运算错误的根源与修复方案

Slurm 作业长时间挂起未完成的排查与环境一致性解决方案

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

753

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

636

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

707

2023.08.11

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板