使用Pandas高效修改DataFrame字符串的首尾元素

聖光之護

发布时间：2025-11-06 12:35:01

232人浏览过

来源于php中文网

原创

使用Pandas高效修改DataFrame字符串的首尾元素

本教程详细阐述了如何在pandas dataframe中高效地修改字符串列的首尾部分。针对将字符串的首个数字替换为另一列的值，并将末尾的年份更改为固定值'2024'的需求，文章指出直接将字符串转换为列表进行修改的低效性。核心解决方案是利用pandas的字符串方法`str.extract()`结合正则表达式来精确提取和拼接字符串的中间部分，从而避免列表操作，实现性能优化和代码简洁。

在数据处理和分析中，我们经常需要对DataFrame中的字符串数据进行修改。一个常见的场景是，需要根据其他列的值或固定规则来更新字符串的特定部分。本教程将以一个具体示例，演示如何高效地替换DataFrame字符串列中的首尾元素，避免常见的陷阱。

场景描述

假设我们有一个Pandas DataFrame，其中包含一个名为name的字符串列和一个名为number的整数列。name列的字符串通常以一个数字开头，以一个年份结尾，中间是描述性文本。我们的目标是将name列中字符串的第一个数字替换为对应行number列的值，并将字符串末尾的年份统一修改为'2024'。

以下是初始DataFrame的示例：

import pandas as pd

data = {
    'name': ['101 blueberry 2023', '102 big cat 2023', '103 small white dog 2023'],
    'number': [116, 118, 119]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

输出：

原始DataFrame:
                       name  number
0        101 blueberry 2023     116
1          102 big cat 2023     118
2  103 small white dog 2023     119

我们期望的输出是：

                       name  number
0        116 blueberry 2024     116
1          118 big cat 2024     118
2  119 small white dog 2024     119

避免低效的列表转换方法

初学者在处理此类问题时，可能会倾向于将字符串拆分为列表，然后修改列表的元素，最后再将列表重新拼接成字符串。例如：

# 尝试将字符串拆分为列表
# df['name_pieces'] = df['name'].str.split(' ') # 注意：这里使用.str.split()是正确的，但后续修改元素会遇到问题
# print(df)

# 尝试直接修改列表元素会导致TypeError
# df['name_pieces'].str[0] = df['number'] # 这会引发 TypeError: 'StringMethods' object does not support item assignment

这种方法在Pandas中并不推荐，原因有二：

性能问题： 将整个字符串列转换为列表，再进行逐元素修改，最后再拼接回字符串，会涉及多次数据类型转换和迭代，效率低下，尤其是在处理大型DataFrame时。
操作限制： Pandas的.str访问器虽然可以访问字符串列表的元素（如df['name_pieces'].str[0]），但它不支持直接对这些元素进行赋值操作。尝试赋值会引发TypeError。

因此，我们需要一种更“Pandas化”且高效的方法来直接操作字符串。

高效的解决方案：使用字符串方法和正则表达式

Pandas提供了强大的字符串方法（通过.str访问器）和正则表达式支持，可以实现高效的字符串操作。解决上述问题的核心思路是：

Smodin AI Content Detector

多语种AI内容检测工具

下载

将需要替换的首部数字列转换为字符串类型。
利用正则表达式从原始name字符串中提取出中间不变的部分。
将新的首部字符串、提取的中间部分和新的尾部字符串（'2024'）拼接起来。

方案一：直接拼接法

此方案通过df.assign()创建一个新的或修改现有的列，然后将各部分字符串拼接起来。

# 方案一：使用正则表达式提取中间部分并拼接
df_modified_1 = df.assign(name=
    df['number'].astype(str) +  # 将number列转换为字符串作为新的开头
    df['name'].str.extract(r'( .* )', expand=False) + # 提取中间部分
    ' 2024' # 新的年份作为结尾
)

print("\n方案一修改后的DataFrame:")
print(df_modified_1)

输出：

方案一修改后的DataFrame:
                       name  number
0        116 blueberry 2024     116
1          118 big cat 2024     118
2  119 small white dog 2024     119

代码解析：

df.assign(name=...)：这是Pandas中修改或创建列的推荐方式，它返回一个新的DataFrame，而不是在原地修改。
df['number'].astype(str)：将number列的整数值转换为字符串类型。这是必要的，因为我们正在进行字符串拼接操作。
df['name'].str.extract(r'( .* )', expand=False)：
- str.extract()：这个方法用于从字符串中提取与正则表达式匹配的部分。
- r'( .* )'：这是一个正则表达式。
  - ` `：匹配一个空格。
  - .：匹配除换行符之外的任何字符。
  - *：匹配前一个字符零次或多次。
  - ()：捕获组，表示我们想要提取括号内的内容。
  - 整个正则表达式的含义是：捕获第一个空格和最后一个空格之间的所有字符，包括它们之间的空格。例如，对于"101 blueberry 2023"，它会捕获" blueberry "。
- expand=False：确保extract返回一个Series而不是DataFrame，方便后续拼接。
+ ' 2024'：将固定的字符串' 2024'拼接在末尾。注意，这里在'2024'前添加了一个空格，以保持原有的格式。

方案二：链式字符串操作法

此方案在逻辑上与方案一相似，但通过链式调用radd()和add()方法，可以使代码在某些情况下更具可读性。

# 方案二：使用radd和add进行链式操作
df_modified_2 = df.assign(name=
    df['name'].str.extract(r'( .* )', expand=False) # 先提取中间部分
    .radd(df['number'].astype(str)) # 使用radd将number列作为前缀
    .add(' 2024') # 使用add将' 2024'作为后缀
)

print("\n方案二修改后的DataFrame:")
print(df_modified_2)

输出：

方案二修改后的DataFrame:
                       name  number
0        116 blueberry 2024     116
1          118 big cat 2024     118
2  119 small white dog 2024     119

代码解析：

df['name'].str.extract(r'( .* )', expand=False)：与方案一相同，首先提取中间部分。
.radd(df['number'].astype(str))：radd是“右加法”的缩写。它等同于df['number'].astype(str) + extracted_middle_part。这意味着将df['number']转换后的字符串作为前缀，与提取的中间部分进行拼接。
.add(' 2024')：add是普通的加法，等同于previous_result + ' 2024'。将' 2024'作为后缀拼接在前面结果的后面。

注意事项与总结

数据类型一致性： 在进行字符串拼接时，确保所有参与拼接的元素都是字符串类型。如果包含数字，需要使用.astype(str)进行转换。
正则表达式的精准性： 选择合适的正则表达式是关键。r'( .* )'在这里能够准确地捕获第一个和最后一个空格之间的内容，这对于本示例非常有效。如果字符串结构更复杂，可能需要调整正则表达式。
df.assign()的使用： 推荐使用df.assign()来修改或创建新列，因为它返回一个新的DataFrame，保持了原始数据的完整性，这符合函数式编程的理念，并有助于避免意外的副作用。
避免列表转换： 对于Pandas DataFrame中的字符串操作，尽量避免将字符串转换为列表进行修改。Pandas的.str访问器提供了丰富的字符串方法，结合正则表达式，通常能以更高的效率和更简洁的代码完成任务。

通过上述方法，我们不仅解决了替换DataFrame字符串首尾元素的问题，而且采用了高效且符合Pandas惯用法的解决方案，这对于处理大规模数据和编写可维护的代码至关重要。

Python数据类型转换怎么写_类型兼容与转换技巧【教学】

python怎么写csv文件

Python查找所有匹配项_findall使用实例讲解【教程】

python如何将list排序

Python常用正则模式总结_高频匹配场景讲解【指导】