Pandas中混合字符串列的数值提取与分组聚合教程-Python教程-PHP中文网

Pandas中混合字符串列的数值提取与分组聚合教程

霞舞

发布： 2025-09-13 13:42:27

原创

221人浏览过

Pandas中混合字符串列的数值提取与分组聚合教程

本教程将指导您如何在Pandas DataFrame中处理包含混合数字和文本的列。我们将学习如何使用str.extract结合正则表达式从字符串中精确提取数值，并在此基础上进行分组聚合，以实现按类别汇总销售数据等复杂分析需求。

问题背景：非结构化销售数据处理

在数据分析实践中，我们经常会遇到数据格式不统一的情况。例如，在一个pandas dataframe的列中，数值可能与描述性文本混合在一起，且格式不固定。以下是一个典型的例子：

import pandas as pd
import io

data = """Category    Sales       Paid
Table       1 table     Yes
Chair       3chairs     Yes
Cushion     8 cushions  Yes
Table       3Tables     Yes
Chair       12 Chairs   No
Mats        12Mats      Yes
"""
df = pd.read_csv(io.StringIO(data), sep=r'\s+')
print(df)

登录后复制

输出的DataFrame如下：

  Category       Sales Paid
0    Table     1 table  Yes
1    Chair     3chairs  Yes
2  Cushion  8 cushions  Yes
3    Table     3Tables  Yes
4    Chair    12 Chairs   No
5     Mats       12Mats  Yes

登录后复制

我们的目标是从Sales列中提取纯数字部分，并按Category进行分组求和。由于Sales列中的数值格式不一致（例如 "1 table", "3chairs", "8 cushions"），直接进行数值运算是不可能的。

核心工具：str.extract进行模式匹配

Pandas的Series.str.extract方法是处理此类问题的强大工具。它允许我们使用正则表达式从字符串中提取符合特定模式的部分。

1. 提取数值部分

为了从Sales列中提取开头的数字，我们可以使用正则表达式^(\d+)：

^：匹配字符串的开始。
\d+：匹配一个或多个数字。
()：创建一个捕获组，str.extract将返回这个捕获组匹配到的内容。

# 提取销售数量
extracted_sales = df['Sales'].str.extract('^(\d+)', expand=False)
print("提取的销售数量（字符串形式）:")
print(extracted_sales)

登录后复制

输出结果：

提取的销售数量（字符串形式）:
0     1
1     3
2     8
3     3
4    12
5    12
Name: Sales, dtype: object

登录后复制

expand=False参数确保返回一个Series而不是DataFrame。此时，提取的数字仍然是字符串类型（dtype: object），需要转换为整数类型才能进行数学运算。

2. 数据类型转换

使用astype(int)将提取的字符串数字转换为整数：

# 将提取的字符串转换为整数
numeric_sales = extracted_sales.astype(int)
print("\n转换后的销售数量（整数形式）:")
print(numeric_sales)

登录后复制

输出结果：

转换后的销售数量（整数形式）:
0     1
1     3
2     8
3     3
4    12
5    12
Name: Sales, dtype: int64

登录后复制

按类别汇总销售数据

现在我们已经成功将Sales列中的数字提取并转换为整数，接下来就可以进行分组聚合操作了。我们可以使用groupby()方法按Category列进行分组，然后对numeric_sales求和。

Med-PaLM

来自 Google Research 的大型语言模型，专为医学领域设计。

221

查看详情

# 按Category汇总所有商品销售额
total_sales_per_category = numeric_sales.groupby(df['Category']).sum()
print("\n按类别汇总的所有商品销售额:")
print(total_sales_per_category)

登录后复制

输出结果：

按类别汇总的所有商品销售额:
Category
Chair      15
Cushion     8
Mats       12
Table       4
Name: Sales, dtype: int64

登录后复制

进阶应用：条件性销售额汇总

有时，我们可能需要根据额外的条件进行聚合，例如只统计“已支付（Paid == 'Yes'）”的商品销售额。在这种情况下，我们需要在提取数字之前，先对数据进行条件筛选或预处理。

一种有效的方法是使用Series.where()方法。where()方法根据条件替换DataFrame或Series中的值。如果条件为真，则保留原始值；如果为假，则替换为指定的值。在这里，如果Paid不是'Yes'，我们将Sales列的值替换为'0'，这样在后续提取数字时，这些项就会被计为0。

# 仅汇总已支付（Paid == 'Yes'）的商品销售额
paid_sales_processed = df['Sales'].where(df['Paid'] == 'Yes', other='0')

# 从处理后的Sales列中提取数字并转换为整数
numeric_paid_sales = paid_sales_processed.str.extract('^(\d+)', expand=False).astype(int)

# 按Category汇总已支付商品销售额
total_paid_sales_per_category = numeric_paid_sales.groupby(df['Category']).sum()
print("\n按类别汇总的已支付商品销售额:")
print(total_paid_sales_per_category)

登录后复制

输出结果：

按类别汇总的已支付商品销售额:
Category
Chair       3
Cushion     8
Mats       12
Table       4
Name: Sales, dtype: int64

登录后复制

通过where方法，我们有效地将未支付的销售额在提取阶段就“归零”，从而实现了精确的条件聚合。

注意事项与最佳实践

正则表达式的精确性：str.extract的强大之处在于其对正则表达式的支持。确保你的正则表达式能够准确匹配目标数据，同时避免意外匹配。例如，如果数字可能出现在字符串的中间，^就不适用，可能需要更复杂的模式。
数据类型转换：在进行数值计算前，务必将提取的字符串转换为适当的数值类型（如int或float）。
错误处理：如果str.extract未能匹配到任何内容，它将返回NaN。尝试将NaN直接转换为int会引发错误。在实际应用中，你可能需要在使用astype(int)之前，先用fillna(0)填充NaN值，或者使用pd.to_numeric(errors='coerce')来将无法转换的值变为NaN，然后再处理。
```
# 示例：处理可能出现的NaN值
# extracted_sales_with_nan = df['SomeColumn'].str.extract('^(\d+)', expand=False)
# numeric_sales_safe = extracted_sales_with_nan.fillna('0').astype(int) # 先填充再转换
# 或者
# numeric_sales_safe = pd.to_numeric(extracted_sales_with_nan, errors='coerce').fillna(0).astype(int)
```
登录后复制
性能考虑：str.extract是Pandas的向量化字符串操作之一，通常比使用apply结合Python原生的字符串操作（如re.findall）更高效，尤其是在处理大型数据集时。