
在数据分析实践中,我们经常会遇到数据格式不统一的情况。例如,在一个pandas dataframe的列中,数值可能与描述性文本混合在一起,且格式不固定。以下是一个典型的例子:
import pandas as pd import io data = """Category Sales Paid Table 1 table Yes Chair 3chairs Yes Cushion 8 cushions Yes Table 3Tables Yes Chair 12 Chairs No Mats 12Mats Yes """ df = pd.read_csv(io.StringIO(data), sep=r'\s+') print(df)
输出的DataFrame如下:
Category Sales Paid 0 Table 1 table Yes 1 Chair 3chairs Yes 2 Cushion 8 cushions Yes 3 Table 3Tables Yes 4 Chair 12 Chairs No 5 Mats 12Mats Yes
我们的目标是从Sales列中提取纯数字部分,并按Category进行分组求和。由于Sales列中的数值格式不一致(例如 "1 table", "3chairs", "8 cushions"),直接进行数值运算是不可能的。
Pandas的Series.str.extract方法是处理此类问题的强大工具。它允许我们使用正则表达式从字符串中提取符合特定模式的部分。
为了从Sales列中提取开头的数字,我们可以使用正则表达式^(\d+):
# 提取销售数量
extracted_sales = df['Sales'].str.extract('^(\d+)', expand=False)
print("提取的销售数量(字符串形式):")
print(extracted_sales)输出结果:
提取的销售数量(字符串形式): 0 1 1 3 2 8 3 3 4 12 5 12 Name: Sales, dtype: object
expand=False参数确保返回一个Series而不是DataFrame。此时,提取的数字仍然是字符串类型(dtype: object),需要转换为整数类型才能进行数学运算。
使用astype(int)将提取的字符串数字转换为整数:
# 将提取的字符串转换为整数
numeric_sales = extracted_sales.astype(int)
print("\n转换后的销售数量(整数形式):")
print(numeric_sales)输出结果:
转换后的销售数量(整数形式): 0 1 1 3 2 8 3 3 4 12 5 12 Name: Sales, dtype: int64
现在我们已经成功将Sales列中的数字提取并转换为整数,接下来就可以进行分组聚合操作了。我们可以使用groupby()方法按Category列进行分组,然后对numeric_sales求和。
# 按Category汇总所有商品销售额
total_sales_per_category = numeric_sales.groupby(df['Category']).sum()
print("\n按类别汇总的所有商品销售额:")
print(total_sales_per_category)输出结果:
按类别汇总的所有商品销售额: Category Chair 15 Cushion 8 Mats 12 Table 4 Name: Sales, dtype: int64
有时,我们可能需要根据额外的条件进行聚合,例如只统计“已支付(Paid == 'Yes')”的商品销售额。在这种情况下,我们需要在提取数字之前,先对数据进行条件筛选或预处理。
一种有效的方法是使用Series.where()方法。where()方法根据条件替换DataFrame或Series中的值。如果条件为真,则保留原始值;如果为假,则替换为指定的值。在这里,如果Paid不是'Yes',我们将Sales列的值替换为'0',这样在后续提取数字时,这些项就会被计为0。
# 仅汇总已支付(Paid == 'Yes')的商品销售额
paid_sales_processed = df['Sales'].where(df['Paid'] == 'Yes', other='0')
# 从处理后的Sales列中提取数字并转换为整数
numeric_paid_sales = paid_sales_processed.str.extract('^(\d+)', expand=False).astype(int)
# 按Category汇总已支付商品销售额
total_paid_sales_per_category = numeric_paid_sales.groupby(df['Category']).sum()
print("\n按类别汇总的已支付商品销售额:")
print(total_paid_sales_per_category)输出结果:
按类别汇总的已支付商品销售额: Category Chair 3 Cushion 8 Mats 12 Table 4 Name: Sales, dtype: int64
通过where方法,我们有效地将未支付的销售额在提取阶段就“归零”,从而实现了精确的条件聚合。
# 示例:处理可能出现的NaN值
# extracted_sales_with_nan = df['SomeColumn'].str.extract('^(\d+)', expand=False)
# numeric_sales_safe = extracted_sales_with_nan.fillna('0').astype(int) # 先填充再转换
# 或者
# numeric_sales_safe = pd.to_numeric(extracted_sales_with_nan, errors='coerce').fillna(0).astype(int)本教程详细介绍了如何在Pandas DataFrame中处理包含混合数字和文本的列,并进行分组聚合。我们学习了以下关键技术:
掌握这些技术将大大提高您在处理非结构化或半结构化数据时的效率和灵活性。
以上就是Pandas中混合字符串列的数值提取与分组聚合教程的详细内容,更多请关注php中文网其它相关文章!
                        
                        每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
                Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号