0

0

Pandas groupby 性能优化:实现高效数据聚合

DDD

DDD

发布时间:2025-11-23 13:49:16

|

739人浏览过

|

来源于php中文网

原创

Pandas groupby 性能优化:实现高效数据聚合

本文深入探讨了pandas `groupby`操作在处理大规模数据时可能出现的性能瓶颈,特别是当结合`agg`方法进行多重聚合或使用自定义函数时。文章提出并详细演示了一种“懒惰式groupby”的优化策略,通过预先创建`groupby`对象,然后对每个列单独执行聚合操作,显著提升了数据聚合的效率。文中提供了具体的代码示例和性能对比,并讨论了如何灵活控制输出列名结构,旨在帮助用户编写更高效的pandas代码。

理解 Pandas groupby 的性能挑战

Pandas groupby 是数据分析中一个极其强大的工具,用于根据一个或多个键对数据进行分组,然后对每个组执行聚合操作。然而,当数据集规模增大,并且聚合操作变得复杂时,其性能可能会显著下降。常见的慢速模式之一是结合 agg 方法进行多列、多类型或包含自定义函数的聚合。

考虑以下一个典型的使用场景,我们希望根据 specimen 和 delta_t 列对数据进行分组,并计算 measuremnt 列的均值、75%分位数和最大值,以及 lag 列的均值。

import pandas as pd
import numpy as np

# 模拟数据集
data = {
    'delta_t': np.random.randint(0, 301, 100000), # 增加数据量以凸显性能问题
    'specimen': np.random.choice(['X', 'Y', 'Z'], 100000),
    'measuremnt': np.random.rand(100000),
    'lag': np.random.rand(100000)
}
df = pd.DataFrame(data)

# 定义一个自定义的75%分位数函数
def q75(x):
    return x.quantile(0.75)

# 原始的聚合代码
# df_result = df.groupby(['specimen', 'delta_t']).agg({
#     'measuremnt': ['mean', q75, 'max'],
#     'lag': 'mean'
# }).reset_index()

当上述代码应用于大型DataFrame时,用户可能会观察到执行时间随数据量呈非线性增长,导致处理效率低下。这通常是由于 agg 方法在内部处理多重聚合和自定义函数时,可能需要进行多次数据迭代或不必要的类型转换。

优化策略:懒惰式 groupby (Lazy Groupby)

为了解决 groupby().agg() 可能带来的性能问题,我们可以采用一种“懒惰式 groupby”的优化策略。其核心思想是:首先创建 groupby 对象,然后对该对象中的每个需要聚合的列单独执行聚合函数,最后将这些结果组合成一个新的DataFrame。这种方法通常能够显著减少内部开销,因为它允许Pandas更直接地优化每个独立的聚合操作。

1. 性能对比与优化实现

让我们通过具体的代码示例来展示这种优化方法及其带来的性能提升。

原始 agg 方法的性能(示例,假设数据量增大):

# %%timeit -n 10
# df_result_original = df.groupby(['specimen', 'delta_t']).agg({
#     'measuremnt': ['mean', q75, 'max'],
#     'lag': 'mean'
# }).reset_index()
# 假设其执行时间为 40-50 毫秒 (针对10万行数据)

优化后的“懒惰式 groupby”实现:

多奥淘宝客程序API免费版 F8.0
多奥淘宝客程序API免费版 F8.0

多奥淘宝客程序免费版拥有淘宝客站点的基本功能,手动更新少,管理简单等优点,适合刚接触网站的淘客们,或者是兼职做淘客们。同样拥有VIP版的模板引擎技 术、强大的文件缓存机制,但没有VIP版的伪原创跟自定义URL等多项创新的搜索引擎优化技术,除此之外也是一款高效的API数据系统实现无人值守全自动 化运行的淘宝客网站程序。4月3日淘宝联盟重新开放淘宝API申请,新用户也可使用了

下载
# %%timeit -n 10
groups = df.groupby(['specimen', 'delta_t'])

df_result_optimized = pd.DataFrame({
    'measurement_mean': groups['measuremnt'].mean(),
    'measurement_q75': groups['measuremnt'].quantile(.75),
    'measurement_max': groups['measuremnt'].max(),
    'lag_mean': groups['lag'].mean()
}).reset_index()

# 假设其执行时间为 2-3 毫秒 (针对10万行数据),性能提升显著
print(df_result_optimized.head())

输出示例:

  specimen  delta_t  measurement_mean  measurement_q75  measurement_max  lag_mean
0        X        0          0.490533         0.490533         0.490533  0.076840
1        X        1          0.472935         0.472935         0.472935  0.473552
2        X        2          0.449622         0.449622         0.449622  0.507664
3        X        3          0.469796         0.469796         0.469796  0.435753
4        X        4          0.509748         0.509748         0.509748  0.472064

从上述对比中可以看出,通过将聚合操作分解到各个列上执行,并直接构建新的DataFrame,我们能够实现数量级的性能提升。这种方法避免了 agg 在处理复杂聚合时可能产生的额外开销。

2. 处理多层索引输出 (MultiIndex)

原始的 agg 方法在聚合多列并使用多个聚合函数时,默认会生成一个多层列索引(MultiIndex)。如果你的应用场景需要这种结构,也可以通过“懒惰式 groupby”方法来实现。只需在构建DataFrame时,将列名定义为元组即可。

groups = df.groupby(['specimen', 'delta_t'])

df_result_multiindex = pd.DataFrame({
    ('measurement','mean'): groups['measuremnt'].mean(),
    ('measurement','q75'): groups['measuremnt'].quantile(.75),
    ('measurement','max'): groups['measuremnt'].max(),
    ('lag','mean'): groups['lag'].mean()
}).reset_index()

print(df_result_multiindex.head())

输出示例:

  specimen  delta_t measurement                      lag
                               mean       q75       max    mean
0        X        0     0.490533  0.490533  0.490533  0.076840
1        X        1     0.472935  0.472935  0.472935  0.473552
2        X        2     0.449622  0.449622  0.449622  0.507664
3        X        3     0.469796  0.469796  0.469796  0.435753
4        X        4     0.509748  0.509748  0.509748  0.472064

通过使用元组作为字典的键,Pandas在构建DataFrame时会自动识别并创建多层列索引,从而模拟 agg 的默认输出结构。

注意事项与最佳实践

  1. 选择合适的聚合方法:
    • 对于简单的单列或少量聚合,agg 方法通常足够方便且性能尚可。
    • 当聚合操作复杂(多列、多函数、自定义函数)且数据量较大时,优先考虑“懒惰式 groupby”策略。
    • 如果聚合函数是Pandas或NumPy的内置函数,它们通常是高度优化的。自定义Python函数(如本例中的 q75)可能会引入额外的性能开销,尤其是在 agg 内部。
  2. 避免不必要的 reset_index(): 如果不需要将分组键作为普通列,可以省略 reset_index(),直接使用 groupby 结果的索引作为DataFrame的索引,这可以节省一步操作。
  3. 数据类型优化: 确保DataFrame中的列使用最合适的数据类型。例如,整数列不应存储为浮点数,这可以减少内存占用并可能加速某些操作。
  4. 内存管理: 对于极大数据集,即使是优化后的 groupby 也可能消耗大量内存。考虑使用Dask等分布式计算库,或分块处理数据。
  5. 预计算: 如果某些中间结果可以预先计算或缓存,可以进一步提升整体性能。

总结

Pandas groupby 是数据处理的核心功能,但其性能并非一成不变。通过理解 agg 方法在复杂场景下可能带来的开销,并采纳“懒惰式 groupby”的优化策略,开发者可以显著提升大数据聚合的效率。这种方法不仅能够加速计算,还能提供更灵活的列名控制,从而更好地适应不同的数据分析需求。在实际项目中,根据具体的数据规模和聚合复杂度,选择最适合的 groupby 实现方式,是编写高效Pandas代码的关键。

相关文章

数码产品性能查询
数码产品性能查询

该软件包括了市面上所有手机CPU,手机跑分情况,电脑CPU,电脑产品信息等等,方便需要大家查阅数码产品最新情况,了解产品特性,能够进行对比选择最具性价比的商品。

下载

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

758

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

639

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

761

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

618

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1265

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

548

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

708

2023.08.11

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

43

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 3.3万人学习

Django 教程
Django 教程

共28课时 | 3.2万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号