0

0

pandas 如何在 groupby 后只对部分列做不同聚合函数

舞夢輝影

舞夢輝影

发布时间:2026-01-24 15:32:02

|

871人浏览过

|

来源于php中文网

原创

最常用方式是用字典指定列与函数映射,支持单列单函数、单列多函数(生成多级索引)及命名聚合(如agg(sales_sum=('sales','sum'))避免嵌套),需确保函数返回标量且key不冲突。

pandas 如何在 groupby 后只对部分列做不同聚合函数

用 agg() 传入字典指定列与函数映射

直接对 groupby 结果调用 agg(),并传入一个字典,键是列名,值是聚合函数(可为字符串、函数或函数列表)。这是最常用也最清晰的方式。

  • 支持单列单函数:{'sales': 'sum', 'price': 'mean'}
  • 支持单列多函数:用列表包裹,如 {'sales': ['sum', 'count'], 'price': 'max'},结果列名会自动变成多级索引(('sales', 'sum')
  • 若想避免多级索引,可后续加 columns.droplevel(0) 或用命名元组方式(见下一条)
  • 函数可以是内置字符串('min')、NumPy 函数(np.std)、自定义函数(需接受 Series 并返回标量)

用命名元组实现自定义列名(避免多级索引)

当一列需要多个聚合函数,又不想让结果列名带多级索引时,用 pd.NamedAgg(pandas ≥ 0.25)或元组形式(旧版本兼容)更可控。

  • pandas 1.0+ 推荐写法:agg(sales_sum=('sales', 'sum'), sales_cnt=('sales', 'count'), price_avg=('price', 'mean'))
  • 效果是生成扁平列名:sales_sumsales_cntprice_avg,无嵌套
  • 旧版本可用元组:agg([('sales_sum', 'sum'), ('sales_cnt', 'count')]),但仅适用于单列;多列需拼字典 + 元组组合,较易出错
  • 注意:键名不能和原始列名冲突,否则会被覆盖或引发 ValueError: duplicate names

先 select 再 agg:只对特定列 groupby 聚合

如果原始 DataFrame 列很多,而你只关心其中几列的聚合,先用 [...] 选列再 groupby().agg(...),能减少内存占用和计算开销。

SpeechEasy
SpeechEasy

SpeechEasy是一种合成语音解决方案,可以让用户从文本生成高质量、易于理解的音频。

下载
  • 正确:df[['group_key', 'A', 'B', 'C']].groupby('group_key').agg({'A': 'sum', 'B': 'mean'})
  • 错误:在完整 df.groupby(...).agg({...}) 中只写部分列名,其余列不会报错但会被静默丢弃——容易误以为“没生效”,其实是被过滤了
  • 若 groupby 的 key 不在所选列中(比如 df[['A','B']].groupby('category')),会抛 KeyError: 'category',必须确保 key 列已包含在前一步选择中

混合使用 lambda 和预定义函数要注意作用域和性能

agg 字典里混用 lambda x: x.max() - x.min()np.ptp 看似等价,但实际行为可能不同。

  • lambda 接收的是每个分组的 Series,所以 x.max() - x.min() 安全;但若写成 lambda x: x['col'].max() 就会报错(x 已是 Series,无列索引)
  • 涉及缺失值时,np.ptp 默认不跳过 NaN,而 lambda x: x.max() - x.min() 会受 skipna=True 设置影响(默认开启),结果可能不一致
  • 大量数据下,向量化函数(如 np.mean)比 lambda 快得多;复杂逻辑建议封装成独立函数并加上 @numba.jit 或用 apply 分离处理

真正容易被忽略的是:当字典里某列对应函数返回不是标量(比如返回 list、Series 或 DataFrame),agg 会静默失败或降级为 apply 行为,输出结构不可控。务必确认每个聚合函数对任意非空分组都返回单一标量值。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

54

2025.12.04

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

198

2023.11.20

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

278

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1492

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

622

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

572

2024.03.22

php中定义字符串的方式
php中定义字符串的方式

php中定义字符串的方式:单引号;双引号;heredoc语法等等。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

566

2024.04.29

c++空格相关教程合集
c++空格相关教程合集

本专题整合了c++空格相关教程,阅读专题下面的文章了解更多详细内容。

0

2026.01.23

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Go 教程
Go 教程

共32课时 | 4.1万人学习

Go语言实战之 GraphQL
Go语言实战之 GraphQL

共10课时 | 0.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号