0

0

Pandas GroupBy 与 Lambda 函数:理解非零值计数

碧海醫心

碧海醫心

发布时间:2025-10-01 18:37:00

|

231人浏览过

|

来源于php中文网

原创

pandas groupby 与 lambda 函数:理解非零值计数

本文将详细介绍 Pandas groupby 函数与 lambda 表达式结合使用时,如何正确地对分组数据中的非零值进行计数。我们将通过一个具体的示例,分析 sum() 和 count() 在此场景下的不同表现,并解释其背后的原因。理解这些概念对于进行高效的数据分析至关重要。

问题背景

在使用 Pandas 进行数据分析时,groupby 函数是一个非常强大的工具,它可以将数据按照指定的列进行分组,并对每个分组应用聚合函数。当需要进行一些自定义的聚合操作时,lambda 表达式可以提供很大的灵活性。然而,在某些情况下,lambda 表达式的行为可能与预期不符,导致结果出现偏差。

示例代码与分析

考虑以下 Pandas DataFrame:

import pandas as pd

data = [['a', 3], ['a', 3], ['b', 1], ['a', 0], ['b', 0]]
df = pd.DataFrame(data, columns=['Room', 'Value'])
print(df)

输出结果:

燕雀Logo
燕雀Logo

为用户提供LOGO免费设计在线生成服务

下载
  Room  Value
0    a      3
1    a      3
2    b      1
3    a      0
4    b      0

我们的目标是按照 Room 列进行分组,并计算每个房间 Value 列的总和,以及 Value 列中非零值的个数。

以下是两种不同的聚合方式:

方式一:使用 count()

sum_df = df.groupby(['Room']).agg(
    sumValue=('Value', 'sum'),
    nonBlankOccasion=('Value', lambda x: (x > 0).count())
).reset_index()
print(sum_df)

输出结果:

  Room  sumValue  nonBlankOccasion
0    a         6                 3
1    b         1                 2

方式二:使用 sum()

sum_df = df.groupby(['Room']).agg(
    sumValue=('Value', 'sum'),
    nonBlankOccasion=('Value', lambda x: (x > 0).sum())
).reset_index()
print(sum_df)

输出结果:

  Room  sumValue  nonBlankOccasion
0    a         6                 2
1    b         1                 1

可以看到,使用 count() 得到的结果是每个房间的记录总数,而不是非零值的个数。而使用 sum() 则得到了正确的结果。

原因分析

关键在于理解 lambda 表达式的参数 x 的类型。在 groupby 的 agg 函数中,lambda 表达式接收的 x 是一个 Pandas Series,包含了每个分组的 Value 列的数据。

x > 0 会返回一个布尔类型的 Series,其中 True 表示对应的值大于 0,False 表示对应的值小于等于 0。

  • count() 函数会统计 Series 中元素的个数,也就是分组的记录总数,无论元素是 True 还是 False。
  • sum() 函数会将 True 视为 1,False 视为 0,因此会对 Series 中的 True 值进行求和,从而得到非零值的个数。

为了更清晰地理解这一点,可以在 lambda 表达式中打印 x 的类型和值:

sum_df = df.groupby(['Room']).agg(
    nonBlankOccasion=('Value', lambda x: print(type(x > 0)))
).reset_index()

sum_df = df.groupby(['Room']).agg(
    nonBlankOccasion=('Value', lambda x: print(x > 0))
).reset_index()

这将输出 Series 的类型和值,证实了上述分析。

总结与注意事项

在使用 Pandas groupby 函数结合 lambda 表达式进行数据聚合时,需要仔细考虑所使用的聚合函数的行为。当需要统计满足特定条件的记录数量时,应该使用 sum() 函数对布尔类型的 Series 进行求和,而不是使用 count() 函数。

总结:

  • lambda x: (x > 0).sum():正确计算非零值的个数。
  • lambda x: (x > 0).count():错误,计算分组的记录总数。

注意事项:

  • 理解 groupby 函数中 lambda 表达式的参数类型。
  • 根据聚合目标选择合适的聚合函数。
  • 可以通过打印中间结果来调试 lambda 表达式,确保其行为符合预期。

通过本文的分析,相信读者能够更好地理解 Pandas groupby 函数与 lambda 表达式的用法,并避免在实际应用中出现类似的错误。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

53

2025.12.04

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

197

2023.11.20

lambda表达式
lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式,它可以在需要函数作为参数的地方使用,并提供了一种更简洁、更灵活的编码方式,其语法为“lambda 参数列表: 表达式”,参数列表是函数的参数,可以包含一个或多个参数,用逗号分隔,表达式是函数的执行体,用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容,供大家免费下载体验。

205

2023.09.15

python lambda函数
python lambda函数

本专题整合了python lambda函数用法详解,阅读专题下面的文章了解更多详细内容。

190

2025.11.08

Python lambda详解
Python lambda详解

本专题整合了Python lambda函数相关教程,阅读下面的文章了解更多详细内容。

49

2026.01.05

数据分析的方法
数据分析的方法

数据分析的方法有:对比分析法,分组分析法,预测分析法,漏斗分析法,AB测试分析法,象限分析法,公式拆解法,可行域分析法,二八分析法,假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

469

2023.07.04

数据分析方法有哪几种
数据分析方法有哪几种

数据分析方法有:1、描述性统计分析;2、探索性数据分析;3、假设检验;4、回归分析;5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容,供大家免费下载体验。

279

2023.08.07

网站建设功能有哪些
网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站,实现网站的目标。

732

2023.10.16

AO3中文版入口地址大全
AO3中文版入口地址大全

本专题整合了AO3中文版入口地址大全,阅读专题下面的的文章了解更多详细内容。

1

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 3.9万人学习

Pandas 教程
Pandas 教程

共15课时 | 0.9万人学习

ASP 教程
ASP 教程

共34课时 | 3.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号