Pandas GroupBy 与 Lambda 函数：理解非零值计数

碧海醫心

发布时间：2025-10-01 18:37:00

231人浏览过

来源于php中文网

原创

pandas groupby 与 lambda 函数：理解非零值计数

本文将详细介绍 Pandas groupby 函数与 lambda 表达式结合使用时，如何正确地对分组数据中的非零值进行计数。我们将通过一个具体的示例，分析 sum() 和 count() 在此场景下的不同表现，并解释其背后的原因。理解这些概念对于进行高效的数据分析至关重要。

问题背景

在使用 Pandas 进行数据分析时，groupby 函数是一个非常强大的工具，它可以将数据按照指定的列进行分组，并对每个分组应用聚合函数。当需要进行一些自定义的聚合操作时，lambda 表达式可以提供很大的灵活性。然而，在某些情况下，lambda 表达式的行为可能与预期不符，导致结果出现偏差。

示例代码与分析

考虑以下 Pandas DataFrame：

import pandas as pd

data = [['a', 3], ['a', 3], ['b', 1], ['a', 0], ['b', 0]]
df = pd.DataFrame(data, columns=['Room', 'Value'])
print(df)

输出结果：

燕雀Logo

为用户提供LOGO免费设计在线生成服务

下载

  Room  Value
0    a      3
1    a      3
2    b      1
3    a      0
4    b      0

我们的目标是按照 Room 列进行分组，并计算每个房间 Value 列的总和，以及 Value 列中非零值的个数。

以下是两种不同的聚合方式：

方式一：使用 count()

sum_df = df.groupby(['Room']).agg(
    sumValue=('Value', 'sum'),
    nonBlankOccasion=('Value', lambda x: (x > 0).count())
).reset_index()
print(sum_df)

输出结果：

  Room  sumValue  nonBlankOccasion
0    a         6                 3
1    b         1                 2

方式二：使用 sum()

sum_df = df.groupby(['Room']).agg(
    sumValue=('Value', 'sum'),
    nonBlankOccasion=('Value', lambda x: (x > 0).sum())
).reset_index()
print(sum_df)

输出结果：

  Room  sumValue  nonBlankOccasion
0    a         6                 2
1    b         1                 1

可以看到，使用 count() 得到的结果是每个房间的记录总数，而不是非零值的个数。而使用 sum() 则得到了正确的结果。

原因分析

关键在于理解 lambda 表达式的参数 x 的类型。在 groupby 的 agg 函数中，lambda 表达式接收的 x 是一个 Pandas Series，包含了每个分组的 Value 列的数据。

x > 0 会返回一个布尔类型的 Series，其中 True 表示对应的值大于 0，False 表示对应的值小于等于 0。

count() 函数会统计 Series 中元素的个数，也就是分组的记录总数，无论元素是 True 还是 False。
sum() 函数会将 True 视为 1，False 视为 0，因此会对 Series 中的 True 值进行求和，从而得到非零值的个数。

为了更清晰地理解这一点，可以在 lambda 表达式中打印 x 的类型和值：

sum_df = df.groupby(['Room']).agg(
    nonBlankOccasion=('Value', lambda x: print(type(x > 0)))
).reset_index()

sum_df = df.groupby(['Room']).agg(
    nonBlankOccasion=('Value', lambda x: print(x > 0))
).reset_index()

这将输出 Series 的类型和值，证实了上述分析。

总结与注意事项

在使用 Pandas groupby 函数结合 lambda 表达式进行数据聚合时，需要仔细考虑所使用的聚合函数的行为。当需要统计满足特定条件的记录数量时，应该使用 sum() 函数对布尔类型的 Series 进行求和，而不是使用 count() 函数。

总结：

lambda x: (x > 0).sum()：正确计算非零值的个数。
lambda x: (x > 0).count()：错误，计算分组的记录总数。

注意事项：

理解 groupby 函数中 lambda 表达式的参数类型。
根据聚合目标选择合适的聚合函数。
可以通过打印中间结果来调试 lambda 表达式，确保其行为符合预期。

通过本文的分析，相信读者能够更好地理解 Pandas groupby 函数与 lambda 表达式的用法，并避免在实际应用中出现类似的错误。

如何优雅处理 csv 文件中字段数量不一致或乱引号

如何合法合规地获取 LoopNet 商业地产数据：避免请求阻塞与法律风险

如何理解对数正态分布中异常大的方差计算结果？

Pandas教程：合并具有重叠日期区间的两个DataFrame

Pandas 实现时间区间重叠合并：按日期粒度对齐多源时序数据

相关标签:

工具聚合函数 pandas count Lambda 布尔类型数据分析

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：使用 PyO3 嵌入 Python 解释器时配置虚拟环境下一篇：Python在Windows 10中实现同一行递减数字打印

作者最新文章

如何在 PHP 中将多个复选框选择结果安全拼接并写入邮件正文

2026-01-21 14:58

可爱戴安娜！《识质存在》新实机展示

2026-01-21 14:59

Using a Global Variable Correctly in Go

2026-01-21 15:17

如何在隐藏必填字段未填写时将焦点移至自定义元素

2026-01-21 15:21

美国任天堂前总裁“库巴”履新！和前Xbox高管当同事

2026-01-21 15:27

显卡涨价潮杀到！微星率先调涨：华硕、技嘉紧随

2026-01-21 15:27

《零红蝶：重制版》新视频女鬼从天而降

2026-01-21 15:28

鹰角《明日方舟：终末地》M站开分79！首发卖相不错但需时间检验

2026-01-21 15:35

夸克怎么变成AI了

2026-01-21 15:40

如何使用 Gson 正确解析嵌套多层 JSON 文件（含对象与数组）

2026-01-21 16:00

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

197

2023.11.20

lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式，它可以在需要函数作为参数的地方使用，并提供了一种更简洁、更灵活的编码方式，其语法为“lambda 参数列表: 表达式”，参数列表是函数的参数，可以包含一个或多个参数，用逗号分隔，表达式是函数的执行体，用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容，供大家免费下载体验。

205

2023.09.15