Pandas GroupBy 聚合：根据条件判断状态值

DDD

发布时间：2025-08-12 21:42:35

433人浏览过

来源于php中文网

原创

pandas groupby 聚合：根据条件判断状态值

本文介绍了如何使用 Pandas 库进行数据分组聚合，并根据分组后的数据状态，最终确定该组的状态。在实际数据分析中，经常会遇到需要根据分组后的数据进行条件判断的情况，例如，判断一个用户是否在多个订单中至少有一个订单是未完成状态，或者判断一个产品在多个销售区域中是否至少在一个区域的销售额超过了某个阈值。本文将以一个具体的例子，详细介绍如何使用 Pandas 的 groupby() 和 agg() 函数实现这种需求。

问题描述

假设我们有一个 DataFrame，其中包含多个列，其中一列名为 Status，其值可能为 'OPEN' 或 'CLOSED'。我们需要根据其他列（例如 col1、col2 和 col3）对 DataFrame 进行分组，并对分组后的数据进行聚合。对于 Status 列，我们需要根据以下规则进行聚合：

如果组内至少有一个 'OPEN' 值，则聚合后的 Status 值为 'OPEN'。
否则，聚合后的 Status 值为 'CLOSED'。

解决方案

以下提供了几种不同的解决方案，每种方案都利用了 Pandas 的不同特性，以实现相同的目标。

方法一：使用 any() 函数

这种方法直接在 agg() 函数中使用 any() 函数来判断组内是否存在 'OPEN' 值。

import pandas as pd
import numpy as np

# 示例数据
data = {'col1': [1, 1, 2, 2, 1],
        'col2': ['A', 'B', 'A', 'B', 'A'],
        'col3': ['X', 'Y', 'X', 'Y', 'X'],
        'col4': [10, 20, 15, 25, 12],
        'Status': ['OPEN', 'CLOSED', 'CLOSED', 'OPEN', 'CLOSED']}
df = pd.DataFrame(data)

# 使用 any() 函数判断组内是否存在 'OPEN' 子字符串
df_agg = (df.groupby(['col1', 'col2', 'col3'], as_index=False)
           .agg({'col4': 'sum', 'Status': lambda x: 'OPEN' if x.str.contains('OPEN').any() else 'CLOSED'}))

print(df_agg)

# 使用 any() 函数判断组内是否存在 'OPEN' 字符串
df_agg = (df.groupby(['col1', 'col2', 'col3'], as_index=False)
           .agg({'col4': 'sum', 'Status': lambda x: 'OPEN' if x.eq('OPEN').any() else 'CLOSED'}))

print(df_agg)

代码解释：

x.str.contains('OPEN').any(): x 代表 Status 列的每个分组，x.str.contains('OPEN') 返回一个布尔 Series，表示每个值是否包含子字符串 "OPEN"。.any() 函数检查该 Series 中是否存在任何 True 值，即是否存在至少一个包含 "OPEN" 的字符串。
x.eq('OPEN').any(): x 代表 Status 列的每个分组，x.eq('OPEN') 返回一个布尔 Series，表示每个值是否等于字符串 "OPEN"。.any() 函数检查该 Series 中是否存在任何 True 值，即是否存在至少一个 "OPEN" 字符串。

方法二：预处理数据后使用 max() 函数

陌言AI

陌言AI是一个一站式AI创作平台，支持在线AI写作，AI对话，AI绘画等功能

下载

这种方法首先将 Status 列的值转换为 'OPEN' 或 'CLOSED'，然后使用 max() 函数进行聚合。由于 'OPEN' 在字母顺序上大于 'CLOSED'，因此 max() 函数会自动选择 'OPEN'，如果组内存在至少一个 'OPEN' 值。

# 测试子字符串 OPEN
df_agg = (df.assign(Status = np.where(df['Status'].str.contains('OPEN'),
                                      'OPEN', 'CLOSED'))
          .groupby(['col1', 'col2', 'col3'], as_index=False)
           .agg({'col4': 'sum', 'Status': 'max'}))

print(df_agg)

# 测试字符串 OPEN
df_agg = (df.assign(Status = np.where(df['Status'].eq('OPEN'),
                                      'OPEN', 'CLOSED'))
          .groupby(['col1', 'col2', 'col3'], as_index=False)
           .agg({'col4': 'sum', 'Status': 'max'}))

print(df_agg)

代码解释：

df.assign(Status = np.where(df['Status'].str.contains('OPEN'), 'OPEN', 'CLOSED')): 使用 np.where() 函数根据 Status 列的值创建一个新的 Status 列。如果原始 Status 列的值包含子字符串 "OPEN"，则新 Status 列的值为 'OPEN'，否则为 'CLOSED'。
df.assign(Status = np.where(df['Status'].eq('OPEN'), 'OPEN', 'CLOSED')): 使用 np.where() 函数根据 Status 列的值创建一个新的 Status 列。如果原始 Status 列的值等于字符串 "OPEN"，则新 Status 列的值为 'OPEN'，否则为 'CLOSED'。
.groupby(['col1', 'col2', 'col3'], as_index=False).agg({'col4': 'sum', 'Status': 'max'}): 使用 groupby() 函数根据 col1、col2 和 col3 列对 DataFrame 进行分组，然后使用 agg() 函数对分组后的数据进行聚合。对于 col4 列，使用 sum() 函数进行求和；对于 Status 列，使用 max() 函数获取最大值。

方法三：使用布尔值和 any() 函数

这种方法首先将 Status 列的值转换为布尔值（True 表示 'OPEN'，False 表示 'CLOSED'），然后使用 any() 函数进行聚合，最后将布尔值转换回 'OPEN' 或 'CLOSED'。

# 测试子字符串 OPEN
df_agg = (df.assign(Status = df['Status'].str.contains('OPEN'))
           .groupby(['col1', 'col2', 'col3'], as_index=False)
           .agg({'col4': 'sum', 'Status': 'any'})
           .assign(Status = lambda x: x['Status'].map({True:'OPEN',False:'CLOSED'}))

print(df_agg)

# 测试字符串 OPEN
df_agg = (df.assign(Status = df['Status'].eq('OPEN'))
           .groupby(['col1', 'col2', 'col3'], as_index=False)
           .agg({'col4': 'sum', 'Status': 'any'})
           .assign(Status = lambda x: x['Status'].map({True:'OPEN',False:'CLOSED'}))

print(df_agg)

代码解释：

df.assign(Status = df['Status'].str.contains('OPEN')): 使用 str.contains('OPEN') 函数将 Status 列的值转换为布尔值。如果原始 Status 列的值包含子字符串 "OPEN"，则新 Status 列的值为 True，否则为 False。
df.assign(Status = df['Status'].eq('OPEN')): 使用 eq('OPEN') 函数将 Status 列的值转换为布尔值。如果原始 Status 列的值等于字符串 "OPEN"，则新 Status 列的值为 True，否则为 False。
.groupby(['col1', 'col2', 'col3'], as_index=False).agg({'col4': 'sum', 'Status': 'any'}): 使用 groupby() 函数根据 col1、col2 和 col3 列对 DataFrame 进行分组，然后使用 agg() 函数对分组后的数据进行聚合。对于 col4 列，使用 sum() 函数进行求和；对于 Status 列，使用 any() 函数判断组内是否存在任何 True 值。
.assign(Status = lambda x: x['Status'].map({True:'OPEN',False:'CLOSED'})): 使用 map() 函数将布尔值转换回 'OPEN' 或 'CLOSED' 字符串。

总结

本文介绍了三种不同的方法，可以使用 Pandas 的 groupby() 和 agg() 函数，在分组聚合后，根据组内特定列的值来确定聚合后的状态值。选择哪种方法取决于具体的需求和数据特点。

如果需要判断组内是否存在任何包含特定子字符串的值，可以使用 any() 函数和 str.contains() 函数。
如果已知 'OPEN' 在字母顺序上大于 'CLOSED'，可以使用预处理数据后使用 max() 函数进行聚合的方法，这种方法通常更高效。
将状态值转换为布尔值，然后使用 any() 函数进行聚合，最后将布尔值转换回字符串的方法，代码可读性较好。

在实际应用中，可以根据具体情况选择最合适的解决方案。此外，还可以根据实际需求进行扩展，例如，可以添加更复杂的条件判断逻辑，或者对其他列进行不同的聚合操作。

PythonAI面试准备教程_核心问题与考察点

PythonAI项目学习法教程_通过实战掌握模型应用

PythonAI入门到进阶教程_完整成长路径解析

PythonAI学习资源教程_书籍课程工具选择

Python转人工智能路径教程_少走弯路的学习方法

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

258

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

209

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1468

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

620

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

551

2024.03.22