Pandas groupby多列聚合与自定义函数应用教程

花韻仙語

发布时间：2025-11-14 12:28:01

267人浏览过

来源于php中文网

原创

Pandas groupby多列聚合与自定义函数应用教程

本教程详细介绍了如何使用pandas对dataframe进行groupby操作，并同时对多个列应用聚合函数。文章以字符串拼接为例，展示了如何定义自定义聚合函数，并通过动态选择列的方式，高效地对大量列进行批量聚合，从而解决在数据分析中常见的复杂数据转换需求。

1. 引言：Pandas groupby与多列聚合的挑战

在数据分析中，我们经常需要根据一个或多个键对数据进行分组，并对每个组内的其他列执行聚合操作，例如求和、平均值、计数等。Pandas的groupby功能为此提供了强大而灵活的工具。然而，当需要对分组后的多个列应用相同的自定义聚合逻辑（例如将所有值拼接成一个字符串）时，如何高效地实现这一目标，尤其是在面对大量列时，是一个常见的挑战。本教程将通过一个具体的字符串拼接示例，详细讲解如何利用groupby结合agg方法，实现对多列的批量聚合。

2. 数据准备

首先，我们创建一个示例DataFrame，它包含一个分组列Group和需要聚合的数值列Value和Qty。

import pandas as pd

# 示例DataFrame
data = {
    'Group': ['A', 'A', 'B', 'B', 'A', 'B'],
    'Value': [1, 2, 3, 4, 5, 6],
    'Qty': [100, 202, 403, 754, 855, 1256]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

输出的原始DataFrame如下：

原始DataFrame:
  Group  Value   Qty
0     A      1   100
1     A      2   202
2     B      3   403
3     B      4   754
4     A      5   855
5     B      6  1256

3. 单列聚合的初步尝试与局限

在仅需聚合单列时，我们通常可以使用groupby后直接选择列，并应用apply方法结合lambda函数。例如，将Value列的数值拼接成字符串：

# 单列聚合示例
result_single_column = df.groupby('Group')['Value'].apply(lambda x: pd.Series([', '.join(map(str, x))])).reset_index()
print("\n单列聚合 (Value) 结果:")
print(result_single_column)

输出结果：

单列聚合 (Value) 结果:
  Group      Value
0     A    1, 2, 5
1     B    3, 4, 6

这种方法虽然有效，但其局限性在于，如果需要对Qty或其他更多列执行相同的操作，就需要重复编写类似的代码，这不仅繁琐，而且难以维护和扩展，尤其当数据集中有十几个甚至几十个需要聚合的列时。

4. 高效的多列聚合方案

为了解决上述问题，Pandas提供了agg方法，它允许我们通过一个字典来指定对多个列应用不同的聚合函数。结合自定义函数和动态列选择，可以实现高度灵活和可扩展的多列聚合。

4.1 定义自定义聚合函数

首先，我们定义一个通用的函数，用于将Series中的所有元素转换为字符串并用逗号拼接起来。

Delphi 步步精通初级教程 pdf版

Delphi 初级教程步步精通 pdf，简要概括一下内容：Delphi概述、Object Pascal语言基储三种结构的程序设计、数组、过程与函数、自定义类型、Delphi常用组件、多媒体应用编程、DLL的应用、数据库应用基储SQL数据库程序设计等。

下载

def concatenate_with_comma(series):
    """
    将Pandas Series中的所有元素转换为字符串，并用逗号和空格连接。
    """
    return ', '.join(map(str, series))

这个函数接收一个Pandas Series作为输入，对其每个元素调用str()进行类型转换，然后使用', '.join()方法将它们连接成一个单一的字符串。

4.2 使用agg方法进行多列聚合

groupby对象上的agg方法可以接受一个字典，其中键是需要聚合的列名，值是应用于该列的聚合函数。为了实现对除了分组列之外的所有列进行批量聚合，我们可以动态地构建这个字典。

# 动态构建聚合字典并执行多列聚合
# 遍历DataFrame的所有列，排除分组列 'Group'
aggregation_columns = {col: concatenate_with_comma for col in df.columns if col != 'Group'}

aggregated_data = df.groupby('Group').agg(aggregation_columns)
print("\n多列聚合结果:")
print(aggregated_data)

在这个代码片段中：

aggregation_columns = {col: concatenate_with_comma for col in df.columns if col != 'Group'}：我们使用字典推导式动态创建了一个字典。它遍历df的所有列名，如果列名不是'Group'（即分组列），则将其作为字典的键，并将我们定义的concatenate_with_comma函数作为其值。
df.groupby('Group').agg(aggregation_columns)：将这个动态生成的字典传递给agg方法。Pandas会根据Group列进行分组，然后对aggregation_columns字典中指定的每个列应用对应的函数。

5. 结果分析

执行上述代码后，aggregated_data将包含所有非分组列的聚合结果：

多列聚合结果:
         Value             Qty
Group                         
A      1, 2, 5   100, 202, 855
B      3, 4, 6  403, 754, 1256

可以看到，Value和Qty两列都已根据Group进行了分组，并且每个组内的数值都被成功地拼接成了逗号分隔的字符串，完美实现了多列的批量聚合。

6. 注意事项与进阶应用

函数灵活性：agg方法不仅可以接受自定义函数，也可以接受Pandas内置的字符串函数名（如'sum', 'mean', 'count', 'first', 'max', 'min'等）或NumPy函数。例如，如果你的目标是求和，可以直接写{col: 'sum' for col in ...}。
不同列应用不同函数：如果需要对不同列应用不同的聚合函数，可以在agg字典中为每个列指定不同的函数。例如：
```
df.groupby('Group').agg(
    Value_sum=('Value', 'sum'),
    Qty_concat=('Qty', concatenate_with_comma)
)
```
这里使用了命名聚合（Named Aggregation），它允许你为聚合后的新列指定名称。
性能考量：对于非常大的数据集，尽量使用Pandas或NumPy内置的聚合函数，因为它们通常经过C语言优化，性能远高于Python编写的自定义函数。如果自定义函数是性能瓶颈，可以考虑使用numba等工具进行JIT编译优化。
数据类型：在自定义函数中，要注意输入Series的数据类型。本例中map(str, series)确保了所有元素在拼接前都转换为字符串，避免了类型错误。

7. 总结

通过本教程，我们学习了如何利用Pandas的groupby和agg方法，结合自定义函数和动态列选择，高效地实现对DataFrame中多列的批量聚合操作。这种方法不仅解决了重复代码的问题，还大大提高了代码的可读性和可维护性，使得在处理复杂数据聚合需求时能够更加灵活和强大。掌握这一技巧，将使你在Pandas数据处理中游刃有余。

Python 为什么 None == False 为 False？布尔系统设计解析

Python zoneinfo 如何正确处理时区？

Python 如何控制模块之间的依赖方向？

Python Web 项目中的 CSRF 风险

Python 函数式风格是否适合业务代码？

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：解决Langchain中Chat Models导入错误的指南下一篇：Jinja2 模板继承、循环与动态内容渲染的正确实践

作者最新文章

在 PHP 中嵌入 JavaScript 并正确传递 PHP 变量值的完整指南

2026-01-21 09:41

如何使用正则表达式精准提取引号内外的非空白标识符（跳过引号内空格）

2026-01-21 09:44

小红书达人种草下单平台是什么？小红书达人如何筛选？

2026-01-21 09:45

Vue-Laravel 文件上传失败：FormData 为空的完整解决方案

2026-01-21 09:59

Vue-Laravel 文件上传 FormData 为空问题的完整解决方案

2026-01-21 10:00

高效导入 MariaDB 大数据集：低内存占用的 Python 实现方案

2026-01-21 10:03

如何在 DataTables 服务端模式下正确设置默认每页显示行数

2026-01-21 10:19

Java 8 Streams 实现嵌套 Map 结构的条件过滤与键提取

2026-01-21 10:28

如何解析 Go 源文件中的 go:generate 指令

2026-01-21 10:29

Kaggle 中解决 pip 依赖冲突的正确方法：使用 legacy 解析器

2026-01-21 10:30

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

769

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

661

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

639

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1325

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

709

2023.08.11