Pandas DataFrame多列聚合与自定义字符串拼接教程

碧海醫心

发布时间：2025-11-14 13:42:36

200人浏览过

来源于php中文网

原创

Pandas DataFrame多列聚合与自定义字符串拼接教程

本教程详细介绍了如何使用pandas对dataframe进行多列聚合操作。我们将以一个分组列为基准，对多个目标列应用自定义聚合逻辑，特别是将各组内的数值拼接成逗号分隔的字符串。通过groupby().agg()方法结合自定义函数，可以高效且灵活地处理复杂的数据聚合需求，提高代码的可维护性和可扩展性。

在数据分析中，我们经常需要根据一个或多个键对数据进行分组，并对每个组内的其他列执行聚合操作。Pandas库提供了强大的groupby()功能来满足这类需求。当聚合操作涉及到对多个列应用相同的自定义逻辑（例如将组内所有值拼接成一个字符串）时，理解如何高效地实现这一点变得尤为重要。

1. 问题场景：多列自定义聚合需求

假设我们有一个DataFrame，其中包含一个分组列和多个数值列。我们的目标是根据分组列对数据进行分组，然后将每个组内所有数值列的值分别拼接成一个逗号分隔的字符串。

以下是一个示例DataFrame：

import pandas as pd

data = {
    'Group': ['A', 'A', 'B', 'B', 'A', 'B'],
    'Value': [1, 2, 3, 4, 5, 6],
    'Qty': [100, 202, 403, 754, 855, 1256]
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

输出：

原始DataFrame:
  Group  Value   Qty
0     A      1   100
1     A      2   202
2     B      3   403
3     B      4   754
4     A      5   855
5     B      6  1256

最初，我们可能只考虑对单个列进行聚合，例如对Value列：

# 单列聚合的初始尝试
result_single_col = df.groupby('Group')['Value'].apply(lambda x: ', '.join(map(str, x))).reset_index()
print("\n单列'Value'聚合结果:")
print(result_single_col)

输出：

单列'Value'聚合结果:
  Group    Value
0     A  1, 2, 5
1     B  3, 4, 6

这种方法虽然适用于单列，但如果我们需要对Value和Qty等多个列执行相同的拼接操作，并且实际数据集中可能有十几个甚至更多的列需要聚合，那么为每个列单独编写apply操作将变得冗长且难以维护。

2. 解决方案：使用 groupby().agg() 进行多列自定义聚合

Pandas的groupby().agg()方法提供了对多个列应用不同或相同聚合函数的强大能力。对于我们的自定义字符串拼接需求，我们可以定义一个通用的聚合函数，然后将其应用到所有目标列。

2.1 定义自定义聚合函数

首先，我们定义一个函数，它接受一个Series（即分组后的某一列），并将其中的所有元素转换为字符串后，用逗号连接起来。

def concatenate_with_comma(series):
    """
    将Series中的所有元素转换为字符串并用逗号连接。
    """
    return ', '.join(map(str, series))

这里使用map(str, series)是为了确保Series中的所有元素（无论是整数、浮点数还是其他类型）都能被正确地转换为字符串，从而避免TypeError。

Memories.ai

专注于视频解析的AI视觉记忆模型

下载

2.2 应用自定义函数到多列

现在，我们可以将这个自定义函数应用到除了分组列之外的所有列。agg()方法接受一个字典，其中键是需要聚合的列名，值是对应的聚合函数。

为了提高代码的通用性，我们可以动态地构建这个字典，遍历所有非分组列并指定concatenate_with_comma函数。

# 获取所有非分组列
aggregation_columns = [col for col in df.columns if col != 'Group']

# 构建聚合字典
aggregation_dict = {col: concatenate_with_comma for col in aggregation_columns}

# 执行多列聚合
aggregated_data = df.groupby('Group').agg(aggregation_dict)

print("\n多列聚合结果:")
print(aggregated_data)

输出：

多列聚合结果:
         Value             Qty
Group                         
A      1, 2, 5   100, 202, 855
B      3, 4, 6  403, 754, 1256

通过这种方式，即使有12个甚至更多的列需要聚合，我们也不需要重复编写代码，只需将它们包含在aggregation_columns列表中即可。

3. 灵活性与其他聚合函数

groupby().agg()的强大之处在于其灵活性。除了自定义函数，你还可以轻松地应用Pandas内置的聚合函数，例如sum、mean、count、min、max等。

例如，如果需要同时计算Value列的总和，并将Qty列进行字符串拼接：

# 混合聚合函数示例
mixed_aggregation_dict = {
    'Value': 'sum',  # 对Value列求和
    'Qty': concatenate_with_comma # 对Qty列进行字符串拼接
}

mixed_aggregated_data = df.groupby('Group').agg(mixed_aggregation_dict)
print("\n混合聚合函数示例结果:")
print(mixed_aggregated_data)

输出：

混合聚合函数示例结果:
       Value              Qty
Group                         
A          8    100, 202, 855
B         13   403, 754, 1256

4. 注意事项与总结

数据类型转换： 在自定义拼接函数中，map(str, series)是关键，它确保所有元素在拼接前都被转换为字符串，避免了潜在的类型错误。
性能考量： 对于非常大的数据集，apply()方法可能不如Pandas内置的C优化函数高效。然而，对于自定义的、无法用内置函数表达的复杂逻辑，apply()或agg()结合自定义函数是必要的。
代码可读性： 将聚合逻辑封装在独立的函数中，可以提高代码的可读性和复用性。
多列选择： 动态构建聚合字典（如[col for col in df.columns if col != 'Group']）是处理大量列的优雅方式，避免了硬编码列名。

通过本教程，您应该已经掌握了如何使用Pandas的groupby().agg()方法结合自定义函数，对DataFrame中的多个列进行灵活且高效的聚合操作，特别是针对将组内值拼接成字符串的常见需求。这种方法不仅适用于字符串拼接，也为处理各种复杂的自定义聚合场景提供了通用的解决方案。

Python 调试时为什么断点会“跳行”？

requests 如何优雅处理流式响应而不一次性读完全部内容

Python多线程代码_Python多线程编程示例代码解析

Python 性能优化应该从哪里入手？

Python 代码风格真的会影响性能吗？