Pandas MultiIndex DataFrame 多级自定义分组聚合教程-Python教程-PHP中文网

Pandas MultiIndex DataFrame 多级自定义分组聚合教程

心靈之曲

发布： 2025-11-18 13:48:14

原创

269人浏览过

Pandas MultiIndex DataFrame 多级自定义分组聚合教程

本教程旨在解决pandas multiindex dataframe在不同索引级别上应用不同分组聚合规则的挑战。我们将演示如何通过重置索引、对特定级别进行字符串转换，然后执行多列分组聚合来达到自定义的数据汇总效果，从而实现对复杂数据结构的灵活处理。

1. 引言与问题背景

在数据分析中，Pandas DataFrame 及其 MultiIndex（多级索引）功能为处理复杂层次结构数据提供了强大的工具。然而，当我们需要对 MultiIndex DataFrame 的不同级别应用不同的分组和聚合逻辑时，传统的 groupby(level=...) 方法可能无法直接满足所有需求，特别是当某个级别的分组键需要进行自定义转换时。

本教程将通过一个具体案例，详细讲解如何实现这样的复杂多级分组聚合。

2. 初始数据结构

假设我们有一个 MultiIndex DataFrame，其索引包含两级：first 和 second。first 级别包含 'bar', 'baz', 'foo', 'qux' 等，second 级别包含 'one1', 'one2', 'two' 等。DataFrame 还包含两列数据 'A' 和 'B'。

首先，我们创建这个示例 DataFrame：

import pandas as pd
import numpy as np

# 定义 MultiIndex 的数组
arrays = [
    ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
    ["one1", "one2", "one1", "one2", "one1", "two", "one1", "two"],
]

# 从数组创建 MultiIndex，并指定索引名称
index = pd.MultiIndex.from_arrays(arrays, names=["first", "second"])

# 创建 DataFrame
df = pd.DataFrame({"A": [1, 1, 1, 1, 2, 2, 3, 3], "B": np.arange(8)}, index=index)

print("原始 DataFrame:")
print(df)

登录后复制

输出的原始 DataFrame 如下：

原始 DataFrame:
              A  B
first second      
bar   one1     1  0
      one2     1  1
baz   one1     1  2
      one2     1  3
foo   one1     2  4
      two     2  5
qux   one1     3  6
      two     3  7

登录后复制

3. 目标分组聚合逻辑

我们的目标是实现一种特殊的聚合：

对于第一级索引 (first)：保持其原有的分组逻辑，即按 'first' 级别进行聚合。
对于第二级索引 (second)：需要进行自定义转换。具体来说，我们希望将 second 级别的值截取前三个字符作为新的分组键。例如，'one1' 和 'one2' 都应归入 'one' 组。而 'two' 则保持 'two'。
聚合操作：对 'A' 和 'B' 列进行求和 (sum) 聚合。

最终期望的结果 DataFrame 如下：

              A  B
first second      
bar   one      2  1
baz   one      2  5
foo   one      2  4
      two      2  5
qux   one      3  6
      two      3  7

登录后复制

可以看到，'bar' 下的 'one1' 和 'one2' 合并为 'one'，并且 'A' 和 'B' 列的值进行了求和 (1+1=2, 0+1=1)。'baz' 下同理。'foo' 和 'qux' 下的 'one1' 也合并为 'one'，而 'two' 保持不变。

4. 解决方案：重置索引与字符串转换

由于 groupby 函数本身在分组过程中无法直接修改索引值来创建新的分组键，我们需要采取一种间接但有效的方法：

重置索引 (reset_index())：将 MultiIndex 转换为普通的数据列，使得 first 和 second 成为 DataFrame 的常规列。
转换 second 列：对新生成的 second 列应用字符串切片操作，将其值转换为新的分组键。
重新分组聚合 (groupby().sum())：使用转换后的 second 列以及 first 列作为新的分组键进行聚合。

下面是详细的实现步骤：

步骤 1: 重置索引

使用 df.reset_index() 将 first 和 second 索引级别转换为 DataFrame 的常规列。

聚好用AI

可免费AI绘图、AI音乐、AI视频创作，聚集全球顶级AI，一站式创意平台

115

查看详情

df_reset = df.reset_index()
print("\n重置索引后的 DataFrame:")
print(df_reset)

登录后复制

输出：

重置索引后的 DataFrame:
  first second  A  B
0   bar   one1  1  0
1   bar   one2  1  1
2   baz   one1  1  2
3   baz   one2  1  3
4   foo   one1  2  4
5   foo    two  2  5
6   qux   one1  3  6
7   qux    two  3  7

登录后复制

步骤 2: 转换 second 列

现在 second 已经是一个普通列，我们可以对其进行字符串操作。我们使用 .str[:3] 来截取每个字符串的前三个字符。

df_reset['second'] = df_reset['second'].str[:3]
print("\n转换 'second' 列后的 DataFrame:")
print(df_reset)

登录后复制

输出：

转换 'second' 列后的 DataFrame:
  first second  A  B
0   bar    one  1  0
1   bar    one  1  1
2   baz    one  1  2
3   baz    one  1  3
4   foo    one  2  4
5   foo    two  2  5
6   qux    one  3  6
7   qux    two  3  7

登录后复制

可以看到，'one1' 和 'one2' 都被成功转换为 'one'。

步骤 3: 重新分组并聚合

现在，DataFrame 已经准备好进行基于 first 和转换后的 second 列的分组。我们对 'A' 和 'B' 列执行求和聚合。

df_grouped = df_reset.groupby(['first', 'second'])[['A', 'B']].sum()
print("\n最终分组聚合结果:")
print(df_grouped)

登录后复制

输出：

最终分组聚合结果:
              A  B
first second      
bar   one      2  1
baz   one      2  5
foo   one      2  4
      two      2  5
qux   one      3  6
      two      3  7

登录后复制

这个结果与我们期望的目标完全一致。

5. 完整代码示例

将上述步骤整合到一起，得到完整的解决方案代码：

import pandas as pd
import numpy as np

# 1. 创建原始 MultiIndex DataFrame
arrays = [
    ["bar", "bar", "baz", "baz", "foo", "foo", "qux", "qux"],
    ["one1", "one2", "one1", "one2", "one1", "two", "one1", "two"],
]
index = pd.MultiIndex.from_arrays(arrays, names=["first", "second"])
df = pd.DataFrame({"A": [1, 1, 1, 1, 2, 2, 3, 3], "B": np.arange(8)}, index=index)

print("原始 DataFrame:")
print(df)

# 2. 重置索引，将 MultiIndex 级别转换为普通列
df_temp = df.reset_index()

# 3. 对 'second' 列进行自定义转换
# 将 'second' 列的值截取前三个字符作为新的分组键
df_temp['second'] = df_temp['second'].str[:3]

# 4. 根据 'first' 和转换后的 'second' 列进行分组，并对 'A', 'B' 列求和
result_df = df_temp.groupby(['first', 'second'])[['A', 'B']].sum()

print("\n最终分组聚合结果:")
print(result_df)

登录后复制

6. 注意事项与扩展

数据类型：确保需要进行字符串操作的列是字符串类型。如果不是，可能需要先使用 .astype(str) 进行转换。
性能考量：对于非常大的 DataFrame，reset_index() 会创建 DataFrame 的副本，这可能会消耗额外的内存。然而，对于大多数常见场景，这种方法是高效且易于理解的。
其他聚合函数：除了 sum()，你还可以应用其他聚合函数，如 mean(), min(), max(), count() 等，或者使用 agg() 方法应用多个聚合函数。
更复杂的转换：如果 second 列的转换逻辑更复杂（例如，基于正则表达式匹配或条件判断），你可以使用 apply() 方法配合自定义函数来处理该列。
保持 MultiIndex：groupby() 操作默认会将分组键作为新的 MultiIndex。如果需要将它们作为普通列，可以在 groupby() 之后再调用 reset_index()。

7. 总结

本教程展示了如何在 Pandas MultiIndex DataFrame 上实现不同级别自定义分组聚合的策略。核心思想是将 MultiIndex 级别转换为普通列，对需要自定义分组逻辑的列进行预处理（如字符串截取），然后利用标准的 groupby() 方法进行聚合。这种方法提供了极大的灵活性，能够处理传统 groupby(level=...) 难以直接解决的复杂聚合需求。通过理解和掌握这种技术，你将能更有效地处理和分析多层次结构的数据。

以上就是Pandas MultiIndex DataFrame 多级自定义分组聚合教程的详细内容，更多请关注php中文网其它相关文章！