使用NumPy高效聚合多维数组：按指定间隔求均值-Python教程-PHP中文网

使用NumPy高效聚合多维数组：按指定间隔求均值

聖光之護

发布： 2025-11-01 12:48:45

原创

994人浏览过

使用numpy高效聚合多维数组：按指定间隔求均值

本教程详细介绍了如何利用NumPy的reshape和mean函数，将多维数组中特定维度的数据（例如按年份排列的数据）高效地聚合到预设的固定间隔（如5年）中。文章通过具体示例，阐释了reshape参数的含义及mean函数中axis参数的选择，确保在聚合的同时保持其他维度的独立性，从而实现自动化的数据分组和统计。

NumPy多维数组按间隔聚合求均值

在数据分析中，我们经常需要对多维数组中的数据进行分组聚合，例如将按年记录的数据聚合为按5年或10年为间隔的统计量。NumPy提供了强大且高效的工具来完成此类任务，特别是通过结合reshape和mean函数。本文将以一个具体的示例，详细讲解如何在NumPy中实现这一操作。

场景描述

假设我们有一个NumPy数组，其中包含按年份和性别划分的数据。例如，一个形状为(10, 2)的数组，第一维代表10个连续的年份数据，第二维代表男性和女性的数据。我们的目标是将这些数据按每5年为一个间隔进行聚合，并分别计算每个性别在每个5年间隔内的均值。

以下是原始数据示例：

import numpy as np

# 原始数据，第一列为女性数据，第二列为男性数据
# 每一行代表一个年份的数据
arr = np.array([
    [0, 1],  # 年份0
    [2, 3],  # 年份1
    [3, 4],  # 年份2
    [4, 5],  # 年份3
    [5, 6],  # 年份4
    [7, 8],  # 年份5
    [8, 9],  # 年份6
    [9, 10], # 年份7
    [10, 11],# 年份8
    [11, 12] # 年份9
])

print("原始数组形状:", arr.shape)
print("原始数组:\n", arr)

登录后复制

如果手动计算，我们需要分别提取每5年的数据进行求均值，这在数据量大时效率极低且易出错：

# 手动计算示例
mean_1st_5_yrs_female = np.mean([0, 2, 3, 4, 5])
mean_1st_5_yrs_male = np.mean([1, 3, 4, 5, 6])
mean_2nd_5_yrs_female = np.mean([7, 8, 9, 10, 11])
mean_2nd_5_yrs_male = np.mean([8, 9, 10, 11, 12])

print("\n手动计算结果 (女性第一五年):", mean_1st_5_yrs_female)
print("手动计算结果 (男性第一五年):", mean_1st_5_yrs_male)

登录后复制

NumPy自动化解决方案

NumPy提供了一种简洁而强大的方法来自动完成这种聚合，即结合使用reshape和mean函数。

核心代码如下：

result = arr.reshape(-1, 5, 2).mean(axis=1)
print("\nNumPy自动化聚合结果:\n", result)

登录后复制

输出结果：

[[ 2.8  3.8]
 [ 9.  10. ]]

登录后复制

这个结果与我们手动计算的预期结果一致：

JoinMC智能客服

JoinMC智能客服，帮您熬夜加班，7X24小时全天候智能回复用户消息，自动维护媒体主页，全平台渠道集成管理，电商物流平台一键绑定，让您出海轻松无忧！

193

查看详情

第一个5年间隔（年份0-4）的女性均值为 (0+2+3+4+5)/5 = 2.8，男性均值为 (1+3+4+5+6)/5 = 3.8。
第二个5年间隔（年份5-9）的女性均值为 (7+8+9+10+11)/5 = 9.0，男性均值为 (8+9+10+11+12)/5 = 10.0。

详细解析

arr.reshape(-1, 5, 2)
- reshape函数的作用： 改变数组的形状，但不改变其数据。它将原始数组的数据元素重新组织成一个新的维度结构。
- -1： 这是一个特殊的占位符，表示NumPy会自动计算此维度的大小。在本例中，原始数组的第一维大小为10，我们希望每5个元素组成一个组，因此NumPy会自动计算出 10 // 5 = 2，即会有2个这样的5年周期。
- 5：这表示我们希望将原始数组的第一维（年份）按照每5个元素为一个“块”进行分组。这对应于我们希望的“5年间隔”。
- 2：这表示原始数组的第二维（性别）保持不变。
- 重塑后的数组形状： 原始数组 (10, 2) 被重塑为 (2, 5, 2)。
  - 第一个维度 (2) 代表了2个5年周期。
  - 第二个维度 (5) 代表了每个周期内的5个年份。
  - 第三个维度 (2) 代表了每个年份的2个性别数据。
为了更好地理解，我们可以查看重塑后的数组：
```
reshaped_arr = arr.reshape(-1, 5, 2)
print("\n重塑后的数组形状:", reshaped_arr.shape)
print("重塑后的数组:\n", reshaped_arr)
```
登录后复制
输出：
```
[[[ 0  1]
  [ 2  3]
  [ 3  4]
  [ 4  5]
  [ 5  6]]

 [[ 7  8]
  [ 8  9]
  [ 9 10]
  [10 11]
  [11 12]]]
```
登录后复制
可以看到，数据被正确地分成了两个5年块，每个块内部包含了5个年份的男女数据。
.mean(axis=1)
- mean函数的作用： 计算数组元素的平均值。
- axis参数： 指定沿哪个轴计算平均值。
  - 在重塑后的数组 (2, 5, 2) 中：
    - axis=0 代表在不同5年周期之间求平均（例如，第一个5年周期的女性均值与第二个5年周期的女性均值求平均）。
    - axis=1 代表在每个5年周期内部，沿着5个年份数据求平均。这正是我们想要做的：对每个5年周期内的5个年份数据进行聚合。
    - axis=2 代表在每个年份内部，沿着性别数据求平均（例如，某个年份的男女数据求平均）。
  - 因此，axis=1 将对每个5年周期内的5个年份数据求均值，同时保持不同性别的数据独立。
最终，result数组的形状将变为 (2, 2)，其中：
- 第一个维度 (2) 对应于2个5年周期。
- 第二个维度 (2) 对应于2个性别。每个元素就是相应周期和性别的均值。

注意事项

维度匹配： 使用reshape进行聚合时，原始数组被聚合的维度（本例中的年份维度）的大小必须是聚合间隔（本例中的5）的整数倍。如果不是整数倍，reshape操作会失败，或者需要更复杂的切片和填充逻辑来处理剩余的数据。
重塑顺序： reshape的参数顺序至关重要。例如，如果尝试 arr.reshape(-1, 2, 5)，虽然它也能重塑，但数据的逻辑结构会被打乱。原始数据中，[0, 1]是第一个年份的男女数据，[2, 3]是第二个年份的男女数据。reshape(-1, 5, 2) 保持了这种“年份内部性别”的结构。而 reshape(-1, 2, 5) 会将原始数组的每一行（即每个年份的男女数据）拆分，然后将5个这样的元素组合起来，这会破坏原始数据的逻辑分组。因此，确保重塑后的维度顺序符合你的聚合逻辑非常重要。