Pandas 数据重塑与时间序列聚合:从月度列到季度/年度汇总

心靈之曲
发布: 2025-09-23 11:52:29
原创
971人浏览过

Pandas 数据重塑与时间序列聚合:从月度列到季度/年度汇总

本教程详细介绍了如何使用 Pandas 对具有 YYYYMM 格式月度数据列的 DataFrame 进行高效重塑与聚合。通过 melt 函数将宽格式数据转换为长格式,结合字符串操作提取年份和月份,并创建季度映射,最终实现灵活的季度和年度数据汇总。文章提供了清晰的步骤、代码示例,并探讨了相关注意事项,帮助用户轻松处理动态时间范围的数据聚合需求。

在数据分析中,我们经常会遇到需要将细粒度的时间序列数据(如月度数据)聚合为粗粒度数据(如季度或年度数据)的场景。当原始数据以宽格式存储,即每个月份作为独立列时,手动指定每个季度或年份的列进行求和会非常繁琐且难以适应动态数据范围。本文将介绍一种灵活且高效的方法,利用 pandas 的数据重塑和聚合功能来解决这一问题。

1. 理解挑战与数据结构

假设我们有一个 Pandas DataFrame,其中包含多个实体(例如产品、地区)的数值数据,并且每个月份的数据都存储在一个以 YYYYMM 格式命名的列中。

示例原始 DataFrame:

import pandas as pd

data = {
    '201003': [10, 14],
    '201004': [11, 19],
    '201005': [14, 20],
    '201006': [22, 22],
    '201007': [10, 26],
    '201008': [19, 11]
}
df_original = pd.DataFrame(data, index=['A', 'B'])

print("原始 DataFrame:")
print(df_original)
登录后复制

输出:

原始 DataFrame:
   201003  201004  201005  201006  201007  201008
A      10      11      14      22      10      19
B      14      19      20      22      26      11
登录后复制

我们的目标是将这些 YYYYMM 列的数据聚合为季度和年度的总和,并生成新的数据结构。

2. 重塑数据结构:从宽到长

要灵活地处理时间信息并进行聚合,首先需要将 DataFrame 从宽格式(月份作为列)转换为长格式(月份作为行)。pandas.melt() 函数是实现这一目标的关键工具。它会将指定的列“融化”成行,创建一个新的 variable 列来存储原始列名,以及一个 value 列来存储对应的值。

# 将原始 DataFrame 重置索引,以便 'A', 'B' 成为常规列,或在 melt 中指定 id_vars
# 这里我们假设索引是实体标识,希望保留,所以使用 reset_index
df_melted = df_original.reset_index().melt(id_vars='index', var_name='YYYYMM', value_name='Value')

print("\n重塑后的 DataFrame (df_melted):")
print(df_melted)
登录后复制

输出:

重塑后的 DataFrame (df_melted):
  index  YYYYMM  Value
0     A  201003     10
1     B  201003     14
2     A  201004     11
3     B  201004     19
4     A  201005     14
5     B  201005     20
6     A  201006     22
7     B  201006     22
8     A  201007     10
9     B  201007     26
10    A  201008     19
11    B  201008     11
登录后复制

现在,每个 YYYYMM 列名及其对应的值都转换为了一行,方便后续处理。id_vars='index' 将原始的行索引('A', 'B')保留为一个名为 'index' 的新列。

3. 提取时间信息:年份和月份

在长格式数据中,YYYYMM 列包含了我们所需的年份和月份信息。我们可以使用字符串切片操作轻松地从 YYYYMM 字符串中提取这些信息。

df_melted['Year'] = df_melted['YYYYMM'].str[:4]  # 提取前4位作为年份
df_melted['Month'] = df_melted['YYYYMM'].str[4:] # 提取后2位作为月份

print("\n提取年份和月份后的 DataFrame:")
print(df_melted)
登录后复制

输出:

提取年份和月份后的 DataFrame:
   index  YYYYMM  Value  Year Month
0      A  201003     10  2010    03
1      B  201003     14  2010    03
2      A  201004     11  2010    04
3      B  201004     19  2010    04
4      A  201005     14  2010    05
5      B  201005     20  2010    05
6      A  201006     22  2010    06
7      B  201006     22  2010    06
8      A  201007     10  2010    07
9      B  201007     26  2010    07
10     A  201008     19  2010    08
11     B  201008     11  2010    08
登录后复制

4. 映射季度信息

为了进行季度汇总,我们需要将每个月份映射到对应的季度。这可以通过创建一个月份到季度的字典,然后使用 map() 函数应用到 Month 列上来实现。

百度·度咔剪辑
百度·度咔剪辑

度咔剪辑,百度旗下独立视频剪辑App

百度·度咔剪辑 3
查看详情 百度·度咔剪辑
# 定义月份到季度的映射
month_quarter_map = {
    '01': 1, '02': 1, '03': 1,  # 第一季度
    '04': 2, '05': 2, '06': 2,  # 第二季度
    '07': 3, '08': 3, '09': 3,  # 第三季度
    '10': 4, '11': 4, '12': 4   # 第四季度
}

df_melted['Quarter'] = df_melted['Month'].map(month_quarter_map)

print("\n添加季度信息后的 DataFrame:")
print(df_melted)
登录后复制

输出:

添加季度信息后的 DataFrame:
   index  YYYYMM  Value  Year Month  Quarter
0      A  201003     10  2010    03        1
1      B  201003     14  2010    03        1
2      A  201004     11  2010    04        2
3      B  201004     19  2010    04        2
4      A  201005     14  2010    05        2
5      B  201005     20  2010    05        2
6      A  201006     22  2010    06        2
7      B  201006     22  2010    06        2
8      A  201007     10  2010    07        3
9      B  201007     26  2010    07        3
10     A  201008     19  2010    08        3
11     B  201008     11  2010    08        3
登录后复制

5. 执行季度和年度汇总

现在,我们有了 index(原始实体)、Year 和 Quarter 列,可以轻松地使用 groupby() 函数进行聚合。

5.1 季度汇总

我们可以按 index、Year 和 Quarter 进行分组,然后对 Value 列求和。

df_quarterly_sum = df_melted.groupby(['index', 'Year', 'Quarter'])['Value'].sum().reset_index()

print("\n季度汇总结果:")
print(df_quarterly_sum)
登录后复制

输出:

季度汇总结果:
  index  Year  Quarter  Value
0     A  2010        1     10
1     A  2010        2     47
2     A  2010        3     29
3     B  2010        1     14
4     B  2010        2     61
5     B  2010        3     37
登录后复制

如果希望季度作为列,可以使用 pivot_table 或 unstack():

df_quarterly_wide = df_quarterly_sum.pivot_table(index=['index', 'Year'], columns='Quarter', values='Value').reset_index()
df_quarterly_wide.columns.name = None # 移除 columns name
print("\n季度汇总结果 (宽格式):")
print(df_quarterly_wide)
登录后复制

输出:

季度汇总结果 (宽格式):
  index  Year   1   2   3
0     A  2010  10  47  29
1     B  2010  14  61  37
登录后复制

5.2 年度汇总

年度汇总类似,只需按 index 和 Year 进行分组求和。

df_annual_sum = df_melted.groupby(['index', 'Year'])['Value'].sum().reset_index()

print("\n年度汇总结果:")
print(df_annual_sum)
登录后复制

输出:

年度汇总结果:
  index  Year  Value
0     A  2010     86
1     B  2010    112
登录后复制

6. 注意事项与最佳实践

  • 数据类型一致性: 确保 Value 列的数据类型是数值型(int 或 float),否则求和操作会出错。如果不是,可以使用 pd.to_numeric(df_melted['Value'], errors='coerce') 进行转换。
  • 处理缺失值: 在 melt 操作之前或之后,考虑如何处理原始数据中的缺失值。sum() 函数默认会跳过 NaN 值。
  • 动态时间范围: 这种方法对于动态的时间范围(例如用户选择不同的起始和结束年份/月份)非常有效,因为我们不再需要硬编码列名。
  • 性能优化: 对于非常大的数据集,melt 和 groupby 操作可能会消耗较多内存和时间。确保您的系统有足够的资源。
  • 更高级的时间序列处理: 对于更复杂的时间序列操作,例如日期偏移、频率转换等,Pandas 的 DatetimeIndex 或 PeriodIndex 提供了更强大的功能。您可以考虑将 YYYYMM 转换为 Period 对象或 datetime 对象,但对于本教程中简单的季度/年度汇总需求,字符串操作和映射已足够高效。
    • 示例:使用 PeriodIndex (可选)
      # 将 YYYYMM 转换为 PeriodIndex
      df_melted['Period'] = pd.to_datetime(df_melted['YYYYMM'], format='%Y%m').dt.to_period('M')
      # 提取年份和季度
      df_melted['Year_P'] = df_melted['Period'].dt.year
      df_melted['Quarter_P'] = df_melted['Period'].dt.quarter
      # 然后按 'index', 'Year_P', 'Quarter_P' 分组求和
      df_quarterly_sum_period = df_melted.groupby(['index', 'Year_P', 'Quarter_P'])['Value'].sum().reset_index()
      # 这种方法更健壮,尤其是在处理更复杂的日期逻辑时
      登录后复制

7. 总结

通过 df.melt() 将宽格式的月度数据转换为长格式,结合字符串操作提取年份和月份,并创建月份到季度的映射,我们能够以一种灵活且可扩展的方式实现季度和年度数据的聚合。这种方法避免了手动指定大量列名的繁琐工作,使得数据处理流程更加自动化和高效,尤其适用于处理具有动态时间范围的数据集。

以上就是Pandas 数据重塑与时间序列聚合:从月度列到季度/年度汇总的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号