Pandas中获取同期季度/年度数据的专业指南

心靈之曲
发布: 2025-10-24 09:46:32
原创
588人浏览过

Pandas中获取同期季度/年度数据的专业指南

本文详细介绍了如何在pandas dataframe中高效地计算同期季度(yoq)或同期月份(mom)数据。通过将季度字符串转换为pandas `periodindex`,并巧妙利用其时间偏移特性,结合dataframe的 `merge` 操作,可以精确地将当前季度的数值与前一年同期的数值进行匹配,从而实现复杂的时序数据对比分析。

在进行时序数据分析时,我们经常需要将当前报告期的数值与前一年同期(Year-over-Quarter, YoQ)或前一月同期(Month-over-Month, MoM)的数值进行比较。例如,将2021年第一季度的数据与2020年第一季度的数据进行对比。直接使用 shift() 函数通常只能实现相邻时间段的比较,而无法满足跨年同期的需求。本教程将介绍一种基于Pandas PeriodIndex 和 merge 操作的专业方法来解决这一问题。

数据准备与问题阐述

首先,我们构建一个包含季度数值的示例DataFrame:

import pandas as pd

df = pd.DataFrame({'item':['A','A','A','A','A','A','B','B','B','B','B','B','C','C','C','C','C','C'],
                  'quarter':['FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',
                         'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',
                         'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2'],
                  'value':[100,150,120,135,128,160,230,210,240,220,250,230,125,230,162,111,134,135]})
登录后复制

如果尝试使用 groupby 和 shift 来获取前一年的同期值,会遇到问题。例如,以下代码会获取前一个季度的值,而非前一年的同期季度值:

df['value_prev_incorrect'] = df.sort_values(by=['item','quarter']).groupby(['item'])['value'].shift()
print(df)
登录后复制

输出结果如下所示,value_prev_incorrect 列显示的是前一个季度的值,而不是前一年同期的值:

   item  quarter  value  value_prev_incorrect
0     A  FY20_Q1    100                   NaN
1     A  FY20_Q2    150                 100.0
2     A  FY20_Q3    120                 150.0
3     A  FY20_Q4    135                 120.0
4     A  FY21_Q1    128                 135.0
5     A  FY21_Q2    160                 128.0
...
登录后复制

我们期望的结果是,例如 FY21_Q1 的 value_prev 应该对应 FY20_Q1 的值。

   item  quarter  value  value_prev (期望结果)
0     A  FY20_Q1    100                  NaN
1     A  FY20_Q2    150                  NaN
2     A  FY20_Q3    120                  NaN
3     A  FY20_Q4    135                  NaN
4     A  FY21_Q1    128                100.0
5     A  FY21_Q2    160                150.0
...
登录后复制

解决方案:使用 PeriodIndex 和合并操作

要实现精确的同期比较,核心思路是:

  1. 将表示季度或月份的字符串转换为Pandas PeriodIndex 对象,以便进行标准的时间偏移操作。
  2. 为每个当前时间点计算出其前一年同期的时间点。
  3. 通过 merge 操作将原始数据与自身进行合并,利用计算出的时间点进行匹配。

步骤1:标准化季度数据并创建 PeriodIndex

首先,我们需要将 quarter 列的字符串格式(如 FY20_Q1)转换为Pandas能够识别的周期对象。这里我们将其转换为 YYYY-QX 格式,然后创建 PeriodIndex。

# 将 "FYXX_QX" 格式转换为 "20XX-QX"
df["current_period"] = df["quarter"].str.replace(r"FY(\d+)_Q(\d+)", r"20\1-Q\2", regex=True)
# 将字符串转换为 PeriodIndex,频率为季度 (Q)
df["current_period"] = pd.PeriodIndex(df["current_period"], freq="Q")
登录后复制

现在 df 中新增了一列 current_period,其数据类型为 Period。

百度文心百中
百度文心百中

百度大模型语义搜索体验中心

百度文心百中22
查看详情 百度文心百中

步骤2:创建前一年同期标识

为了进行合并,我们需要为每个当前季度找到其前一年同期的标识。由于 PeriodIndex 支持时间偏移,我们可以直接利用它。对于季度数据,一年有4个季度,所以前一年同期可以通过减去4个季度来实现。

# 创建一个表示“前一年同期”的PeriodIndex列。
# 注意:这里我们创建的是“当前季度 + 4个季度”的标识,
# 这样在后续合并时,左侧的“当前季度”就能匹配右侧的“前一年同期”数据。
# 具体来说,如果当前行是2021-Q1,那么`next_period`就是2022-Q1。
# 在合并时,我们用左侧的`current_period`(例如2021-Q1)去匹配右侧的`next_period`。
# 这样,当左侧的`current_period`是2021-Q1时,它会去寻找右侧`next_period`为2021-Q1的行。
# 而右侧`next_period`为2021-Q1的行,其`current_period`实际上是2020-Q1。
# 从而实现了2021-Q1匹配到2020-Q1的数据。
df["next_period"] = df["current_period"] + 4
登录后复制

步骤3:执行合并操作

现在,我们可以将DataFrame与自身进行左连接(left merge)。左侧DataFrame使用 item 和 current_period 作为连接键,右侧DataFrame使用 item 和 next_period 作为连接键。这样,左侧的 current_period (例如 2021-Q1) 就会与右侧的 next_period (例如 2021-Q1) 进行匹配,而右侧 next_period 为 2021-Q1 的行,其 current_period 实际上是 2020-Q1,从而成功获取了前一年同期的数据。

out = df.merge(
    df,
    how="left",
    left_on=["item", "current_period"], # 左侧DataFrame的当前季度
    right_on=["item", "next_period"],   # 右侧DataFrame的“前一年同期”季度
    suffixes=('_current', '_prev')       # 为区分同名列添加后缀
)
登录后复制

步骤4:结果整理与展示

最后,选择并重命名所需的列,以获得清晰的输出结果。

final_df = out[["item", "quarter_current", "value_current", "value_prev"]].rename(
    columns={"quarter_current": "quarter", "value_current": "value", "value_prev": "value_prev"}
)
print(final_df)
登录后复制

完整的代码和输出如下:

import pandas as pd

df = pd.DataFrame({'item':['A','A','A','A','A','A','B','B','B','B','B','B','C','C','C','C','C','C'],
                  'quarter':['FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',
                         'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',
                         'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2'],
                  'value':[100,150,120,135,128,160,230,210,240,220,250,230,125,230,162,111,134,135]})

# 步骤1:标准化季度数据并创建 PeriodIndex
df["current_period"] = df["quarter"].str.replace(r"FY(\d+)_Q(\d+)", r"20\1-Q\2", regex=True)
df["current_period"] = pd.PeriodIndex(df["current_period"], freq="Q")

# 步骤2:创建前一年同期标识
# 这里创建的是“当前季度 + 4个季度”的标识,用于后续合并
df["next_period"] = df["current_period"] + 4

# 步骤3:执行合并操作
# 左侧的 current_period (例如 2021-Q1) 会匹配右侧的 next_period (例如 2021-Q1)
# 这样右侧的实际 current_period (2020-Q1) 的 value 就会被拉过来
out = df.merge(
    df,
    how="left",
    left_on=["item", "current_period"],
    right_on=["item", "next_period"],
    suffixes=('_current', '_prev')
)

# 步骤4:结果整理与展示
final_df = out[["item", "quarter_current", "value_current", "value_prev"]].rename(
    columns={"quarter_current": "quarter", "value_current": "value", "value_prev": "value_prev"}
)
print(final_df)
登录后复制

输出结果:

   item  quarter  value  value_prev
0     A  FY20_Q1    100         NaN
1     A  FY20_Q2    150         NaN
2     A  FY20_Q3    120         NaN
3     A  FY20_Q4    135         NaN
4     A  FY21_Q1    128       100.0
5     A  FY21_Q2    160       150.0
6     B  FY20_Q1    230         NaN
7     B  FY20_Q2    210         NaN
8     B  FY20_Q3    240         NaN
9     B  FY20_Q4    220         NaN
10    B  FY21_Q1    250       230.0
11    B  FY21_Q2    230       210.0
12    C  FY20_Q1    125         NaN
13    C  FY20_Q2    230         NaN
14    C  FY20_Q3    162         NaN
15    C  FY20_Q4    111         NaN
16    C  FY21_Q1    134       125.0
17    C  FY21_Q2    135       230.0
登录后复制

可以看到,value_prev 列现在包含了前一年同期的数据,例如 FY21_Q1 的 value_prev 是 100.0,对应 FY20_Q1 的值。

注意事项与最佳实践

  1. 数据类型转换的重要性: 将季度/月份字符串转换为 PeriodIndex 是此方法的关键。PeriodIndex 提供了强大的时间偏移功能,使得计算前一年同期变得简单而准确。
  2. freq 参数的设定: 在创建 PeriodIndex 时,务必根据数据的实际频率(如 Q 代表季度,M 代表月份)设置 freq 参数。这将直接影响时间偏移的准确性。
  3. 合并键的选取: 除了时间周期外,通常还需要一个业务维度(如 item)作为合并键,以确保不同业务实体之间的数据不会混淆。
  4. 处理缺失值: 对于数据集中最早的年份,其同期数据将不存在,因此 value_prev 列会显示 NaN。这是预期行为,表示没有可供比较的前一年同期数据。
  5. 灵活性: 这种方法不仅适用于季度数据,也适用于月份数据(只需将 freq="Q" 改为 freq="M",并将偏移量 +4 改为 +12)。
  6. 性能考量: 对于非常大的数据集,merge 操作通常是高效的。但在极端情况下,如果内存成为瓶颈,可能需要考虑其他优化策略,例如先设置 PeriodIndex 为DataFrame索引,然后使用 reindex 或自定义函数。

总结

通过将原始的季度或月份字符串数据转换为 PeriodIndex,并结合Pandas强大的 merge 操作,我们可以精确且高效地获取前一年同期的数据。这种方法避免了 shift() 函数在跨年同期比较时的局限性,为时序数据分析提供了坚实的基础。掌握这一技巧,将使您在处理复杂的时序比较任务时更加得心应手。

以上就是Pandas中获取同期季度/年度数据的专业指南的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
热门推荐
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号