Pandas中获取同期季度/年度数据的专业指南-Python教程-PHP中文网

Pandas中获取同期季度/年度数据的专业指南

本文详细介绍了如何在pandas dataframe中高效地计算同期季度（yoq）或同期月份（mom）数据。通过将季度字符串转换为pandas `periodindex`，并巧妙利用其时间偏移特性，结合dataframe的 `merge` 操作，可以精确地将当前季度的数值与前一年同期的数值进行匹配，从而实现复杂的时序数据对比分析。

在进行时序数据分析时，我们经常需要将当前报告期的数值与前一年同期（Year-over-Quarter, YoQ）或前一月同期（Month-over-Month, MoM）的数值进行比较。例如，将2021年第一季度的数据与2020年第一季度的数据进行对比。直接使用 shift() 函数通常只能实现相邻时间段的比较，而无法满足跨年同期的需求。本教程将介绍一种基于Pandas PeriodIndex 和 merge 操作的专业方法来解决这一问题。

数据准备与问题阐述

首先，我们构建一个包含季度数值的示例DataFrame：

import pandas as pd

df = pd.DataFrame({'item':['A','A','A','A','A','A','B','B','B','B','B','B','C','C','C','C','C','C'],
                  'quarter':['FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',
                         'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',
                         'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2'],
                  'value':[100,150,120,135,128,160,230,210,240,220,250,230,125,230,162,111,134,135]})

登录后复制

如果尝试使用 groupby 和 shift 来获取前一年的同期值，会遇到问题。例如，以下代码会获取前一个季度的值，而非前一年的同期季度值：

df['value_prev_incorrect'] = df.sort_values(by=['item','quarter']).groupby(['item'])['value'].shift()
print(df)

登录后复制

输出结果如下所示，value_prev_incorrect 列显示的是前一个季度的值，而不是前一年同期的值：

   item  quarter  value  value_prev_incorrect
0     A  FY20_Q1    100                   NaN
1     A  FY20_Q2    150                 100.0
2     A  FY20_Q3    120                 150.0
3     A  FY20_Q4    135                 120.0
4     A  FY21_Q1    128                 135.0
5     A  FY21_Q2    160                 128.0
...

登录后复制

我们期望的结果是，例如 FY21_Q1 的 value_prev 应该对应 FY20_Q1 的值。

   item  quarter  value  value_prev (期望结果)
0     A  FY20_Q1    100                  NaN
1     A  FY20_Q2    150                  NaN
2     A  FY20_Q3    120                  NaN
3     A  FY20_Q4    135                  NaN
4     A  FY21_Q1    128                100.0
5     A  FY21_Q2    160                150.0
...

登录后复制

解决方案：使用 PeriodIndex 和合并操作

要实现精确的同期比较，核心思路是：

将表示季度或月份的字符串转换为Pandas PeriodIndex 对象，以便进行标准的时间偏移操作。
为每个当前时间点计算出其前一年同期的时间点。
通过 merge 操作将原始数据与自身进行合并，利用计算出的时间点进行匹配。

步骤1：标准化季度数据并创建 PeriodIndex

首先，我们需要将 quarter 列的字符串格式（如 FY20_Q1）转换为Pandas能够识别的周期对象。这里我们将其转换为 YYYY-QX 格式，然后创建 PeriodIndex。

# 将 "FYXX_QX" 格式转换为 "20XX-QX"
df["current_period"] = df["quarter"].str.replace(r"FY(\d+)_Q(\d+)", r"20\1-Q\2", regex=True)
# 将字符串转换为 PeriodIndex，频率为季度 (Q)
df["current_period"] = pd.PeriodIndex(df["current_period"], freq="Q")

登录后复制

现在 df 中新增了一列 current_period，其数据类型为 Period。

码上飞

码上飞（CodeFlying）是一款AI自动化开发平台，通过自然语言描述即可自动生成完整应用程序。

449

查看详情

步骤2：创建前一年同期标识

为了进行合并，我们需要为每个当前季度找到其前一年同期的标识。由于 PeriodIndex 支持时间偏移，我们可以直接利用它。对于季度数据，一年有4个季度，所以前一年同期可以通过减去4个季度来实现。

# 创建一个表示“前一年同期”的PeriodIndex列。
# 注意：这里我们创建的是“当前季度 + 4个季度”的标识，
# 这样在后续合并时，左侧的“当前季度”就能匹配右侧的“前一年同期”数据。
# 具体来说，如果当前行是2021-Q1，那么`next_period`就是2022-Q1。
# 在合并时，我们用左侧的`current_period`（例如2021-Q1）去匹配右侧的`next_period`。
# 这样，当左侧的`current_period`是2021-Q1时，它会去寻找右侧`next_period`为2021-Q1的行。
# 而右侧`next_period`为2021-Q1的行，其`current_period`实际上是2020-Q1。
# 从而实现了2021-Q1匹配到2020-Q1的数据。
df["next_period"] = df["current_period"] + 4

登录后复制

步骤3：执行合并操作

现在，我们可以将DataFrame与自身进行左连接（left merge）。左侧DataFrame使用 item 和 current_period 作为连接键，右侧DataFrame使用 item 和 next_period 作为连接键。这样，左侧的 current_period (例如 2021-Q1) 就会与右侧的 next_period (例如 2021-Q1) 进行匹配，而右侧 next_period 为 2021-Q1 的行，其 current_period 实际上是 2020-Q1，从而成功获取了前一年同期的数据。

out = df.merge(
    df,
    how="left",
    left_on=["item", "current_period"], # 左侧DataFrame的当前季度
    right_on=["item", "next_period"],   # 右侧DataFrame的“前一年同期”季度
    suffixes=('_current', '_prev')       # 为区分同名列添加后缀
)

登录后复制

步骤4：结果整理与展示

最后，选择并重命名所需的列，以获得清晰的输出结果。

final_df = out[["item", "quarter_current", "value_current", "value_prev"]].rename(
    columns={"quarter_current": "quarter", "value_current": "value", "value_prev": "value_prev"}
)
print(final_df)

登录后复制

完整的代码和输出如下：

import pandas as pd

df = pd.DataFrame({'item':['A','A','A','A','A','A','B','B','B','B','B','B','C','C','C','C','C','C'],
                  'quarter':['FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',
                         'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',
                         'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2'],
                  'value':[100,150,120,135,128,160,230,210,240,220,250,230,125,230,162,111,134,135]})

# 步骤1：标准化季度数据并创建 PeriodIndex
df["current_period"] = df["quarter"].str.replace(r"FY(\d+)_Q(\d+)", r"20\1-Q\2", regex=True)
df["current_period"] = pd.PeriodIndex(df["current_period"], freq="Q")

# 步骤2：创建前一年同期标识
# 这里创建的是“当前季度 + 4个季度”的标识，用于后续合并
df["next_period"] = df["current_period"] + 4

# 步骤3：执行合并操作
# 左侧的 current_period (例如 2021-Q1) 会匹配右侧的 next_period (例如 2021-Q1)
# 这样右侧的实际 current_period (2020-Q1) 的 value 就会被拉过来
out = df.merge(
    df,
    how="left",
    left_on=["item", "current_period"],
    right_on=["item", "next_period"],
    suffixes=('_current', '_prev')
)

# 步骤4：结果整理与展示
final_df = out[["item", "quarter_current", "value_current", "value_prev"]].rename(
    columns={"quarter_current": "quarter", "value_current": "value", "value_prev": "value_prev"}
)
print(final_df)

登录后复制

输出结果：

   item  quarter  value  value_prev
0     A  FY20_Q1    100         NaN
1     A  FY20_Q2    150         NaN
2     A  FY20_Q3    120         NaN
3     A  FY20_Q4    135         NaN
4     A  FY21_Q1    128       100.0
5     A  FY21_Q2    160       150.0
6     B  FY20_Q1    230         NaN
7     B  FY20_Q2    210         NaN
8     B  FY20_Q3    240         NaN
9     B  FY20_Q4    220         NaN
10    B  FY21_Q1    250       230.0
11    B  FY21_Q2    230       210.0
12    C  FY20_Q1    125         NaN
13    C  FY20_Q2    230         NaN
14    C  FY20_Q3    162         NaN
15    C  FY20_Q4    111         NaN
16    C  FY21_Q1    134       125.0
17    C  FY21_Q2    135       230.0

登录后复制

可以看到，value_prev 列现在包含了前一年同期的数据，例如 FY21_Q1 的 value_prev 是 100.0，对应 FY20_Q1 的值。

注意事项与最佳实践

数据类型转换的重要性： 将季度/月份字符串转换为 PeriodIndex 是此方法的关键。PeriodIndex 提供了强大的时间偏移功能，使得计算前一年同期变得简单而准确。
freq 参数的设定： 在创建 PeriodIndex 时，务必根据数据的实际频率（如 Q 代表季度，M 代表月份）设置 freq 参数。这将直接影响时间偏移的准确性。
合并键的选取： 除了时间周期外，通常还需要一个业务维度（如 item）作为合并键，以确保不同业务实体之间的数据不会混淆。
处理缺失值： 对于数据集中最早的年份，其同期数据将不存在，因此 value_prev 列会显示 NaN。这是预期行为，表示没有可供比较的前一年同期数据。
灵活性： 这种方法不仅适用于季度数据，也适用于月份数据（只需将 freq="Q" 改为 freq="M"，并将偏移量 +4 改为 +12）。
性能考量： 对于非常大的数据集，merge 操作通常是高效的。但在极端情况下，如果内存成为瓶颈，可能需要考虑其他优化策略，例如先设置 PeriodIndex 为DataFrame索引，然后使用 reindex 或自定义函数。

总结

通过将原始的季度或月份字符串数据转换为 PeriodIndex，并结合Pandas强大的 merge 操作，我们可以精确且高效地获取前一年同期的数据。这种方法避免了 shift() 函数在跨年同期比较时的局限性，为时序数据分析提供了坚实的基础。掌握这一技巧，将使您在处理复杂的时序比较任务时更加得心应手。

以上就是Pandas中获取同期季度/年度数据的专业指南的详细内容，更多请关注php中文网其它相关文章！