
本文详细介绍了如何在pandas dataframe中高效地计算同期季度(yoq)或同期月份(mom)数据。通过将季度字符串转换为pandas `periodindex`,并巧妙利用其时间偏移特性,结合dataframe的 `merge` 操作,可以精确地将当前季度的数值与前一年同期的数值进行匹配,从而实现复杂的时序数据对比分析。
在进行时序数据分析时,我们经常需要将当前报告期的数值与前一年同期(Year-over-Quarter, YoQ)或前一月同期(Month-over-Month, MoM)的数值进行比较。例如,将2021年第一季度的数据与2020年第一季度的数据进行对比。直接使用 shift() 函数通常只能实现相邻时间段的比较,而无法满足跨年同期的需求。本教程将介绍一种基于Pandas PeriodIndex 和 merge 操作的专业方法来解决这一问题。
首先,我们构建一个包含季度数值的示例DataFrame:
import pandas as pd
df = pd.DataFrame({'item':['A','A','A','A','A','A','B','B','B','B','B','B','C','C','C','C','C','C'],
'quarter':['FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',
'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',
'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2'],
'value':[100,150,120,135,128,160,230,210,240,220,250,230,125,230,162,111,134,135]})如果尝试使用 groupby 和 shift 来获取前一年的同期值,会遇到问题。例如,以下代码会获取前一个季度的值,而非前一年的同期季度值:
df['value_prev_incorrect'] = df.sort_values(by=['item','quarter']).groupby(['item'])['value'].shift() print(df)
输出结果如下所示,value_prev_incorrect 列显示的是前一个季度的值,而不是前一年同期的值:
item quarter value value_prev_incorrect 0 A FY20_Q1 100 NaN 1 A FY20_Q2 150 100.0 2 A FY20_Q3 120 150.0 3 A FY20_Q4 135 120.0 4 A FY21_Q1 128 135.0 5 A FY21_Q2 160 128.0 ...
我们期望的结果是,例如 FY21_Q1 的 value_prev 应该对应 FY20_Q1 的值。
item quarter value value_prev (期望结果) 0 A FY20_Q1 100 NaN 1 A FY20_Q2 150 NaN 2 A FY20_Q3 120 NaN 3 A FY20_Q4 135 NaN 4 A FY21_Q1 128 100.0 5 A FY21_Q2 160 150.0 ...
要实现精确的同期比较,核心思路是:
首先,我们需要将 quarter 列的字符串格式(如 FY20_Q1)转换为Pandas能够识别的周期对象。这里我们将其转换为 YYYY-QX 格式,然后创建 PeriodIndex。
# 将 "FYXX_QX" 格式转换为 "20XX-QX" df["current_period"] = df["quarter"].str.replace(r"FY(\d+)_Q(\d+)", r"20\1-Q\2", regex=True) # 将字符串转换为 PeriodIndex,频率为季度 (Q) df["current_period"] = pd.PeriodIndex(df["current_period"], freq="Q")
现在 df 中新增了一列 current_period,其数据类型为 Period。
为了进行合并,我们需要为每个当前季度找到其前一年同期的标识。由于 PeriodIndex 支持时间偏移,我们可以直接利用它。对于季度数据,一年有4个季度,所以前一年同期可以通过减去4个季度来实现。
# 创建一个表示“前一年同期”的PeriodIndex列。 # 注意:这里我们创建的是“当前季度 + 4个季度”的标识, # 这样在后续合并时,左侧的“当前季度”就能匹配右侧的“前一年同期”数据。 # 具体来说,如果当前行是2021-Q1,那么`next_period`就是2022-Q1。 # 在合并时,我们用左侧的`current_period`(例如2021-Q1)去匹配右侧的`next_period`。 # 这样,当左侧的`current_period`是2021-Q1时,它会去寻找右侧`next_period`为2021-Q1的行。 # 而右侧`next_period`为2021-Q1的行,其`current_period`实际上是2020-Q1。 # 从而实现了2021-Q1匹配到2020-Q1的数据。 df["next_period"] = df["current_period"] + 4
现在,我们可以将DataFrame与自身进行左连接(left merge)。左侧DataFrame使用 item 和 current_period 作为连接键,右侧DataFrame使用 item 和 next_period 作为连接键。这样,左侧的 current_period (例如 2021-Q1) 就会与右侧的 next_period (例如 2021-Q1) 进行匹配,而右侧 next_period 为 2021-Q1 的行,其 current_period 实际上是 2020-Q1,从而成功获取了前一年同期的数据。
out = df.merge(
df,
how="left",
left_on=["item", "current_period"], # 左侧DataFrame的当前季度
right_on=["item", "next_period"], # 右侧DataFrame的“前一年同期”季度
suffixes=('_current', '_prev') # 为区分同名列添加后缀
)最后,选择并重命名所需的列,以获得清晰的输出结果。
final_df = out[["item", "quarter_current", "value_current", "value_prev"]].rename(
columns={"quarter_current": "quarter", "value_current": "value", "value_prev": "value_prev"}
)
print(final_df)完整的代码和输出如下:
import pandas as pd
df = pd.DataFrame({'item':['A','A','A','A','A','A','B','B','B','B','B','B','C','C','C','C','C','C'],
'quarter':['FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',
'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2',
'FY20_Q1','FY20_Q2','FY20_Q3','FY20_Q4','FY21_Q1','FY21_Q2'],
'value':[100,150,120,135,128,160,230,210,240,220,250,230,125,230,162,111,134,135]})
# 步骤1:标准化季度数据并创建 PeriodIndex
df["current_period"] = df["quarter"].str.replace(r"FY(\d+)_Q(\d+)", r"20\1-Q\2", regex=True)
df["current_period"] = pd.PeriodIndex(df["current_period"], freq="Q")
# 步骤2:创建前一年同期标识
# 这里创建的是“当前季度 + 4个季度”的标识,用于后续合并
df["next_period"] = df["current_period"] + 4
# 步骤3:执行合并操作
# 左侧的 current_period (例如 2021-Q1) 会匹配右侧的 next_period (例如 2021-Q1)
# 这样右侧的实际 current_period (2020-Q1) 的 value 就会被拉过来
out = df.merge(
df,
how="left",
left_on=["item", "current_period"],
right_on=["item", "next_period"],
suffixes=('_current', '_prev')
)
# 步骤4:结果整理与展示
final_df = out[["item", "quarter_current", "value_current", "value_prev"]].rename(
columns={"quarter_current": "quarter", "value_current": "value", "value_prev": "value_prev"}
)
print(final_df)输出结果:
item quarter value value_prev 0 A FY20_Q1 100 NaN 1 A FY20_Q2 150 NaN 2 A FY20_Q3 120 NaN 3 A FY20_Q4 135 NaN 4 A FY21_Q1 128 100.0 5 A FY21_Q2 160 150.0 6 B FY20_Q1 230 NaN 7 B FY20_Q2 210 NaN 8 B FY20_Q3 240 NaN 9 B FY20_Q4 220 NaN 10 B FY21_Q1 250 230.0 11 B FY21_Q2 230 210.0 12 C FY20_Q1 125 NaN 13 C FY20_Q2 230 NaN 14 C FY20_Q3 162 NaN 15 C FY20_Q4 111 NaN 16 C FY21_Q1 134 125.0 17 C FY21_Q2 135 230.0
可以看到,value_prev 列现在包含了前一年同期的数据,例如 FY21_Q1 的 value_prev 是 100.0,对应 FY20_Q1 的值。
通过将原始的季度或月份字符串数据转换为 PeriodIndex,并结合Pandas强大的 merge 操作,我们可以精确且高效地获取前一年同期的数据。这种方法避免了 shift() 函数在跨年同期比较时的局限性,为时序数据分析提供了坚实的基础。掌握这一技巧,将使您在处理复杂的时序比较任务时更加得心应手。
以上就是Pandas中获取同期季度/年度数据的专业指南的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号