
本文介绍如何使用 Pandas 的 groupby.rolling 函数,基于连续时间段的状态列高效地生成标志。针对大数据集,避免低效的循环,提供两种方案:一种考虑未来12个月的状态,另一种仅考虑过去12个月的状态。通过代码示例,详细展示了如何实现这两种标志生成逻辑,并提供了相应的输出结果。
在数据分析中,经常需要基于时间序列数据生成标志。一个常见的场景是,根据一段时间内的状态来标记特定时间点。本文将介绍如何使用 Pandas 的滚动窗口功能,高效地根据连续时间段的状态列生成标志,避免使用低效的循环。
假设我们有一个包含 ID、Period 和 status 列的数据集。我们的目标是为每一行生成一个 Flag 列,该列的值取决于接下来(或之前)12 个月内的 status 列的值。如果接下来的 12 个月内 status 列中至少有一个值为 1,则将该行的 Flag 列标记为 1,否则标记为 0。
首先,我们需要准备数据。假设我们的数据存储在一个 Pandas DataFrame 中,如下所示:
import pandas as pd
data = {'ID': ['A'] * 13,
'Period': ['2020-10-28', '2020-11-28', '2020-12-28', '2021-01-28', '2021-02-28',
'2021-03-28', '2021-04-28', '2021-05-28', '2021-06-28', '2021-07-28',
'2021-08-28', '2021-09-28', '2021-10-28'],
'status': [0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0]}
df = pd.DataFrame(data)此方案考虑未来12个月的状态,如果未来12个月中存在状态为1,则Flag标记为1。
df['Flag'] = (df
.assign(Period=pd.to_datetime(df['Period']).dt.to_period('M'))
[::-1]
.groupby('ID').rolling(12, on='Period', min_periods=1)
['status'].max()[::-1].to_numpy()
)
print(df)代码解释:
输出结果:
ID Period status Flag 0 A 2020-10-28 0 1.0 1 A 2020-11-28 0 1.0 2 A 2020-12-28 0 1.0 3 A 2021-01-28 0 1.0 4 A 2021-02-28 0 1.0 5 A 2021-03-28 0 1.0 6 A 2021-04-28 0 1.0 7 A 2021-05-28 0 1.0 8 A 2021-06-28 1 1.0 9 A 2021-07-28 0 0.0 10 A 2021-08-28 0 0.0 11 A 2021-09-28 0 0.0 12 A 2021-10-28 0 0.0
此方案仅考虑过去12个月的状态,如果过去12个月中存在状态为1,则Flag标记为1。
df['Flag'] = (df
.assign(Period=pd.to_datetime(df['Period']).dt.to_period('M'))
.set_index('Period')
[::-1]
.groupby('ID')['status']
.transform(lambda g: g.rolling(12, min_periods=1)
.max().shift(fill_value=0)
)
.to_numpy()[::-1]
)
print(df)代码解释:
输出结果:
ID Period status Flag 0 A 2020-10-28 0 1.0 1 A 2020-11-28 0 1.0 2 A 2020-12-28 0 1.0 3 A 2021-01-28 0 1.0 4 A 2021-02-28 0 1.0 5 A 2021-03-28 0 1.0 6 A 2021-04-28 0 1.0 7 A 2021-05-28 0 1.0 8 A 2021-06-28 1 0.0 9 A 2021-07-28 0 0.0 10 A 2021-08-28 0 0.0 11 A 2021-09-28 0 0.0 12 A 2021-10-28 0 0.0
本文介绍了如何使用 Pandas 的 groupby.rolling 函数,高效地根据连续时间段的状态列生成标志。通过避免使用循环,可以显著提高处理大数据集的效率。根据实际需求,可以选择考虑未来或过去的状态。在实际应用中,需要注意数据类型、排序和内存占用等问题。
以上就是使用 Pandas 滚动窗口高效生成状态标志的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号