0

0

Pandas时间序列:按日分组重置expanding()计算的实用指南

DDD

DDD

发布时间:2025-10-07 14:24:04

|

599人浏览过

|

来源于php中文网

原创

Pandas时间序列:按日分组重置expanding()计算的实用指南

在Pandas时间序列分析中,当需要对数据进行累积计算(如expanding().mean())时,若要求每个新的一天开始时重新启动计算,则常规方法不再适用。本教程将详细介绍如何利用groupby()结合日期信息,高效地实现按日分组的累积计算,确保每日统计的独立性和准确性,从而解决时间序列数据中按天重置expanding()操作的挑战。

理解 expanding() 函数及其在时间序列中的挑战

pandas的expanding()函数提供了一种灵活的方式来执行扩展窗口计算。它从序列的第一个元素开始,逐步包含后续元素,并在每个点上应用指定的聚合函数(如mean()、sum()、min()等)。例如,data["somecolumn"].expanding().mean() 会计算到当前点为止的所有数据的累积平均值。

然而,在处理时间序列数据时,我们经常会遇到一个特定的需求:希望expanding()计算在每天开始时“重置”。这意味着,对于新的一天,计算应该从该天的第一条记录开始,将其视为独立的序列,而不是继续前一天的累积。直接应用expanding()函数无法满足这一要求,因为它会跨越日界限持续累积。

实现按日分组的累积计算

要解决上述问题,核心思路是先将数据按日期进行分组,然后在每个日期组内部独立地应用expanding()函数。这样可以确保每个新的一天都有一个全新的累积计算起点。

1. 数据准备

首先,确保你的时间序列数据帧的索引是DatetimeIndex类型,因为这将方便我们提取日期信息。如果索引不是DatetimeIndex,你需要使用pd.to_datetime()将其转换。

import pandas as pd

# 示例数据
df = pd.DataFrame(
    {"B": [1, 2, 4, 0, 4]},
    index=pd.to_datetime(
        ["2023-12-11 21:00:00", "2023-12-11 22:00:00", "2023-12-11 23:00:00",
         "2023-12-12 00:00:00", "2023-12-12 01:00:00"]
    )
)

print("原始数据帧:")
print(df)

2. 提取日期信息并创建分组键

为了按天进行分组,我们需要从DatetimeIndex中提取出不包含时间部分的日期字符串。这可以通过dt.strftime("%Y-%m-%d")方法实现,并将其作为一个新的列添加到数据帧中。

# 从索引中提取日期并创建新的'day'列作为分组键
df["day"] = df.index.to_series().dt.strftime("%Y-%m-%d")

print("\n添加'day'列后的数据帧:")
print(df)

3. 分组并应用 expanding()

有了“day”列作为分组键,我们现在可以使用groupby()方法。在分组之后,我们可以对每个组应用expanding()函数,然后调用所需的聚合方法(例如mean())。

Remove.bg
Remove.bg

AI在线抠图软件,图片去除背景

下载
# 按'day'列分组,然后在每个组内应用expanding().mean()
daily_expanding_mean = df.groupby("day")["B"].expanding().mean()

print("\n按日重置的expanding().mean()结果:")
print(daily_expanding_mean)

输出结果解析:

                                        B
day                                     
2023-12-11 2023-12-11 21:00:00  1.000000
           2023-12-11 22:00:00  1.500000
           2023-12-11 23:00:00  2.333333
2023-12-12 2023-12-12 00:00:00  0.000000
           2023-12-12 01:00:00  2.000000

从结果中可以看出,对于2023-12-11这一天,expanding().mean()计算了(1)、(1+2)/2、(1+2+4)/3。而当日期切换到2023-12-12时,计算重新开始,首先是(0),然后是(0+4)/2,完美地实现了按日重置的需求。

注意事项

  • 索引排序: 虽然Pandas的groupby()通常能够正确处理未排序的索引,但为了确保expanding()在每个组内按时间顺序正确计算,建议在操作前确保DatetimeIndex是按升序排列的。如果数据可能无序,可以先使用df = df.sort_index()。
  • 数据类型: 确保时间序列索引确实是DatetimeIndex类型。如果不是,dt访问器将无法使用。
  • 其他聚合函数: expanding()不仅限于mean()。你可以根据需求使用sum()、min()、max()、std()、count()等其他聚合函数。例如,df.groupby("day")["B"].expanding().sum()将计算每日的累积和。
  • 多列操作: 如果需要对多列进行相同的按日重置expanding()计算,可以直接在groupby().expanding()之后选择多列,或省略列选择器来对所有数值列进行操作。
    # 对所有数值列进行按日重置的expanding().mean()
    # daily_expanding_all_cols = df.groupby("day").expanding().mean()
  • 性能考量: 对于非常大的数据集,创建额外的“day”列会增加内存开销。在某些情况下,也可以考虑使用df.index.day、df.index.month等直接从索引中提取数字日期部分进行分组,但这会稍微改变分组键的表示形式。对于日常使用,字符串格式的日期通常更直观。

总结

通过结合Pandas的groupby()和expanding()函数,我们可以优雅地解决时间序列数据中按日重置累积计算的复杂问题。关键在于创建合适的日期分组键,并在此基础上应用扩展窗口操作。这种方法不仅功能强大,而且代码简洁易懂,是处理时间序列数据时不可或缺的技巧。掌握这一技术,将使你在进行时间序列分析时更加灵活和高效。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

53

2025.12.04

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

307

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

198

2023.11.20

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

278

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1490

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

621

2023.11.24

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

9

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号