Pandas中怎样实现数据的重采样?

雪夜
发布: 2025-08-01 13:34:01
原创
324人浏览过

pandas中重采样的核心是resample()函数,用于改变时间序列数据的频率。1. 确保数据是时间序列数据,索引为datetimeindex类型;2. 使用resample()方法并传入新的频率规则,如'd'、'w'、'm'等;3. 指定聚合函数如mean()、sum()等计算每个周期内的值;4. 升采样时使用ffill()、bfill()或interpolate()处理缺失值;5. 可通过closed和label参数控制降采样区间闭合方式和标签;6. 处理不规则数据时,可使用asfreq()、reindex()或fillna()方法。

Pandas中怎样实现数据的重采样?

重采样在Pandas中,就是改变时间序列数据的频率。可以升采样(增加频率,比如从月到天)或者降采样(降低频率,比如从天到月)。核心是

resample()
登录后复制
函数。

Pandas中怎样实现数据的重采样?

解决方案

Pandas的

resample()
登录后复制
函数提供了一种灵活的方式来改变时间序列数据的频率。它结合了分组和聚合的功能,使得时间序列数据的处理变得非常方便。以下是使用
resample()
登录后复制
的基本步骤和一些常见用例:

  1. 确保数据是时间序列数据:首先,确保你的Pandas DataFrame的索引是DatetimeIndex类型。如果不是,可以使用

    pd.to_datetime()
    登录后复制
    函数转换。

    Pandas中怎样实现数据的重采样?
    import pandas as pd
    import numpy as np
    
    # 创建一个示例DataFrame
    dates = pd.date_range('2023-01-01', periods=100, freq='D')
    data = np.random.randn(100)
    df = pd.DataFrame({'value': data}, index=dates)
    
    # 确保索引是DatetimeIndex
    # df.index = pd.to_datetime(df.index) # 如果需要转换
    登录后复制
  2. 使用

    resample()
    登录后复制
    方法:在DataFrame上调用
    resample()
    登录后复制
    方法,并传入新的频率规则。频率规则可以是字符串,如'D'(天)、'W'(周)、'M'(月)、'Q'(季度)、'Y'(年)等。

    # 降采样到每周,计算均值
    weekly_mean = df.resample('W').mean()
    print(weekly_mean.head())
    
    # 升采样到每小时,用前一个值填充缺失值
    hourly_filled = df.resample('H').ffill()
    print(hourly_filled.head())
    登录后复制
  3. 指定聚合函数

    resample()
    登录后复制
    方法返回一个Resampler对象,你需要指定一个聚合函数来计算每个重采样周期内的值。常见的聚合函数包括
    mean()
    登录后复制
    sum()
    登录后复制
    count()
    登录后复制
    min()
    登录后复制
    max()
    登录后复制
    等。

    Pandas中怎样实现数据的重采样?
    # 降采样到每月,计算总和
    monthly_sum = df.resample('M').sum()
    print(monthly_sum.head())
    登录后复制
  4. 处理缺失值:升采样会引入缺失值。可以使用

    ffill()
    登录后复制
    (前向填充)、
    bfill()
    登录后复制
    (后向填充)或
    interpolate()
    登录后复制
    (插值)等方法填充缺失值。

    # 升采样到每小时,并使用线性插值填充缺失值
    hourly_interpolated = df.resample('H').interpolate()
    print(hourly_interpolated.head())
    登录后复制
  5. 自定义聚合函数:你还可以使用

    agg()
    登录后复制
    方法应用自定义的聚合函数。

    # 自定义聚合函数,计算每个月的范围(最大值 - 最小值)
    def range_func(x):
        return x.max() - x.min()
    
    monthly_range = df.resample('M').agg(range_func)
    print(monthly_range.head())
    登录后复制

降采样时,
closed
登录后复制
label
登录后复制
参数有什么作用?

closed
登录后复制
label
登录后复制
参数在降采样中控制着区间的闭合方式和标签。
closed
登录后复制
参数决定区间的哪一端是闭合的(包含),可以是
'right'
登录后复制
(默认)或
'left'
登录后复制
label
登录后复制
参数决定使用区间的哪一端作为标签,也可以是
'right'
登录后复制
(默认)或
'left'
登录后复制
。这俩参数直接影响你如何解读重采样后的时间点。

壁纸样机神器
壁纸样机神器

免费壁纸样机生成

壁纸样机神器 0
查看详情 壁纸样机神器

举个例子,假设你按天降采样到周,

closed='right'
登录后复制
label='right'
登录后复制
意味着每周日作为该周的标签,并且周日属于该周。如果
closed='left'
登录后复制
label='left'
登录后复制
,则每周一作为该周的标签,且周一属于该周。

# 降采样到每周,指定闭合区间和标签
weekly_sum_right = df.resample('W', closed='right', label='right').sum()
weekly_sum_left = df.resample('W', closed='left', label='left').sum()

print("Right closed and labeled:\n", weekly_sum_right.head())
print("\nLeft closed and labeled:\n", weekly_sum_left.head())
登录后复制

升采样时,如何避免引入过多的缺失值?

升采样必然会引入缺失值,但可以通过选择合适的填充方法来减少其影响。

ffill()
登录后复制
bfill()
登录后复制
适用于数据变化不大的情况,而
interpolate()
登录后复制
则更适用于数据具有一定趋势性的情况。

除了选择合适的填充方法,还可以考虑使用更短的重采样频率,例如,如果你的数据是按天记录的,可以先升采样到小时,然后再进行插值,这样可以减少插值的误差。

另外,了解你的数据特性非常重要。例如,如果你的数据是季节性的,可以考虑使用季节性分解方法,然后对分解后的数据进行重采样和插值。

# 升采样到每小时,并使用时间加权插值填充缺失值
hourly_time_based = df.resample('H').interpolate(method='time')
print(hourly_time_based.head())
登录后复制

如何处理不规则的时间序列数据?

真实世界的数据往往是不规则的,例如,某些日期可能缺少数据,或者数据的时间间隔不一致。Pandas提供了一些方法来处理这些情况。

首先,可以使用

asfreq()
登录后复制
方法将不规则的时间序列转换为规则的时间序列。这个方法允许你指定一个频率,并自动填充缺失的日期。

其次,可以使用

reindex()
登录后复制
方法手动指定新的索引。这对于需要将数据与其他数据集对齐的情况非常有用。

此外,还可以使用

fillna()
登录后复制
方法填充缺失值。这个方法提供了多种填充策略,例如,使用常数填充、使用均值填充等。

# 创建一个不规则的时间序列
irregular_dates = pd.to_datetime(['2023-01-01', '2023-01-03', '2023-01-05', '2023-01-08'])
irregular_data = np.random.randn(4)
irregular_df = pd.DataFrame({'value': irregular_data}, index=irregular_dates)

# 转换为规则的时间序列,并填充缺失值
regular_df = irregular_df.asfreq('D', fill_value=0)
print(regular_df)
登录后复制

以上就是Pandas中怎样实现数据的重采样?的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号