0

0

Pandas中基于分组和扩展窗口计算百分位排名

霞舞

霞舞

发布时间:2025-11-10 10:52:01

|

738人浏览过

|

来源于php中文网

原创

pandas中基于分组和扩展窗口计算百分位排名

本文旨在详细阐述如何在Pandas中使用`groupby()`、`expanding()`和`apply()`结合`scipy.stats.percentileofscore`函数,正确计算数据集中按组和扩展窗口的百分位排名。我们将重点解析`apply`函数中`lambda x`参数的正确用法,避免常见的引用错误,并提供两种计算场景的示例代码与深入解释,以帮助读者准确实现动态的百分位排名分析。

引言:动态百分位排名计算的需求

在数据分析中,我们经常需要计算某个值在其所属群体中的相对位置,这通常通过百分位排名(Percentile Rank)来实现。当这个计算还需要考虑数据的分组(groupby)以及随时间或序列不断增长的窗口(expanding)时,问题会变得更复杂。例如,我们可能需要计算每个用户当前得分相对于其历史所有得分的百分位排名。Pandas提供了强大的工具来处理这类复杂聚合,但正确结合使用这些工具,尤其是apply函数中的lambda表达式,是实现目标的关键。

一个常见的错误是在apply的lambda函数内部错误地引用了整个DataFrame的列,而非当前操作的窗口数据。这将导致计算结果不符合预期,因为它没有针对每个动态窗口进行计算。

理解 groupby().expanding().apply() 的工作机制

在深入代码之前,我们首先需要理解groupby().expanding().apply()链式操作的含义:

  1. groupby(['Category']): 这一步将DataFrame按照指定的Category列进行分组。后续的所有操作都将在这些独立的组内进行。
  2. expanding(1): 对于每个组,expanding(1)创建一个扩展窗口对象。这意味着对于组内的每一行,它会考虑从该组的第一个元素到当前行的所有数据。参数1表示最小包含的元素数量,即窗口至少包含1个元素。
  3. apply(lambda x: ...): apply方法对每个扩展窗口执行一个自定义函数。这里的关键在于lambda x中的x。在每次调用lambda函数时,x不再是整个DataFrame或Series,而是当前扩展窗口内的数据(一个Series或DataFrame片段)。因此,在lambda函数内部,我们必须使用x来引用当前窗口的数据。

scipy.stats.percentileofscore 函数简介

scipy.stats.percentileofscore(a, score, kind='rank') 是一个非常有用的函数,用于计算给定score在数组a中的百分位排名。

  • a: 这是一个数值数组(或列表),代表了要计算百分位排名的参照数据集。
  • score: 这是我们要查找其百分位排名的具体数值。
  • kind: 定义了计算方式,默认为'rank',表示分数小于或等于score的百分比。

错误的尝试与核心问题解析

假设我们有一个DataFrame df,包含Category和values两列,我们想计算每个values在对应Category的扩展窗口内的百分位排名。

一个常见的错误尝试可能类似于:

# 错误示范 (请勿直接运行)
# df['pct'] = df.groupby(['Category']).expanding(1).apply(lambda x: stats.percentileofscore(df['values'], 1)).reset_index(0, drop=True)

这里的核心问题在于percentileofscore(df['values'], 1)。在lambda x:的作用域内,x代表当前窗口的数据。但是,df['values']却引用了整个DataFrame的values列,而不是当前窗口的values。这意味着无论窗口如何变化,percentileofscore总是参照整个df['values']列来计算,这显然违背了“按组和扩展窗口”的要求。

知鹿匠
知鹿匠

知鹿匠教师AI工具,新课标教案_AI课件PPT_作业批改

下载

正确的实现策略

为了正确实现,我们需要确保percentileofscore的第一个参数(参照数据集)是当前的扩展窗口x,而第二个参数(要计算百分位排名的分数)则根据具体需求来定。

我们将通过一个示例DataFrame来演示两种常见的计算场景。

import pandas as pd
import numpy as np
from scipy.stats import percentileofscore

# 示例数据
df = pd.DataFrame([
        ['alex', 'alex', 'bob', 'alex', 'bob', 'alex', 'bob', 'bob'],
        [0, 3, 10, 1, 15, 6, 12, 18]              
    ]).T
df.columns = ['Category', 'values']
df['values'] = df['values'].astype(int) # 确保values列是数值类型

print("原始DataFrame:")
print(df)
print("-" * 30)

# 确保数据按Category和索引排序,以保证expanding窗口的顺序一致性
df = df.sort_values(by=['Category', df.index])

场景一:计算固定分数在每个扩展窗口中的百分位排名

有时,我们可能需要评估一个固定的阈值(例如,分数1)在每个不断增长的历史数据中的表现。

# 场景一:计算固定分数(例如,1)在每个扩展窗口中的百分位排名
# 这里的x是当前窗口的Series,1是我们要计算百分位排名的固定分数
df['pct_fixed_score_1'] = df.groupby(['Category'])['values'].\
                            expanding(1).\
                            apply(lambda x: percentileofscore(x, 1)).\
                            reset_index(level=0, drop=True)

print("场景一:计算固定分数1的百分位排名")
print(df)
print("-" * 30)

代码解释:

  • df.groupby(['Category'])['values']: 首先按Category分组,并选择values列进行操作。这样x在lambda函数中将是一个Series。
  • expanding(1): 为每个组创建扩展窗口。
  • apply(lambda x: percentileofscore(x, 1)): 这是核心部分。x代表当前窗口的values Series。我们计算固定分数1在x这个Series中的百分位排名。
  • reset_index(level=0, drop=True): groupby().expanding()操作会引入多级索引(Category和原始索引)。reset_index(level=0, drop=True)用于删除Category这一级索引,使结果Series的索引与原始DataFrame的索引对齐,方便合并。

场景二:计算当前行值在每个扩展窗口中的百分位排名(更常见)

更常见的需求是,计算当前行的values值在它所属的Category的扩展窗口(即,从该组开头到当前行的所有values)中的百分位排名。

# 场景二:计算当前行值在每个扩展窗口中的百分位排名
# 这里的x是当前窗口的Series,x.iloc[-1]是当前窗口的最后一个值(即当前行的值)
df['pct_current_value'] = df.groupby(['Category'])['values'].\
                            expanding(1).\
                            apply(lambda x: percentileofscore(x, x.iloc[-1])).\
                            reset_index(level=0, drop=True)

print("场景二:计算当前行值的百分位排名")
print(df)
print("-" * 30)

代码解释:

  • 与场景一类似,主要区别在于percentileofscore的第二个参数。
  • x.iloc[-1]: 在lambda函数中,x是当前扩展窗口的Series。x.iloc[-1]安全地获取了该窗口中的最后一个值,即当前行对应的values。这样,我们就能计算当前值在其自身历史数据中的百分位排名。

注意事项与性能考量

  1. 索引排序: 在进行expanding操作之前,确保你的DataFrame已经按照分组键和时间/序列顺序进行了排序。否则,扩展窗口的顺序可能不是你期望的。在上面的例子中,我们添加了df = df.sort_values(by=['Category', df.index])来确保这一点。
  2. min_periods: expanding(min_periods=N)中的N参数非常重要。它指定了窗口中至少需要有多少个非NaN值才能进行计算。如果窗口中的元素数量少于min_periods,则结果将是NaN。默认值为1。
  3. 处理 NaN 值: percentileofscore函数默认会处理NaN值,但如果你的数据中存在大量NaN,可能需要考虑在apply之前或lambda函数内部进行显式的NaN处理(例如,x.dropna())。
  4. 性能: apply方法在Pandas中虽然灵活,但对于大型数据集而言,它通常不是最高效的。因为它在Python循环中执行自定义函数。如果性能成为瓶颈,可以考虑以下替代方案:
    • 对于简单的百分位排名(如rank(pct=True)),Pandas内置的rank()函数通常更快。但percentileofscore的语义略有不同(它计算的是分数小于或等于给定值的百分比),所以不能直接替换。
    • 如果可能,尝试寻找Numba或Cython等工具进行性能优化,或者将apply函数向量化(如果percentileofscore有NumPy等价的向量化版本)。然而,对于percentileofscore这种需要对每个窗口独立计算的场景,apply往往是最直接和可读性最好的方法。

总结

通过本文的讲解和示例,我们深入探讨了如何在Pandas中利用groupby().expanding().apply()结合scipy.stats.percentileofscore函数来计算基于分组和扩展窗口的百分位排名。核心要点在于:在lambda x: ...中,x代表当前窗口的数据,而不是整个Series或DataFrame。理解并正确使用x是解决这类问题的关键。无论是计算固定分数的排名还是当前值的排名,遵循这一原则都能帮助我们构建准确且功能强大的数据分析流程。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

711

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

625

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

737

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

573

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

696

2023.08.11

俄罗斯搜索引擎Yandex最新官方入口网址
俄罗斯搜索引擎Yandex最新官方入口网址

Yandex官方入口网址是https://yandex.com;用户可通过网页端直连或移动端浏览器直接访问,无需登录即可使用搜索、图片、新闻、地图等全部基础功能,并支持多语种检索与静态资源精准筛选。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1

2025.12.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 2.5万人学习

SciPy 教程
SciPy 教程

共10课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号