Pandas中基于分组和扩展窗口计算百分位排名

霞舞

发布时间：2025-11-10 10:52:01

738人浏览过

来源于php中文网

原创

pandas中基于分组和扩展窗口计算百分位排名

本文旨在详细阐述如何在Pandas中使用`groupby()`、`expanding()`和`apply()`结合`scipy.stats.percentileofscore`函数，正确计算数据集中按组和扩展窗口的百分位排名。我们将重点解析`apply`函数中`lambda x`参数的正确用法，避免常见的引用错误，并提供两种计算场景的示例代码与深入解释，以帮助读者准确实现动态的百分位排名分析。

引言：动态百分位排名计算的需求

在数据分析中，我们经常需要计算某个值在其所属群体中的相对位置，这通常通过百分位排名（Percentile Rank）来实现。当这个计算还需要考虑数据的分组（groupby）以及随时间或序列不断增长的窗口（expanding）时，问题会变得更复杂。例如，我们可能需要计算每个用户当前得分相对于其历史所有得分的百分位排名。Pandas提供了强大的工具来处理这类复杂聚合，但正确结合使用这些工具，尤其是apply函数中的lambda表达式，是实现目标的关键。

一个常见的错误是在apply的lambda函数内部错误地引用了整个DataFrame的列，而非当前操作的窗口数据。这将导致计算结果不符合预期，因为它没有针对每个动态窗口进行计算。

理解 groupby().expanding().apply() 的工作机制

在深入代码之前，我们首先需要理解groupby().expanding().apply()链式操作的含义：

groupby(['Category']): 这一步将DataFrame按照指定的Category列进行分组。后续的所有操作都将在这些独立的组内进行。
expanding(1): 对于每个组，expanding(1)创建一个扩展窗口对象。这意味着对于组内的每一行，它会考虑从该组的第一个元素到当前行的所有数据。参数1表示最小包含的元素数量，即窗口至少包含1个元素。
apply(lambda x: ...): apply方法对每个扩展窗口执行一个自定义函数。这里的关键在于lambda x中的x。在每次调用lambda函数时，x不再是整个DataFrame或Series，而是当前扩展窗口内的数据（一个Series或DataFrame片段）。因此，在lambda函数内部，我们必须使用x来引用当前窗口的数据。

scipy.stats.percentileofscore 函数简介

scipy.stats.percentileofscore(a, score, kind='rank') 是一个非常有用的函数，用于计算给定score在数组a中的百分位排名。

a: 这是一个数值数组（或列表），代表了要计算百分位排名的参照数据集。
score: 这是我们要查找其百分位排名的具体数值。
kind: 定义了计算方式，默认为'rank'，表示分数小于或等于score的百分比。

错误的尝试与核心问题解析

假设我们有一个DataFrame df，包含Category和values两列，我们想计算每个values在对应Category的扩展窗口内的百分位排名。

一个常见的错误尝试可能类似于：

# 错误示范 (请勿直接运行)
# df['pct'] = df.groupby(['Category']).expanding(1).apply(lambda x: stats.percentileofscore(df['values'], 1)).reset_index(0, drop=True)

这里的核心问题在于percentileofscore(df['values'], 1)。在lambda x:的作用域内，x代表当前窗口的数据。但是，df['values']却引用了整个DataFrame的values列，而不是当前窗口的values。这意味着无论窗口如何变化，percentileofscore总是参照整个df['values']列来计算，这显然违背了“按组和扩展窗口”的要求。

知鹿匠

知鹿匠教师AI工具，新课标教案_AI课件PPT_作业批改

下载

正确的实现策略

为了正确实现，我们需要确保percentileofscore的第一个参数（参照数据集）是当前的扩展窗口x，而第二个参数（要计算百分位排名的分数）则根据具体需求来定。

我们将通过一个示例DataFrame来演示两种常见的计算场景。

import pandas as pd
import numpy as np
from scipy.stats import percentileofscore

# 示例数据
df = pd.DataFrame([
        ['alex', 'alex', 'bob', 'alex', 'bob', 'alex', 'bob', 'bob'],
        [0, 3, 10, 1, 15, 6, 12, 18]              
    ]).T
df.columns = ['Category', 'values']
df['values'] = df['values'].astype(int) # 确保values列是数值类型

print("原始DataFrame:")
print(df)
print("-" * 30)

# 确保数据按Category和索引排序，以保证expanding窗口的顺序一致性
df = df.sort_values(by=['Category', df.index])

场景一：计算固定分数在每个扩展窗口中的百分位排名

有时，我们可能需要评估一个固定的阈值（例如，分数1）在每个不断增长的历史数据中的表现。

# 场景一：计算固定分数（例如，1）在每个扩展窗口中的百分位排名
# 这里的x是当前窗口的Series，1是我们要计算百分位排名的固定分数
df['pct_fixed_score_1'] = df.groupby(['Category'])['values'].\
                            expanding(1).\
                            apply(lambda x: percentileofscore(x, 1)).\
                            reset_index(level=0, drop=True)

print("场景一：计算固定分数1的百分位排名")
print(df)
print("-" * 30)

代码解释：

df.groupby(['Category'])['values']: 首先按Category分组，并选择values列进行操作。这样x在lambda函数中将是一个Series。
expanding(1): 为每个组创建扩展窗口。
apply(lambda x: percentileofscore(x, 1)): 这是核心部分。x代表当前窗口的values Series。我们计算固定分数1在x这个Series中的百分位排名。
reset_index(level=0, drop=True): groupby().expanding()操作会引入多级索引（Category和原始索引）。reset_index(level=0, drop=True)用于删除Category这一级索引，使结果Series的索引与原始DataFrame的索引对齐，方便合并。

场景二：计算当前行值在每个扩展窗口中的百分位排名（更常见）

更常见的需求是，计算当前行的values值在它所属的Category的扩展窗口（即，从该组开头到当前行的所有values）中的百分位排名。

# 场景二：计算当前行值在每个扩展窗口中的百分位排名
# 这里的x是当前窗口的Series，x.iloc[-1]是当前窗口的最后一个值（即当前行的值）
df['pct_current_value'] = df.groupby(['Category'])['values'].\
                            expanding(1).\
                            apply(lambda x: percentileofscore(x, x.iloc[-1])).\
                            reset_index(level=0, drop=True)

print("场景二：计算当前行值的百分位排名")
print(df)
print("-" * 30)

代码解释：

与场景一类似，主要区别在于percentileofscore的第二个参数。
x.iloc[-1]: 在lambda函数中，x是当前扩展窗口的Series。x.iloc[-1]安全地获取了该窗口中的最后一个值，即当前行对应的values。这样，我们就能计算当前值在其自身历史数据中的百分位排名。

注意事项与性能考量

索引排序: 在进行expanding操作之前，确保你的DataFrame已经按照分组键和时间/序列顺序进行了排序。否则，扩展窗口的顺序可能不是你期望的。在上面的例子中，我们添加了df = df.sort_values(by=['Category', df.index])来确保这一点。
min_periods: expanding(min_periods=N)中的N参数非常重要。它指定了窗口中至少需要有多少个非NaN值才能进行计算。如果窗口中的元素数量少于min_periods，则结果将是NaN。默认值为1。
处理 NaN 值: percentileofscore函数默认会处理NaN值，但如果你的数据中存在大量NaN，可能需要考虑在apply之前或lambda函数内部进行显式的NaN处理（例如，x.dropna()）。
性能: apply方法在Pandas中虽然灵活，但对于大型数据集而言，它通常不是最高效的。因为它在Python循环中执行自定义函数。如果性能成为瓶颈，可以考虑以下替代方案：
- 对于简单的百分位排名（如rank(pct=True)），Pandas内置的rank()函数通常更快。但percentileofscore的语义略有不同（它计算的是分数小于或等于给定值的百分比），所以不能直接替换。
- 如果可能，尝试寻找Numba或Cython等工具进行性能优化，或者将apply函数向量化（如果percentileofscore有NumPy等价的向量化版本）。然而，对于percentileofscore这种需要对每个窗口独立计算的场景，apply往往是最直接和可读性最好的方法。

总结

通过本文的讲解和示例，我们深入探讨了如何在Pandas中利用groupby().expanding().apply()结合scipy.stats.percentileofscore函数来计算基于分组和扩展窗口的百分位排名。核心要点在于：在lambda x: ...中，x代表当前窗口的数据，而不是整个Series或DataFrame。理解并正确使用x是解决这类问题的关键。无论是计算固定分数的排名还是当前值的排名，遵循这一原则都能帮助我们构建准确且功能强大的数据分析流程。

如何优化 CS50 Vanity Plates 作业的 Python 实现

如何在异常处理外部获取当前异常对象

动态构建 SQL WHERE 条件：基于字典列表的 Python 安全查询生成

如何根据函数参数的具体字面值（而非仅类型）精确推断返回类型

如何在 Python 中使用 ParamSpec 精确转发泛型函数参数类型