使用Pandas和SciPy计算分组扩展窗口的百分位数排名

心靈之曲

发布时间：2025-11-08 11:39:51

511人浏览过

来源于php中文网

原创

使用Pandas和SciPy计算分组扩展窗口的百分位数排名

本文详细介绍了如何利用pandas的`groupby`和`expanding`功能，结合scipy的`percentileofscore`函数，在数据集中计算分组和扩展窗口的百分位数排名。文章通过一个实际示例，阐明了在`apply`方法中使用lambda函数时，正确引用窗口数据`x`的关键，并提供了清晰的代码实现和解释，帮助读者避免常见错误，高效完成复杂的数据分析任务。

在数据分析中，我们经常需要计算某个值在其所属组内，并且在不断增长的数据窗口中的百分位数排名。这涉及到Pandas的几个核心功能：分组聚合（groupby）、窗口操作（expanding）以及统计函数（如scipy.stats.percentileofscore）。然而，将这些功能组合起来时，尤其是在使用apply方法配合lambda表达式时，常常会遇到一些挑战。

理解核心概念

在深入解决方案之前，我们先回顾一下涉及到的关键概念：

百分位数排名 (percentileofscore)：scipy.stats.percentileofscore(a, score) 函数计算在给定数据集 a 中，值 score 的百分位数排名。它返回一个介于0到100之间的浮点数，表示数据集中有多少比例的值小于或等于 score。
分组操作 (groupby)：Pandas的groupby方法用于根据一个或多个列的值将DataFrame分割成多个组，然后对每个组独立地执行操作。
扩展窗口 (expanding)：expanding是一个窗口函数，它在DataFrame或Series上创建一个不断增长的窗口。这意味着对于每个数据点，窗口包含从序列开始到当前点（包括当前点）的所有数据。
apply 方法：apply方法是Pandas中一个非常强大的工具，它允许用户将一个函数（通常是自定义函数或lambda函数）应用到DataFrame的行、列或分组后的数据上。

常见问题与误区

在尝试计算分组扩展窗口的百分位数排名时，一个常见的错误是在apply方法中，lambda函数没有正确地引用expanding窗口传递给它的数据。例如，如果尝试像下面这样编写代码：

# 错误的示例
df['pct'] = df.groupby(['Category']).expanding(1).apply(lambda x: stats.percentileofscore(df['values'], 1)).reset_index(0, drop=True)

这里的问题在于 lambda x: stats.percentileofscore(df['values'], 1)。当 expanding 窗口调用 apply 时，它会将当前窗口的数据作为一个Series（或DataFrame）传递给 x。然而，在上面的错误示例中，lambda函数内部却硬编码了 df['values'] 和一个固定的值 1，这导致它没有利用 x（即当前窗口的数据），也没有动态地获取当前要计算百分位数的值。实际上，我们希望 x 既是计算百分位数的数据集，又是要计算百分位数的值。

正确的解决方案

为了正确地计算分组扩展窗口的百分位数排名，我们需要确保lambda函数能够访问当前窗口的数据，并从中提取出需要计算百分位数的值。通常，当expanding与apply结合使用时，x代表了当前扩展窗口内的所有数据。我们可以使用x作为percentileofscore的第一个参数（即数据集），并使用x的最后一个值（即当前点的值）作为第二个参数（即要计算百分位数的值）。

Linfo.ai

Linfo AI 是一款AI驱动的 Chrome 扩展程序，可以将网页文章、行业报告、YouTube 视频和 PDF 文档转换为结构化摘要。

下载

下面是一个完整的示例，演示了如何正确实现这一功能：

import pandas as pd
import numpy as np
from scipy.stats import percentileofscore

# 构造一个示例DataFrame
df = pd.DataFrame([
        ['alex', 'alex', 'bob', 'alex', 'bob', 'alex', 'bob', 'bob'],
        [0, 3, 10, 1, 15, 6, 12, 18]              
    ]).T
df.columns = ['Category', 'values']
df['values'] = df['values'].astype(int) # 确保'values'列是数值类型

print("原始DataFrame:")
print(df)
print("-" * 30)

# 计算分组扩展窗口的百分位数排名
# 步骤1: 按 'Category' 列分组
# 步骤2: 对每个组应用 expanding(1) 窗口，表示从第一个元素开始扩展
# 步骤3: 对每个窗口应用 lambda 函数
#        x 代表当前窗口的 Series。
#        percentileofscore(x, x.iloc[-1]) 表示在当前窗口 x 中，
#        计算 x 的最后一个元素（即当前点的值）的百分位数排名。
df['pct'] = df.groupby(['Category']) \
                .expanding(1)['values'] \
                .apply(lambda x: percentileofscore(x, x.iloc[-1])) \
                .reset_index(level=0, drop=True) # 重置索引，移除 expanding 引入的额外层级

print("\n计算百分位数排名后的DataFrame:")
print(df)

代码解释：

df.groupby(['Category']): 首先，我们将DataFrame按照Category列进行分组。这将确保alex和bob的数据分别进行处理。
.expanding(1)['values']: 接着，我们对每个分组应用expanding(1)窗口。expanding(1)表示窗口从第一个元素开始（最小窗口大小为1）。['values']指定了我们希望在哪个Series上应用窗口和后续的apply操作。
.apply(lambda x: percentileofscore(x, x.iloc[-1])): 这是核心部分。
- x：在expanding().apply()的上下文中，x代表了当前扩展窗口的values Series。
- percentileofscore(x, x.iloc[-1])：我们将整个窗口x作为percentileofscore的第一个参数（数据集），将窗口中的最后一个值（即当前行对应的values值）作为第二个参数（要计算百分位数的值）。这样，对于alex组的第一个值0，x是[0]，计算percentileofscore([0], 0)；对于第二个值3，x是[0, 3]，计算percentileofscore([0, 3], 3)，依此类推。
.reset_index(level=0, drop=True): groupby().expanding()操作会引入一个多级索引，其中第一级是Category。reset_index(level=0, drop=True)用于移除这个额外的Category索引层，使结果Series的索引与原始DataFrame的索引对齐，方便将结果赋值回df['pct']。

示例运行结果

原始DataFrame:
  Category  values
0     alex       0
1     alex       3
2      bob      10
3     alex       1
4      bob      15
5     alex       6
6      bob      12
7      bob      18
------------------------------

计算百分位数排名后的DataFrame:
  Category  values   pct
0     alex       0   50.0
1     alex       3  100.0
2      bob      10   50.0
3     alex       1   66.666667
4      bob      15  100.0
5     alex       6  100.0
6      bob      12   66.666667
7      bob      18  100.0

注意事项与总结

数据类型：确保你正在计算百分位数的列是数值类型。如果不是，需要先进行类型转换，例如df['values'] = df['values'].astype(int)。
expanding(min_periods)：expanding函数可以接受一个min_periods参数，指定计算所需的最小非NA观测值数量。在我们的例子中，expanding(1)意味着只要有一个值，就可以开始计算。根据你的业务需求，可能需要调整这个值。
percentileofscore的kind参数：percentileofscore函数有一个kind参数，默认为'rank'。你可以根据需要选择其他类型，如'weak', 'strict', 'mean'，它们在处理重复值时有不同的行为。
性能考量：对于非常大的数据集，apply方法可能不是最高效的。在某些情况下，可以考虑使用Numba或Cython进行性能优化，或者寻找Pandas内置的向量化替代方案（尽管对于percentileofscore这种复杂的自定义窗口操作，apply通常是直接且可读性强的选择）。

通过上述方法，我们可以有效地结合Pandas的分组和扩展窗口功能与SciPy的统计函数，灵活地对数据进行复杂的分析。理解apply方法中x参数的正确用法是解决此类问题的关键。

Python中复杂字典结构的高效类型定义与数据验证：Pydantic实战指南

将字节流转换为 Go 语言中的 float32 数组

Go 语言：从字节数据高效还原 float32 数组的实践指南

Go语言中高效转换字节序列为Float32数组的指南

Go语言中将字节流转换为Float32数组的实用指南