Pandas：高效计算分组内前序数据的累积中位数

DDD

发布时间：2025-10-13 11:14:16

625人浏览过

来源于php中文网

原创

Pandas：高效计算分组内前序数据的累积中位数

本文详细介绍了如何在pandas dataframe中，为每个分组内的记录计算其所有前序数据的累积中位数。通过结合 `groupby.transform`、`shift` 和 `expanding.median` 方法，可以高效且优雅地解决这一常见的数据处理需求，特别适用于需要基于历史数据进行分析的场景。

Pandas中按组计算前序行累积中位数

在数据分析中，我们经常会遇到需要基于历史数据进行计算的场景。例如，在一个按ID分组的有序数据集中，我们可能需要计算每个ID下，当前行之前所有“Amount”值的累积中位数。这要求我们不仅要考虑分组，还要考虑数据的时间或顺序性，并且只使用当前行之前的数据。

问题描述与示例

假设我们有一个Pandas DataFrame，其中包含 Index、ID 和 Amount 列，并且数据是按 Index 有序排列的：

   Index ID  Amount
0      1  A      10
1      2  A      15
2      3  A      17
3      4  A      12
4      5  A      10
5      6  B      20
6      7  B      15

我们的目标是添加一个新列 MedianOfPastElements，该列的值表示相同 ID 下，当前行之前所有 Amount 值的累积中位数。例如：

对于ID 'A'的第二行 (Amount=15)，其前序值为 (10)，中位数为 10。
对于ID 'A'的第三行 (Amount=17)，其前序值为 (10, 15)，中位数为 (10+15)/2 = 12.5。
对于每个ID的第一行，由于没有前序数据，其结果应为 NaN。

期望的输出结果如下：

   Index ID  Amount  MedianOfPastElements
0      1  A      10                   NaN
1      2  A      15                  10.0
2      3  A      17                  12.5
3      4  A      12                  15.0
4      5  A      10                  13.5
5      6  B      20                   NaN
6      7  B      15                  20.0

解决方案

Pandas提供了一套强大且灵活的工具来处理这类分组和窗口操作。解决此问题的关键在于结合使用 groupby.transform、shift 和 expanding.median。

import pandas as pd
import numpy as np

# 示例数据
data = {
    'Index': [1, 2, 3, 4, 5, 6, 7],
    'ID': ['A', 'A', 'A', 'A', 'A', 'B', 'B'],
    'Amount': [10, 15, 17, 12, 10, 20, 15]
}
df = pd.DataFrame(data)

# 计算前序元素的累积中位数
df['MedianOfPastElements'] = (df.groupby('ID')['Amount']
                                .transform(lambda s: s.shift().expanding().median())
                             )

print(df)

核心逻辑解析

让我们逐步分解这段代码，理解它是如何实现所需功能的：

df.groupby('ID')['Amount']:
- 首先，我们通过 groupby('ID') 将DataFrame按 ID 列进行分组。这意味着后续的操作将独立地应用于每个唯一的 ID 组。
- 然后，我们选择 Amount 列 (['Amount'])，因为我们只关心这一列的数值进行计算。
.transform(lambda s: ...):

易通cmseasy免费的企业建站程序2.0 UTF-8 build 201000510 中文版
易通(企业网站管理系统)是一款小巧,高效,人性化的企业建站程序.易通企业网站程序是国内首款免费提供模板的企业网站系统.§ 简约的界面及小巧的体积：后台菜单完全可以修改成自己最需要最高效的形式；大部分操作都集中在下拉列表框中，以节省更多版面来显示更有价值的数据；数据的显示以Javascript数组类型来输出，减少数据的传输量，加快传输速度。 § 灵活的模板标签及模

下载
- transform 方法用于在分组操作后，将结果广播回原始DataFrame的索引。它接受一个函数（这里是一个 lambda 函数），该函数会应用于每个分组的 Amount Series (s)。
- transform 的一个关键特性是它会返回一个与原始DataFrame具有相同索引和行数的新Series，确保计算结果能正确地对齐到原始数据。
s.shift():
- 在 lambda 函数内部，s 代表当前分组的 Amount Series。
- s.shift() 操作会将Series中的值向下移动一个位置。这意味着当前行的值会变成下一行的值，而当前行的位置会填充 NaN。
- 作用：这是获取“前序”数据的关键步骤。通过 shift()，我们确保了在计算当前行的中位数时，只能访问到其在原始序列中排在前面的值。每个分组的第一行经过 shift() 后，其 Amount 值将变为 NaN。
.expanding():
- expanding() 是Pandas窗口函数的一种，它创建一个“扩展窗口”对象。对于Series中的每一个点，expanding() 窗口会包含从Series开始到当前点（包括当前点）的所有数据。
- 作用：结合 shift() 后，expanding() 确保了我们计算的是从分组开始到当前行之前的所有值的累积中位数。
.median():
- 最后，.median() 方法应用于 expanding() 窗口，计算每个扩展窗口内的中位数。
- 作用：在 shift() 和 expanding() 的配合下，它精确地计算了每个分组内，当前行之前所有 Amount 值的累积中位数。

结果展示

运行上述代码，将得到以下输出：

   Index ID  Amount  MedianOfPastElements
0      1  A      10                   NaN
1      2  A      15                  10.0
2      3  A      17                  12.5
3      4  A      12                  15.0
4      5  A      10                  13.5
5      6  B      20                   NaN
6      7  B      15                  20.0

可以看到，MedianOfPastElements 列准确地反映了每个ID分组内，当前行之前 Amount 值的累积中位数。对于每个分组的第一行，由于 shift() 操作导致其值为 NaN，因此累积中位数也为 NaN，这符合预期。

注意事项与扩展

首行 NaN: 每个分组的第一行 MedianOfPastElements 将是 NaN。这是因为 shift() 操作将该行的 Amount 值移到了下一行，而该行自身则变成了 NaN。expanding().median() 在只看到一个 NaN 时，结果自然也是 NaN。
性能: 这种组合方法在Pandas中是高度优化的，对于大型数据集也能提供良好的性能。
其他聚合函数: expanding() 不仅可以与 median() 结合使用，还可以与 mean()、sum()、min()、max()、std() 等多种聚合函数结合，以计算不同类型的累积统计量。
适用场景: 这种技术在时间序列分析（例如计算过去N天的平均值）、用户行为分析（例如计算用户历史消费中位数）等场景中非常有用。

总结

通过巧妙地结合 groupby.transform、shift 和 expanding.median，Pandas提供了一种简洁而强大的方式来解决分组内前序数据累积统计的复杂问题。掌握这种模式对于进行高级数据分析和特征工程至关重要，能够帮助我们从有序数据中提取有价值的历史信息。

Python文件操作安全实践_异常防护说明【指导】

Python工厂模式教程_解耦对象创建逻辑

PythonAI面试准备教程_核心问题与考察点

PythonAI入门到进阶教程_完整成长路径解析

Python数据类型系统教程_字符串列表字典深入讲解

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

lambda表达式

Lambda表达式是一种匿名函数的简洁表示方式，它可以在需要函数作为参数的地方使用，并提供了一种更简洁、更灵活的编码方式，其语法为“lambda 参数列表: 表达式”，参数列表是函数的参数，可以包含一个或多个参数，用逗号分隔，表达式是函数的执行体，用于定义函数的具体操作。本专题为大家提供lambda表达式相关的文章、下载、课程内容，供大家免费下载体验。

203

2023.09.15

python lambda函数

本专题整合了python lambda函数用法详解，阅读专题下面的文章了解更多详细内容。

190

2025.11.08

Python lambda详解

本专题整合了Python lambda函数相关教程，阅读下面的文章了解更多详细内容。

2026.01.05

数据分析的方法

数据分析的方法有：对比分析法，分组分析法，预测分析法，漏斗分析法，AB测试分析法，象限分析法，公式拆解法，可行域分析法，二八分析法，假设性分析法。php中文网为大家带来了数据分析的相关知识、以及相关文章等内容。

460

2023.07.04

数据分析方法有哪几种

数据分析方法有：1、描述性统计分析；2、探索性数据分析；3、假设检验；4、回归分析；5、聚类分析。本专题为大家提供数据分析方法的相关的文章、下载、课程内容，供大家免费下载体验。

275

2023.08.07

网站建设功能有哪些

网站建设功能包括信息发布、内容管理、用户管理、搜索引擎优化、网站安全、数据分析、网站推广、响应式设计、社交媒体整合和电子商务等功能。这些功能可以帮助网站管理员创建一个具有吸引力、可用性和商业价值的网站，实现网站的目标。

724

2023.10.16

数据分析网站推荐

数据分析网站推荐：1、商业数据分析论坛；2、人大经济论坛-计量经济学与统计区；3、中国统计论坛；4、数据挖掘学习交流论坛；5、数据分析论坛；6、网站数据分析；7、数据分析；8、数据挖掘研究院；9、S-PLUS、R统计论坛。想了解更多数据分析的相关内容，可以阅读本专题下面的文章。

502

2024.03.13

Java 项目构建与依赖管理（Maven / Gradle）

本专题系统讲解 Java 项目构建与依赖管理的完整体系，重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例，帮助学习者掌握从零搭建、维护到发布 Java 工程的标准化流程，提升在实际团队开发中的工程能力与协作效率。

2026.01.12

热门下载

网站特效

网站源码

网站素材

前端模板