Pandas 计算同 ID 下前序行的中位数-Python教程-PHP中文网

Pandas 计算同 ID 下前序行的中位数

心靈之曲

发布： 2025-10-13 12:46:22

原创

599人浏览过

pandas 计算同 id 下前序行的中位数

本文介绍了如何使用 Pandas 计算 DataFrame 中，按照 ID 分组后，每一行数据对应的前序行的中位数。通过 groupby.transform、shift 和 expanding.median 函数的组合，可以高效地实现这一目标，无需手动循环，代码简洁易懂。

在数据分析中，经常需要计算基于时间序列或分组数据的滚动统计量。本文将演示如何使用 Pandas 计算 DataFrame 中，按照特定 ID 分组后，每一行数据对应的前序行的中位数。

问题描述

假设我们有一个 DataFrame，包含 Index、ID 和 Amount 三列，如下所示：

   Index ID  Amount
0      1  A      10
1      2  A      15
2      3  A      17
3      4  A      12
4      5  A      10
5      6  B      20
6      7  B      15

登录后复制

我们的目标是添加一个新的列 MedianOfPastElements，其中每一行的值是相同 ID 的所有前序行的 Amount 列的中位数。

解决方案

Pandas 提供了强大的 groupby 和 transform 功能，可以高效地解决这个问题。以下是实现的代码：

import pandas as pd

# 示例数据
data = {'Index': [1, 2, 3, 4, 5, 6, 7],
        'ID': ['A', 'A', 'A', 'A', 'A', 'B', 'B'],
        'Amount': [10, 15, 17, 12, 10, 20, 15]}
df = pd.DataFrame(data)

# 计算前序行的中位数
df['MedianOfPastElements'] = (df.groupby('ID')['Amount']
                                .transform(lambda s: s.shift().expanding().median()))

print(df)

登录后复制

代码解释

算家云

高效、便捷的人工智能算力服务平台

查看详情

df.groupby('ID')['Amount']: 首先，我们按照 ID 列对 DataFrame 进行分组，并选择 Amount 列。
.transform(lambda s: ...): transform 函数会将一个函数应用到每个分组的 Series 上，并将结果合并回原始 DataFrame。
s.shift(): shift() 函数将 Series 中的元素向下移动一位。这样，每一行就对应了它前面所有行的值。例如，对于 'A' 组的第三行，shift() 后的值为前两行的值。
.expanding(): expanding() 函数创建一个 expanding object，允许我们计算累积统计量。
.median(): median() 函数计算每个 expanding window 的中位数。

输出结果

运行上述代码，将得到以下结果：

   Index ID  Amount  MedianOfPastElements
0      1  A      10                   NaN
1      2  A      15                  10.0
2      3  A      17                  12.5
3      4  A      12                  15.0
4      5  A      10                  13.5
5      6  B      20                   NaN
6      7  B      15                  20.0

登录后复制

可以看到，MedianOfPastElements 列包含了我们想要的结果。第一行由于没有前序行，所以中位数为 NaN。

注意事项

shift() 函数会导致第一行的值为 NaN，因为没有前序行。如果需要，可以使用 fillna() 函数填充这些缺失值。
该方法适用于大型 DataFrame，因为它使用了 Pandas 的矢量化操作，效率很高。
可以根据需要修改代码，计算其他统计量，例如平均值、标准差等。只需要将 .median() 替换为 .mean()、.std() 等相应的函数即可。

总结

本文演示了如何使用 Pandas 的 groupby.transform、shift 和 expanding.median 函数，高效地计算 DataFrame 中，按照 ID 分组后，每一行数据对应的前序行的中位数。这种方法简洁、高效，适用于处理大型数据集。掌握这些技巧可以帮助你更有效地进行数据分析和处理。

以上就是Pandas 计算同 ID 下前序行的中位数的详细内容，更多请关注php中文网其它相关文章！