计算DataFrame中基于类别变化的滚动差值-Python教程-PHP中文网

计算DataFrame中基于类别变化的滚动差值

DDD

发布： 2025-10-13 11:58:32

原创

468人浏览过

计算dataframe中基于类别变化的滚动差值

本文介绍了如何使用 Pandas 计算 DataFrame 中基于类别变化的滚动差值。通过 groupby.transform('first') 方法，我们可以高效地计算出每个类别组内的起始时间，并以此计算出每个时间点相对于该类别起始时间的差值，从而避免使用效率较低的循环。

在处理时间序列数据时，经常需要计算某个值相对于该类别首次出现的时间的差值。例如，在分析用户行为数据时，我们可能需要计算每个用户在某个事件发生后经过的时间。如果使用循环来计算，效率会非常低下。Pandas 提供了 groupby.transform('first') 方法，可以高效地解决这个问题。

问题描述

假设我们有一个 DataFrame，其中包含类别变量 A、时间变量 t 和目标变量 X。我们希望计算 X，其值为 t 相对于 A 类别改变后的秒数。

解决方案

以下代码展示了如何使用 groupby.transform('first') 方法来解决这个问题：

硅基智能

基于Web3.0的元宇宙，去中心化的互联网，高质量、沉浸式元宇宙直播平台，用数字化重新定义直播

查看详情

import pandas as pd

# 示例数据
data = {'A': [1, 1, 1, 1, 1, 3, 3, 3, 3, 3, 2, 1, 1],
        't': [0.0, 3.2, 3.9, 18.0, 27.4, 47.4, 50.2, 57.2, 64.8, 76.4, 80.5, 85.3, 87.4]}
df = pd.DataFrame(data)

# 对连续相同的值进行分组
group = df['A'].ne(df['A'].shift()).cumsum()

# 计算 X：t 减去每个组的第一个 t 值
df['X'] = df['t'].sub(df.groupby(group)['t'].transform('first'))

print(df)

登录后复制

代码解释

导入 Pandas 库: import pandas as pd 导入 pandas 库，用于数据处理。
创建 DataFrame: 创建一个包含类别变量 A 和时间变量 t 的 DataFrame。
分组: df['A'].ne(df['A'].shift()).cumsum() 这行代码用于识别类别 A 发生变化的位置。df['A'].shift() 将 A 列向下移动一位，然后 df['A'].ne(df['A'].shift()) 比较 A 列和移动后的 A 列，如果不同则返回 True，否则返回 False。最后，cumsum() 函数对 True/False 值进行累加，从而生成一个分组序列，相同的 A 值属于同一组。
计算 X: df.groupby(group)['t'].transform('first') 这行代码首先使用 groupby() 函数根据上面生成的分组序列对 DataFrame 进行分组，然后选择时间变量 t。transform('first') 函数返回每个组的第一个 t 值，并将结果广播到整个组。最后，df['t'].sub(...) 从 t 列中减去每个组的第一个 t 值，得到 X。

输出结果

    A     t     X
0   1   0.0   0.0
1   1   3.2   3.2
2   1   3.9   3.9
3   1  18.0  18.0
4   1  27.4  27.4
5   3  47.4   0.0
6   3  50.2   2.8
7   3  57.2   9.8
8   3  64.8  17.4
9   3  76.4  29.0
10  2  80.5   0.0
11  1  85.3   0.0
12  1  87.4   2.1

登录后复制

注意事项

确保时间变量 t 的数据类型是数值类型。如果 t 是字符串类型，需要先将其转换为数值类型，例如使用 pd.to_numeric() 函数。
groupby.transform('first') 方法返回的是每个组的第一个值，因此需要确保数据按照类别 A 和时间 t 进行排序，以保证计算结果的正确性。
如果DataFrame中存在缺失值，需要先进行处理，例如使用 fillna() 函数填充缺失值。

总结

groupby.transform('first') 方法是一种高效计算 DataFrame 中基于类别变化的滚动差值的方法。它可以避免使用循环，提高计算效率。通过理解其原理和使用方法，可以将其应用到各种时间序列数据分析场景中。

以上就是计算DataFrame中基于类别变化的滚动差值的详细内容，更多请关注php中文网其它相关文章！