使用Pandas和NumPy按组比较序列值：创建相对变化标记-Python教程-PHP中文网

使用Pandas和NumPy按组比较序列值：创建相对变化标记

霞舞

发布： 2025-12-05 13:29:26

原创

354人浏览过

使用Pandas和NumPy按组比较序列值：创建相对变化标记

本教程详细介绍了如何利用pandas的`groupby()`和`diff()`方法，结合numpy的`select()`函数，高效地按组比较数据框中当前行与前一行的值。文章将演示如何根据比较结果（大于、小于或等于）生成新的标记列，从而实现数据序列的条件性分析和标记，适用于需要分组内时序或序列比较的场景。

在数据分析和处理中，一个常见的需求是比较数据集中某一列的当前值与其前一个值，尤其是在需要按特定分组进行这种比较时。例如，我们可能需要判断某个指标在每个分组内是上升、下降还是保持不变。本教程将指导您如何使用Pandas和NumPy库来实现这一功能，生成一个新列来标记这些相对变化。

问题场景描述

假设我们有一个包含多个组（例如，产品类别、用户ID等）的数据集，每个组内的数据都有一个数值序列。我们的目标是为每个组内的每一行，比较其特定数值列（例如，Val1）与该组内前一行的值。如果当前值大于前一个值，则标记为“Abv”（Above）；如果小于前一个值，则标记为“Blw”（Below）；如果相等，则留空。

考虑以下示例数据框：

   Ref1  Val1
0    A     1
1    A     2
2    A     3
3    A     4
4    B     1
5    B     1
6    B     2
7    B     0

登录后复制

我们期望的结果是：

   Ref1  Val1 AbvBlw
0    A     1    
1    A     2    Abv
2    A     3    Abv
3    A     4    Abv
4    B     1    
5    B     1    
6    B     2    Abv
7    B     0    Blw

登录后复制

解决方案

我们将分两步实现这个目标：首先，计算每个组内当前行与前一行的差值；其次，根据这些差值应用条件逻辑生成新的标记列。

步骤一：按组计算差值

Pandas库提供了diff()方法，可以计算Series中当前元素与前一个元素的差值。当与groupby()结合使用时，diff()将在每个分组内独立执行，从而避免跨组比较。

首先，导入必要的库并创建示例数据框：

import pandas as pd
import numpy as np

data = {
    'Ref1': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
    'Val1': [1, 2, 3, 4, 1, 1, 2, 0]
}
df = pd.DataFrame(data)

print("原始数据框:")
print(df)

登录后复制

接下来，我们使用groupby()对Ref1列进行分组，然后对Val1列应用diff()方法。这将返回一个Series，其中包含每个组内Val1列的连续差值。每个组的第一个元素将是NaN，因为没有前一个值可供比较。

会译·对照式翻译

会译是一款AI智能翻译浏览器插件，支持多语种对照式翻译

查看详情

s_diff = df.groupby(['Ref1'])['Val1'].diff()
print("\n按组计算的差值:")
print(s_diff)

登录后复制

输出的s_diff将如下所示：

0    NaN
1    1.0
2    1.0
3    1.0
4    NaN
5    0.0
6    1.0
7   -2.0
Name: Val1, dtype: float64

登录后复制

步骤二：应用条件逻辑生成标记列

现在我们有了差值s_diff，我们需要根据其值来创建新的AbvBlw列。这里，NumPy的np.select()函数是一个非常高效且灵活的选择，它允许我们基于多个条件列表来选择不同的值。

np.select()的语法如下： np.select(condlist, choicelist, default=0)

condlist: 一个布尔条件列表。
choicelist: 当condlist中的对应条件为真时，要选择的值列表。
default: 如果所有条件都不满足，则使用的默认值。

我们将定义两个条件：

差值大于0 (s_diff > 0)：对应标记“Abv”。
差值小于0 (s_diff

如果差值等于0，或者为NaN（即每个组的第一行），我们希望结果为空字符串或None。np.select()的default参数可以很好地处理这种情况。

df['AbvBlw'] = np.select(
    [s_diff > 0, s_diff < 0],  # 条件列表
    ['Abv', 'Blw'],            # 对应条件为真时的选择值列表
    default=None                # 默认值，当差值为0或NaN时
)

print("\n最终结果数据框:")
print(df)

登录后复制

最终的数据框df将包含我们期望的AbvBlw列：

原始数据框:
  Ref1  Val1
0    A     1
1    A     2
2    A     3
3    A     4
4    B     1
5    B     1
6    B     2
7    B     0

按组计算的差值:
0    NaN
1    1.0
2    1.0
3    1.0
4    NaN
5    0.0
6    1.0
7   -2.0
Name: Val1, dtype: float64

最终结果数据框:
  Ref1  Val1 AbvBlw
0    A     1   None
1    A     2    Abv
2    A     3    Abv
4    B     1   None
5    B     1   None
6    B     2    Abv
7    B     0    Blw

登录后复制

注意：None在Pandas中通常显示为空白，这符合我们的需求。如果您需要明确的空字符串''，可以将default参数设置为''。

完整代码示例

import pandas as pd
import numpy as np

# 1. 创建示例数据框
data = {
    'Ref1': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
    'Val1': [1, 2, 3, 4, 1, 1, 2, 0]
}
df = pd.DataFrame(data)

print("原始数据框:")
print(df)

# 2. 按组计算Val1列与前一行的差值
# groupby(['Ref1'])确保在每个Ref1组内独立计算
# diff()计算当前行与前一行的差值
s_diff = df.groupby(['Ref1'])['Val1'].diff()

# 3. 使用numpy.select根据差值创建新的标记列
# condlist: 布尔条件列表
# choicelist: 当对应条件为真时赋的值
# default: 如果所有条件都不满足（例如，差值为0或NaN），则赋的值
df['AbvBlw'] = np.select(
    [s_diff > 0, s_diff < 0],  # 条件：差值大于0，差值小于0
    ['Abv', 'Blw'],            # 选择：'Abv'，'Blw'
    default=None               # 默认值：None (对于差值等于0或NaN的情况)
)

print("\n处理后的数据框:")
print(df)

登录后复制

注意事项与总结

groupby().diff() 的行为：diff()方法在每个分组的第一个元素处会生成NaN，因为没有前一个元素可供比较。np.select()的default参数能够优雅地处理这些NaN值，将其转换为None或您指定的其他默认值。
np.select() 的效率：对于多个条件判断并赋值的场景，np.select()通常比链式if-else语句或多重apply()操作更高效，尤其是在处理大型数据集时。
数据类型：diff()返回的Series通常是浮点型。np.select()会根据choicelist和default的数据类型自动推断输出列的数据类型。
灵活性：此方法不仅限于“Abv”/“Blw”标记，您可以根据具体需求调整condlist和choicelist来创建更复杂的分类或标记。
排序：在进行序列比较之前，请确保您的数据框在每个分组内已经按照正确的顺序排序。如果数据未排序，diff()的结果可能不符合您的预期。例如，如果Val1是时间序列数据，通常需要先按时间戳排序。