Pandas数据框中连续值分组计数的实现教程

DDD

发布时间：2025-11-28 10:43:05

523人浏览过

来源于php中文网

原创

Pandas数据框中连续值分组计数的实现教程

本文详细介绍了在pandas dataframe中如何高效统计某一列连续相同值的行数，并将其作为新列添加。通过结合`groupby`与动态生成的累积求和分组键，可以精确识别并计算每个连续块的大小，解决了传统`groupby`无法处理连续性的问题，为数据分析提供了强大的序列处理能力。

在数据分析中，我们经常需要处理序列数据，其中一个常见需求是统计数据框（DataFrame）某一列中连续相同值的出现次数。例如，在一个事件日志中，我们可能想知道某个特定事件连续发生了多少次。本教程将深入探讨如何在Pandas中实现这一功能，并提供一个高效且易于理解的解决方案。

理解问题：统计连续行而非总行数

假设我们有一个包含分类数据的Pandas DataFrame，如下所示：

import pandas as pd

data = {'class': ['a', 'a', 'a', 'b', 'b', 'c', 'd', 'e', 'e', 'e', 'f', 'a', 'c', 'd', 'd']}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

输出的DataFrame为：

原始DataFrame:
   class
0      a
1      a
2      a
3      b
4      b
5      c
6      d
7      e
8      e
9      e
10     f
11     a
12     c
13     d
14     d

我们期望的结果是为每一行添加一个新列consecutive_count，表示当前行所属的连续块的长度。例如，前三行'a'应该都显示3，接下来的两行'b'显示2，以此类推。注意，即使'a'在后面再次出现，它也会被视为一个新的连续块，并独立计数。

期望的输出：

   class  consecutive_count
0      a                  3
1      a                  3
2      a                  3
3      b                  2
4      b                  2
5      c                  1
6      d                  1
7      e                  3
8      e                  3
9      e                  3
10     f                  1
11     a                  1
12     c                  1
13     d                  2
14     d                  2

常见误区与不足

在尝试解决这个问题时，初学者可能会想到以下两种常见方法，但它们都无法满足“连续”计数的严格要求。

1. 使用 groupby().transform('count')

这种方法会计算每个类别在整个DataFrame中出现的总次数，而不是连续出现的次数。

df['total_count'] = df.groupby('class')['class'].transform('count')
print("\n使用 transform('count') 的结果:")
print(df)

结果：

使用 transform('count') 的结果:
   class  total_count
0      a            4
1      a            4
2      a            4
3      b            2
4      b            2
5      c            2
6      d            3
7      e            3
8      e            3
9      e            3
10     f            1
11     a            4
12     c            2
13     d            3
14     d            3

可以看到，'a'在整个数据集中出现了4次，所以所有'a'都被标记为4，这与我们期望的连续计数不符。

Audo Studio

AI音频清洗工具（噪音消除、声音平衡、音量调节）

下载

2. 使用 (df['class'] != df['class'].shift()).cumsum()

这种方法非常接近解决方案，它通过比较当前行与前一行是否相同来生成一个“组标识符”。当值发生变化时，!=会返回True，cumsum()会将True视为1，从而递增组标识符。这有效地为每个连续块创建了一个唯一的ID。

df['consecutive_group_id'] = (df['class'] != df['class'].shift()).cumsum()
print("\n使用 cumsum() 生成的连续组ID:")
print(df)

结果：

使用 cumsum() 生成的连续组ID:
   class  total_count  consecutive_group_id
0      a            4                     1
1      a            4                     1
2      a            4                     1
3      b            2                     2
4      b            2                     2
5      c            2                     3
6      d            3                     4
7      e            3                     5
8      e            3                     5
9      e            3                     5
10     f            1                     6
11     a            4                     7
12     c            2                     8
13     d            3                     9
14     d            3                     9

虽然consecutive_group_id成功地标识了每个连续块，但它本身并不是我们想要的计数。它只是一个组的编号。

最终解决方案：结合 groupby 与动态分组键

解决此问题的关键在于将上述第二种方法生成的连续组标识符作为 groupby 的一个分组键。这样，我们就可以同时根据 class 列的值和其所属的连续块来分组。

完整的解决方案代码如下：

# 重新初始化DataFrame以确保干净状态
data = {'class': ['a', 'a', 'a', 'b', 'b', 'c', 'd', 'e', 'e', 'e', 'f', 'a', 'c', 'd', 'd']}
df = pd.DataFrame(data)

# 生成连续块的动态分组键
# (df['class'] != df['class'].shift()) 会在连续值变化时生成True，否则为False
# .cumsum() 会将True累加为1，从而为每个连续块生成一个唯一的ID
group_key = (df['class'] != df['class'].shift()).cumsum()

# 使用 class 列和动态生成的 group_key 进行分组，并使用 transform('size') 获取每个组的大小
df['consecutive_count'] = df.groupby(['class', group_key]).transform('size')

print("\n最终结果:")
print(df)

最终输出：

最终结果:
   class  consecutive_count
0      a                  3
1      a                  3
2      a                  3
3      b                  2
4      b                  2
5      c                  1
6      d                  1
7      e                  3
8      e                  3
9      e                  3
10     f                  1
11     a                  1
12     c                  1
13     d                  2
14     d                  2

解决方案详解

df['class'].shift(): 这个操作会将class列的所有值向下移动一个位置。第一行的值会变为NaN。例如：['NaN', 'a', 'a', 'a', 'b', ...]
df['class'] != df['class'].shift(): 这个布尔表达式逐行比较当前class值与它前一个class值是否不同。如果不同（表示连续块的开始或变化），结果为True。如果相同，结果为False。对于第一行，由于df['class'].shift()为NaN，'a' != NaN通常会返回True，从而确保第一个连续块也能被正确识别。例如：[True, False, False, True, False, True, True, True, False, False, True, True, True, True, False]
.cumsum(): 对上一步生成的布尔序列进行累积求和。True被视为1，False被视为0。这样，每当连续值发生变化时（True），累积和就会增加1，从而为每个新的连续块分配一个唯一的整数ID。例如：[1, 1, 1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 8, 9, 9]
df.groupby(['class', group_key]): 这是核心步骤。我们现在使用两个键进行分组：
- 'class'：确保我们只在相同的类别中计数。
- group_key：确保我们只在连续的相同类别中计数。结合这两个键，groupby会为每个唯一的（类别，连续块ID）组合创建一个独立的组。例如，第一个'a'的连续块会是一个组，而后面的'a'的连续块会是另一个独立的组。
.transform('size'): 在groupby操作之后，transform('size')会计算每个组（即每个连续块）中的行数，并将这个结果广播回原始DataFrame的每一行，保持DataFrame的形状不变。 'size'用于计算组中的元素数量，而'count'用于计算组中非NaN元素的数量（通常用于特定列）。在这里，我们关心的是组的行数，因此'size'是更合适的选择。

注意事项与总结

处理初始NaN: df['class'].shift()在第一行会产生NaN。'a' != NaN的结果通常是True，这使得第一个元素也会被计入新的分组，符合我们的预期。
性能: 这种方法利用了Pandas的矢量化操作，对于大型数据集通常非常高效。
通用性: 这种动态分组键的技巧不仅可以用于计数，还可以结合其他聚合函数（如mean, sum, first, last等）来对连续块进行更复杂的分析。
适用场景: 适用于需要分析序列中连续模式的数据，例如时间序列数据中的连续事件、基因序列中的连续碱基等。

通过这种结合groupby和动态生成分组键的方法，我们能够优雅且高效地解决在Pandas DataFrame中统计连续行数的问题，极大地增强了数据处理的灵活性和能力。

Python 如何写出可测试的代码？

Python 中函数与方法的根本区别

sqlalchemy 如何写窗口函数 row_number() 实现分组排名

如何让一个异步函数既能被 await 也能直接调用

Python 断言失败信息如何设计更友好？