如何在Pandas DataFrame中高效查找和统计无序的对和三元组

聖光之護

发布时间：2025-08-11 20:44:01

529人浏览过

来源于php中文网

原创

如何在pandas dataframe中高效查找和统计无序的对和三元组

本教程详细介绍了如何在Pandas DataFrame中，针对特定分组（如Classification），识别并统计其中Individual列的无序组合（包括对和三元组）的出现频率。文章将通过itertools.combinations生成组合，结合Pandas的groupby、explode、value_counts和transform等功能，实现对组合的计数及其在各自分类内的相对百分比计算，提供清晰的代码示例和操作步骤，旨在帮助用户高效分析结构化数据中的模式。

正文

在数据分析中，我们经常需要从结构化数据中发现元素之间的关联模式。特别是在处理分类数据时，识别同一分类下不同个体（或元素）的无序组合（如对、三元组）及其出现频率，对于理解数据内在结构至关重要。本教程将以一个具体的Pandas DataFrame为例，详细讲解如何利用Python的itertools模块和Pandas库的功能，高效地实现这一目标。

环境准备与示例数据

首先，确保你已经安装了pandas库。我们将使用一个包含Classification和Individual两列的DataFrame作为示例数据。

import pandas as pd
from itertools import chain, combinations

# 示例数据
data = {
    'Classification': [1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5],
    'Individual': ['A', 'A', 'B', 'B', 'A', 'A', 'B', 'C', 'C', 'C', 'A', 'A', 'A', 'B', 'B', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'C', 'A', 'A', 'B', 'B', 'B']
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

核心概念：生成无序组合

要找到无序的对和三元组，我们需要使用itertools.combinations函数。这个函数能够从一个可迭代对象中生成指定长度的所有不重复的组合。例如，combinations(['A', 'B', 'C'], 2)会生成 ('A', 'B'), ('A', 'C'), ('B', 'C')。

为了能够灵活地生成所有长度大于等于2的组合（包括对、三元组等），我们可以定义一个辅助函数powerset。

def powerset(s):
    """
    生成一个集合中所有长度大于等于2的无序组合。
    组合以元组形式返回，且元组内部元素是排序的。
    """
    s = sorted(list(set(s))) # 先去重并排序，确保组合的唯一性和一致性
    return list(chain.from_iterable(combinations(s, r)
                                    for r in range(2, len(s) + 1))
               )

这个powerset函数首先对输入列表s进行去重并排序，以确保生成的组合是基于唯一元素的，并且组合内部的元素顺序是规范的（例如，('A', 'B')而不是('B', 'A')，尽管它们代表同一个无序对）。range(2, len(s) + 1)确保了我们生成所有长度从2开始到集合最大长度的组合。

分步实现指南

现在，我们将分步骤实现目标：

步骤1：按分类分组并生成所有组合

我们将根据Classification列对DataFrame进行分组，并对每个组内的Individual值应用powerset函数，生成该组内所有可能的无序组合。

# 按 'Classification' 分组，并对 'Individual' 列应用 powerset 函数
combinations_by_classification = df.groupby('Classification')['Individual'].agg(powerset)
print("\n步骤1：按分类分组并生成组合:")
print(combinations_by_classification)

这一步的结果是一个Series，其索引是Classification，值是该分类下所有组合的列表。

步骤2：展开组合列表

由于combinations_by_classification的每个元素是一个列表（包含多个组合元组），为了后续统计，我们需要将这些列表“展开”成独立的行。Pandas的explode()方法非常适合这个任务。

# 展开组合列表，每个组合占据一行
exploded_combinations = combinations_by_classification.explode()
print("\n步骤2：展开组合列表:")
print(exploded_combinations)

exploded_combinations现在是一个Series，其中每个组合元组都成为一个独立的行，并且保留了原始的Classification索引。

Artbreeder

创建令人惊叹的插画和艺术

下载

步骤3：统计各组合的出现次数

现在，exploded_combinations Series的每个值都是一个组合元组。我们可以直接对其应用value_counts()来统计每个唯一组合出现的总次数。

# 统计每个组合的总出现次数
combination_counts = exploded_combinations.value_counts()
print("\n步骤3：统计各组合的出现次数:")
print(combination_counts)

combination_counts是一个Series，索引是组合元组，值是它们的出现次数。

步骤4：合并计数结果

为了将统计的次数合并回我们的主结果DataFrame，我们将exploded_combinations重置索引，并使用merge()函数将combination_counts与它连接起来。

# 将展开的组合Series转换为DataFrame，并重命名列
result_df = exploded_combinations.reset_index(name='ValueSeries')

# 合并组合计数
result_df = result_df.merge(combination_counts.rename('TimesClassification'),
                            how='left',
                            left_on='ValueSeries',
                            right_index=True)
print("\n步骤4：合并计数结果:")
print(result_df)

此时，result_df包含了Classification、ValueSeries（组合）和TimesClassification（该组合的总出现次数）三列。

步骤5：计算分类内相对百分比

最后，我们需要计算每个组合在其所属Classification组内的相对百分比。这里，百分比定义为该组合的出现次数除以该Classification组内所有组合中出现次数的最大值。这可以通过groupby().transform('max')实现。

# 计算分类内的相对百分比
result_df['PercentageClassification'] = result_df['TimesClassification'] / \
                                      result_df.groupby('Classification')['TimesClassification'].transform('max')

print("\n最终结果DataFrame:")
print(result_df)

这一步完成了所有要求的计算，得到了最终的结果DataFrame。

完整示例代码

将上述所有步骤整合起来，形成一个完整的解决方案：

import pandas as pd
from itertools import chain, combinations

def powerset(s):
    """
    生成一个集合中所有长度大于等于2的无序组合。
    组合以元组形式返回，且元组内部元素是排序的。
    """
    s = sorted(list(set(s))) # 先去重并排序，确保组合的唯一性和一致性
    return list(chain.from_iterable(combinations(s, r)
                                    for r in range(2, len(s) + 1))
               )

# 示例数据
data = {
    'Classification': [1, 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5],
    'Individual': ['A', 'A', 'B', 'B', 'A', 'A', 'B', 'C', 'C', 'C', 'A', 'A', 'A', 'B', 'B', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C', 'C', 'C', 'A', 'A', 'B', 'B', 'B']
}
df = pd.DataFrame(data)

# 1. 按 'Classification' 分组，并对 'Individual' 列应用 powerset 函数
combinations_by_classification = df.groupby('Classification')['Individual'].agg(powerset)

# 2. 展开组合列表，每个组合占据一行
exploded_combinations = combinations_by_classification.explode()

# 3. 统计每个组合的总出现次数
combination_counts = exploded_combinations.value_counts()

# 4. 将展开的组合Series转换为DataFrame，并重命名列
result_df = exploded_combinations.reset_index(name='ValueSeries')

# 合并组合计数
result_df = result_df.merge(combination_counts.rename('TimesClassification'),
                            how='left',
                            left_on='ValueSeries',
                            right_index=True)

# 5. 计算分类内的相对百分比
result_df['PercentageClassification'] = result_df['TimesClassification'] / \
                                      result_df.groupby('Classification')['TimesClassification'].transform('max')

print(result_df)

注意事项与扩展

组合的长度控制： powerset函数目前会生成所有长度从2到集合最大长度的组合。如果只需要特定的长度（例如，仅对和三元组），可以修改powerset函数中的range：
```
def powerset_specific_lengths(s, min_len=2, max_len=3):
    s = sorted(list(set(s)))
    return list(chain.from_iterable(combinations(s, r)
                                    for r in range(min_len, min(max_len + 1, len(s) + 1)))
               )
```
然后将agg(powerset)替换为agg(lambda x: powerset_specific_lengths(x, 2, 3))。
性能考量：对于非常大的DataFrame，特别是当每个Classification组内Individual值的数量非常多时，powerset函数生成组合可能会消耗大量内存和计算资源。explode()操作也可能导致中间DataFrame的行数急剧增加。在处理大数据集时，需要评估性能瓶颈并考虑优化策略，例如分批处理或使用更优化的算法。
百分比的含义： PercentageClassification的计算方式是“该组合的出现次数”除以“其所属分类中出现次数最多的组合的次数”。这意味着百分比是相对于该分类内最常见的组合而言的，而不是相对于该分类下所有组合的总次数。根据实际分析需求，这个百分比的定义可能需要调整。例如，如果需要计算某个组合在该分类所有组合中的占比，则需要除以groupby('Classification')['TimesClassification'].transform('sum')。