从包含列表列的DataFrame中提取并聚合数据

碧海醫心

发布时间：2025-09-26 08:30:02

554人浏览过

来源于php中文网

原创

从包含列表列的DataFrame中提取并聚合数据

本教程旨在解决如何从一个DataFrame中，根据另一个DataFrame中包含列表的列进行条件匹配，并提取符合条件的最小值。文章将详细介绍如何利用Pandas的explode、merge和groupby等功能，高效处理列表型数据匹配，并聚合出期望的最小值，最终生成一个结构清晰、易于理解的解决方案。

场景描述

在数据分析和处理中，我们经常会遇到需要从一个数据源（例如，包含详细交易记录的dataframe df1）中，根据另一个数据源（例如，包含分组或汇总信息，且其关键匹配列包含列表的dataframe df2）来提取或聚合数据的情况。具体来说，我们的目标是从 df1 中获取 value 值，并将其添加到 df2 中，匹配条件如下：

df1 的 month 列必须与 df2 的 month 列匹配。
df1 的 store 列的值必须包含在 df2 的 store 列（这是一个列表）中。
如果存在多个匹配项，我们需要获取所有匹配 value 中的最小值。

这带来了一个挑战，因为 df2 的 store 列是一个列表，无法直接进行标准的数据框合并操作。

数据准备

为了演示此过程，我们首先创建两个示例DataFrame：df1 包含商店、值和月份的详细记录，而 df2 包含商店列表和月份，我们希望向 df2 添加聚合后的 value 列。

import pandas as pd

# DataFrame 1: 详细数据
data1 = {'store': [1, 1, 2, 2], 'value': [24, 28, 29, 0], 'month': [1, 2, 1, 2]}
df1 = pd.DataFrame(data1)

# DataFrame 2: 包含列表的匹配数据
data2 = {'store': [[1, 2, 3], [2]], 'month': [1, 2]}
df2 = pd.DataFrame(data2)

print("df1:")
print(df1)
print("\ndf2:")
print(df2)

输出：

SecLists

SecLists是最终安全测试人员的伙伴。它是一个包含各种类型列表的集合，这些列表在安全评估过程中经常使用，都在一个地方。SecLists通过方便地提供安全测试人员可能需要的所有列表，帮助提高安全测试的效率和生产力。列表类型包括用户名、密码、URL、模糊测试有效载荷、敏感数据模式、Web shell等等。测试人员只需将此存储库拉到新的测试机上，他就可以访问到所需的每种类型的列表。

下载

df1:
   store  value  month
0      1     24      1
1      1     28      2
2      2     29      1
3      2      0      2

df2:
       store  month
0  [1, 2, 3]      1
1        [2]      2

我们期望的最终结果是 df2 添加一个 value 列，其中：

对于 df2 的第一行 ([1, 2, 3], 1)：
- df1 中 (store=1, month=1) 对应的 value 是 24。
- df1 中 (store=2, month=1) 对应的 value 是 29。
- df1 中 (store=3, month=1) 没有匹配项。
- 在 24 和 29 中取最小值，结果为 24。
对于 df2 的第二行 ([2], 2)：
- df1 中 (store=2, month=2) 对应的 value 是 0。
- 结果为 0。

核心挑战与解决方案

直接将 df2 与 df1 合并是不可行的，因为 df2['store'] 列包含的是列表，而不是单个值。解决此问题的关键在于使用 Pandas 的 explode() 方法。explode() 可以将列表或类列表的条目转换为单独的行，从而使我们能够进行标准化的合并操作。

具体步骤如下：

预处理 df1： 为了确保我们总是获取每个 (store, month) 组合的最小值，我们首先对 df1 进行分组并计算 value 的最小值。
展开 df2 的列表列： 使用 explode('store') 将 df2 的 store 列中的每个列表元素展开成单独的行。在展开过程中，我们需要保留原始行的索引，以便后续聚合。
合并数据： 将展开后的 df2 与预处理后的 df1 进行左连接合并。
聚合结果： 合并后，对于 df2 的每个原始行（通过保留的索引识别），我们需要再次聚合 value 列，以获取其所有匹配项中的最小值。
整合回 df2： 将最终聚合得到的最小值添加回原始的 df2。

详细实现步骤

1. 预处理 df1：计算每个 (store, month) 的最小值

这一步是为了确保 df1 中每个 (store, month) 组合只有一个 value，且是最小值。这在 df1 可能有重复 (store, month) 但 value 不同的情况下尤其重要。

df1_min_values = df1.groupby(['store', 'month'], as_index=False)['value'].min()
print("df1_min_values:")
print(df1_min_values)

输出：

df1_min_values:
   store  month  value
0      1      1     24
1      1      2     28
2      2      1     29
3      2      2      0

2. 展开 df2 的列表列

使用 explode('store') 将 df2 的 store 列中的列表展开。为了在后续步骤中能将结果正确地映射回原始 df2 的行，我们还需要使用 reset_index() 来获取原始的行索引。

exploded_df2 = df2.explode('store').reset_index()
print("\nexploded_df2:")
print(exploded_df2)

输出：

exploded_df2:
   index  store  month
0      0      1      1
1      0      2      1
2      0      3      1
3      1      2      2

可以看到，df2 的第一行（index=0）被展开成了三行，分别对应 store 列表中的 1, 2, 3，并且 month 和 index 列的值被复制。

3. 合并与聚合

现在，我们可以将 exploded_df2 与 df1_min_values 进行左连接合并。合并后，我们将得到一个包含所有可能匹配项的DataFrame。然后，我们按原始 df2 的索引 (index 列) 进行分组，并计算 value 的最小值。

merged_exploded = exploded_df2.merge(df1_min_values, on=['store', 'month'], how='left')
print("\nmerged_exploded after merge:")
print(merged_exploded)

final_min_values = merged_exploded.groupby('index')['value'].min()
print("\nfinal_min_values after groupby min:")
print(final_min_values)

输出：

merged_exploded after merge:
   index  store  month  value
0      0      1      1   24.0
1      0      2      1   29.0
2      0      0      3      1    NaN  # store 3, month 1 has no match in df1_min_values
3      1      2      2    0.0

final_min_values after groupby min:
index
0    24.0
1     0.0
Name: value, dtype: float64

注意，store=3, month=1 在 df1_min_values 中没有匹配项，因此其 value 为 NaN。groupby('index')['value'].min() 会自动忽略 NaN 值，只对有效数字进行最小值计算。

4. 整合回 df2

最后一步是将计算出的 final_min_values 赋值给原始的 df2。

df2_result = df2.assign(value=final_min_values)
print("\n最终结果 df2_result:")
print(df2_result)

输出：

最终结果 df2_result:
       store  month  value
0  [1, 2, 3]      1   24.0
1        [2]      2    0.0

这与我们期望的结果完全一致。

完整代码示例

import pandas as pd

# 原始数据
data1 = {'store': [1, 1, 2, 2], 'value': [24, 28, 29, 0], 'month': [1, 2, 1, 2]}
data2 = {'store': [[1, 2, 3], [2]], 'month': [1, 2]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# 1. 预处理 df1，计算每个 (store, month) 的最小值
df1_min_values = df1.groupby(['store', 'month'], as_index=False)['value'].min()

# 2. 展开 df2 的 'store' 列，并保留原始索引
exploded_df2 = df2.explode('store').reset_index()

# 3. 合并展开后的 df2 与预处理的 df1，然后按原始索引聚合求最小值
s = exploded_df2.merge(df1_min_values, on=['store', 'month'], how='left') \
                .groupby('index')['value'].min()

# 4. 将结果赋值回原始 df2
df2_final = df2.assign(value=s)

print("最终的 df2:")
print(df2_final)

注意事项

性能考量： explode() 操作会增加DataFrame的行数。如果原始DataFrame df2 很大，并且其列表列中的元素数量非常多，explode() 可能会导致内存消耗增加和性能下降。在这种情况下，可能需要考虑其他方法，例如使用 apply 函数结合列表推导或并行处理，但通常 explode 是更优的 Pandas 解决方案。
NaN 处理： 在合并过程中，如果 df2 展开后的行在 df1_min_values 中没有匹配项，则 value 列将包含 NaN。groupby().min() 方法会自动忽略 NaN 值。如果希望将未匹配项的 value 设为特定值（例如 0），可以在 assign 之前使用 fillna(0)。
数据类型： value 列在合并后可能会因为包含 NaN 而转换为浮点类型。如果需要整数类型，可以在 fillna 后使用 astype(int)。

总结

本教程展示了如何利用 Pandas 强大的数据处理能力，通过 explode()、merge() 和 groupby() 等操作，有效地解决涉及列表列的复杂数据匹配和聚合问题。这种方法不仅能够处理一对多关系中的匹配，还能在匹配成功后进行灵活的聚合（如本例中的求最小值），是处理复杂数据结构时非常实用的技巧。掌握这些技术将大大提高你在数据清洗和特征工程中的效率。

Flask模板中正确使用url_for生成路由链接的教程

PythonFlask系统学习路线第266讲_核心原理与实战案例详解【技巧】

Python FastAPI依赖注入_Python FastAPI依赖注入系统如何简化代码

python如何处理掉12306的验证码

Python爬虫实现APP接口抓取与反调试对抗的关键技术【技巧】