Pandas数据处理：基于列表型列的跨DataFrame条件合并与最小值聚合

DDD

发布时间：2025-09-26 10:55:12

826人浏览过

来源于php中文网

原创

Pandas数据处理：基于列表型列的跨DataFrame条件合并与最小值聚合

本教程详细阐述了如何在Pandas中处理复杂的DataFrame合并场景，特别是当一个DataFrame的匹配键是列表型列时。文章通过explode、merge和groupby等核心函数，演示了如何根据多重条件（包括列表成员关系）从另一个DataFrame中提取数据，并进行聚合（如计算最小值），最终将结果高效地整合回原始DataFrame。

在数据分析和处理过程中，我们经常会遇到需要从一个数据源（dataframe）中根据特定条件提取信息并填充到另一个数据源的情况。当这些条件涉及复杂的数据结构，例如列表型列作为匹配键时，传统的合并操作将不再适用。本文将针对此类场景，提供一个高效且专业的pandas解决方案，旨在从另一个dataframe中，基于列表型列的匹配和月份条件，提取并聚合（取最小值）所需的值。

问题场景描述

假设我们有两个Pandas DataFrame，df1 包含商店的销售值 (value) 和月份 (month)，df2 包含一个商店列表 (store) 和月份 (month)。我们的目标是为 df2 添加一个 value 列，该列的值需要满足以下条件：

df1 中的 month 必须与 df2 中的 month 匹配。
df1 中的 store 必须是 df2 中 store 列表的成员。
如果一个 df2 行的 store 列表中包含多个 df1 中存在的商店，并且这些商店在对应月份都有值，我们需要取这些匹配值中的最小值。

示例数据：

import pandas as pd

data1 = {'store': [1, 1, 2, 2], 'value': [24, 28, 29, 0], 'month': [1, 2, 1, 2]}
df1 = pd.DataFrame(data1)

data2 = {'store': [[1, 2, 3], [2]], 'month': [1, 2]}
df2 = pd.DataFrame(data2)

print("df1:")
print(df1)
print("\ndf2:")
print(df2)

输出：

拍我AI

AI视频生成平台PixVerse的国内版本

下载

df1:
   store  value  month
0      1     24      1
1      1     28      2
2      2     29      1
3      2      0      2

df2:
       store  month
0  [1, 2, 3]      1
1        [2]      2

我们期望的输出结果是：

       store  month  value
0  [1, 2, 3]      1   24.0
1        [2]      2    0.0

其中，对于 df2 的第一行 ([1, 2, 3], 1)，df1 中 store=1, month=1 对应 value=24；store=2, month=1 对应 value=29；store=3 在 month=1 时没有匹配值。因此，取 min(24, 29) 得到 24。对于 df2 的第二行 ([2], 2)，df1 中 store=2, month=2 对应 value=0，因此结果为 0。

核心解决方案：使用 explode 展开列表

解决此类问题的关键在于处理 df2 中列表型的 store 列。Pandas 的 explode 函数能够将列表或类列表的条目转换为单独的行，从而使我们能够执行标准的合并操作。

步骤分解：

预处理 df1：聚合每个 (store, month) 的最小值 由于我们最终需要获取匹配值的最小值，且 df1 可能在同一 (store, month) 组合下有多个 value（尽管在此示例中没有，但这是一个良好的实践），或者更重要的是，为了后续合并时能直接获取每个 (store, month) 的最小有效值，我们首先对 df1 进行分组聚合，计算每个 (store, month) 组合的 value 最小值。
```
df1_min_values = df1.groupby(['store', 'month'], as_index=False)['value'].min()
print("\ndf1_min_values:")
print(df1_min_values)
```
输出：
```
df1_min_values:
   store  month  value
0      1      1     24
1      1      2     28
2      2      1     29
3      2      2      0
```
展开 df2 的列表列并合并 接下来，我们使用 explode('store') 将 df2 中的 store 列表展开。为了在后续聚合时能追溯到原始 df2 的行，我们还需要在 explode 之前重置索引并保存原始索引。然后，我们将展开后的 df2 与预处理过的 df1_min_values 进行左连接 (how='left')，基于 store 和 month 列进行匹配。
```
# 展开df2的store列，并保留原始索引
df2_exploded = df2.explode('store').reset_index()

# 将展开后的df2与df1的最小值进行合并
merged_df = df2_exploded.merge(df1_min_values, on=['store', 'month'], how='left')

print("\nmerged_df after explode and merge:")
print(merged_df)
```
输出：
```
merged_df after explode and merge:
   index  store  month  value
0      0      1      1   24.0
1      0      2      1   29.0
2      0      3      1    NaN
3      1      2      2    0.0
```
可以看到，原始 df2 的第一行（index=0）现在被分成了三行，分别对应 store 列表中的 1, 2, 3。store=3 在 df1 中没有匹配的 month=1 的值，因此 value 为 NaN。
重新聚合 value 到原始 df2 的行 现在 merged_df 包含了所有可能的匹配项。我们需要回到原始 df2 的结构，即为每行 df2 找到其 store 列表中所有匹配项的 value 最小值。这可以通过对 merged_df 按照原始索引 (index) 进行分组，并再次取 value 的最小值来实现。
```
# 按原始索引重新分组，并取value的最小值
final_values = merged_df.groupby('index')['value'].min()

# 将最终的value列赋值回原始df2
df2_final = df2.assign(value=final_values)

print("\nFinal df2:")
print(df2_final)
```
输出：
```
Final df2:
   store  month  value
0  [1, 2, 3]      1   24.0
1        [2]      2    0.0
```
至此，我们成功地根据复杂条件从 df1 中提取并聚合了值，并将其添加到了 df2 中。

完整示例代码

将上述步骤整合到一起，完整的解决方案如下：

import pandas as pd

# 1. 准备数据
data1 = {'store': [1, 1, 2, 2], 'value': [24, 28, 29, 0], 'month': [1, 2, 1, 2]}
df1 = pd.DataFrame(data1)

data2 = {'store': [[1, 2, 3], [2]], 'month': [1, 2]}
df2 = pd.DataFrame(data2)

print("原始 df1:")
print(df1)
print("\n原始 df2:")
print(df2)

# 2. 预处理 df1：计算每个 (store, month) 的最小 value
df1_min_values = df1.groupby(['store', 'month'], as_index=False)['value'].min()

# 3. 展开 df2 的 'store' 列，并与预处理的 df1_min_values 合并
#    - reset_index() 用于保存原始行索引，以便后续重新聚合
#    - merge() 执行左连接，匹配 store 和 month
merged_exploded_df = df2.explode('store').reset_index().merge(
    df1_min_values, on=['store', 'month'], how='left'
)

# 4. 根据原始索引重新聚合，获取每个 df2 原始行的 value 最小值
#    - groupby('index') 针对原始 df2 的每一行进行分组
#    - min() 再次取最小值，处理了 df2 中 store 列表的多个匹配值
final_aggregated_values = merged_exploded_df.groupby('index')['value'].min()

# 5. 将聚合后的值添加回原始 df2
df2_result = df2.assign(value=final_aggregated_values)

print("\n最终结果 df2:")
print(df2_result)

注意事项

性能开销： explode 操作会根据列表的长度复制行。如果列表非常长或 DataFrame 包含大量行，explode 可能会显著增加 DataFrame 的行数，从而导致内存消耗增加和计算时间延长。在处理大规模数据时，需要评估其性能影响。
缺失值处理： 如果 explode 后合并的 store/month 组合在 df1 中不存在，合并后的 value 列将包含 NaN。在最终的 groupby().min() 操作中，NaN 会被忽略（除非所有值都是 NaN，此时结果为 NaN）。如果需要将 NaN 视为 0 或其他默认值，应在 final_aggregated_values 赋值前进行 fillna() 处理。
数据类型一致性： 确保 df1.store 的数据类型与 df2.store 列表中元素的数据类型一致，以避免合并失败。
聚合函数选择： 本例中业务需求是获取最小值 (min())，但根据实际情况，也可以替换为 max()、mean()、sum() 或其他自定义聚合函数。

总结

通过巧妙地结合使用 Pandas 的 explode()、merge() 和 groupby().min() 函数，我们能够有效地解决涉及列表型列的复杂跨 DataFrame 数据提取和聚合问题。这种方法不仅功能强大，而且在 Pandas 框架下具有良好的可读性和效率。理解并掌握这些高级数据操作技巧，对于进行复杂的数据清洗、转换和分析至关重要。

类的方法如何变成可删除的属性（@property+ deleter）

getattr 如何区分是属性访问还是方法调用

如何批量请求多个 URL 并合并结果为 CSV 文件

Python 函数过长时如何拆分？

如何合法合规地获取 LoopNet 商业地产数据：爬虫风险警示与替代方案指南

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

306

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

222

2025.10.31

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

536

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06