Pandas数据处理:基于列表型列的跨DataFrame条件合并与最小值聚合

DDD
发布: 2025-09-26 10:55:12
原创
812人浏览过

Pandas数据处理:基于列表型列的跨DataFrame条件合并与最小值聚合

本教程详细阐述了如何在Pandas中处理复杂的DataFrame合并场景,特别是当一个DataFrame的匹配键是列表型列时。文章通过explode、merge和groupby等核心函数,演示了如何根据多重条件(包括列表成员关系)从另一个DataFrame中提取数据,并进行聚合(如计算最小值),最终将结果高效地整合回原始DataFrame。

在数据分析和处理过程中,我们经常会遇到需要从一个数据源(dataframe)中根据特定条件提取信息并填充到另一个数据源的情况。当这些条件涉及复杂的数据结构,例如列表型列作为匹配键时,传统的合并操作将不再适用。本文将针对此类场景,提供一个高效且专业的pandas解决方案,旨在从另一个dataframe中,基于列表型列的匹配和月份条件,提取并聚合(取最小值)所需的值。

问题场景描述

假设我们有两个Pandas DataFrame,df1 包含商店的销售值 (value) 和月份 (month),df2 包含一个商店列表 (store) 和月份 (month)。我们的目标是为 df2 添加一个 value 列,该列的值需要满足以下条件:

  1. df1 中的 month 必须与 df2 中的 month 匹配。
  2. df1 中的 store 必须是 df2 中 store 列表的成员。
  3. 如果一个 df2 行的 store 列表中包含多个 df1 中存在的商店,并且这些商店在对应月份都有值,我们需要取这些匹配值中的最小值。

示例数据:

import pandas as pd

data1 = {'store': [1, 1, 2, 2], 'value': [24, 28, 29, 0], 'month': [1, 2, 1, 2]}
df1 = pd.DataFrame(data1)

data2 = {'store': [[1, 2, 3], [2]], 'month': [1, 2]}
df2 = pd.DataFrame(data2)

print("df1:")
print(df1)
print("\ndf2:")
print(df2)
登录后复制

输出:

序列猴子开放平台
序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

序列猴子开放平台 0
查看详情 序列猴子开放平台
df1:
   store  value  month
0      1     24      1
1      1     28      2
2      2     29      1
3      2      0      2

df2:
       store  month
0  [1, 2, 3]      1
1        [2]      2
登录后复制

我们期望的输出结果是:

       store  month  value
0  [1, 2, 3]      1   24.0
1        [2]      2    0.0
登录后复制

其中,对于 df2 的第一行 ([1, 2, 3], 1),df1 中 store=1, month=1 对应 value=24;store=2, month=1 对应 value=29;store=3 在 month=1 时没有匹配值。因此,取 min(24, 29) 得到 24。对于 df2 的第二行 ([2], 2),df1 中 store=2, month=2 对应 value=0,因此结果为 0。

核心解决方案:使用 explode 展开列表

解决此类问题的关键在于处理 df2 中列表型的 store 列。Pandas 的 explode 函数能够将列表或类列表的条目转换为单独的行,从而使我们能够执行标准的合并操作。

步骤分解:

  1. 预处理 df1:聚合每个 (store, month) 的最小值 由于我们最终需要获取匹配值的最小值,且 df1 可能在同一 (store, month) 组合下有多个 value(尽管在此示例中没有,但这是一个良好的实践),或者更重要的是,为了后续合并时能直接获取每个 (store, month) 的最小有效值,我们首先对 df1 进行分组聚合,计算每个 (store, month) 组合的 value 最小值。

    df1_min_values = df1.groupby(['store', 'month'], as_index=False)['value'].min()
    print("\ndf1_min_values:")
    print(df1_min_values)
    登录后复制

    输出:

    df1_min_values:
       store  month  value
    0      1      1     24
    1      1      2     28
    2      2      1     29
    3      2      2      0
    登录后复制
  2. 展开 df2 的列表列并合并 接下来,我们使用 explode('store') 将 df2 中的 store 列表展开。为了在后续聚合时能追溯到原始 df2 的行,我们还需要在 explode 之前重置索引并保存原始索引。然后,我们将展开后的 df2 与预处理过的 df1_min_values 进行左连接 (how='left'),基于 store 和 month 列进行匹配。

    # 展开df2的store列,并保留原始索引
    df2_exploded = df2.explode('store').reset_index()
    
    # 将展开后的df2与df1的最小值进行合并
    merged_df = df2_exploded.merge(df1_min_values, on=['store', 'month'], how='left')
    
    print("\nmerged_df after explode and merge:")
    print(merged_df)
    登录后复制

    输出:

    merged_df after explode and merge:
       index  store  month  value
    0      0      1      1   24.0
    1      0      2      1   29.0
    2      0      3      1    NaN
    3      1      2      2    0.0
    登录后复制

    可以看到,原始 df2 的第一行(index=0)现在被分成了三行,分别对应 store 列表中的 1, 2, 3。store=3 在 df1 中没有匹配的 month=1 的值,因此 value 为 NaN。

  3. 重新聚合 value 到原始 df2 的行 现在 merged_df 包含了所有可能的匹配项。我们需要回到原始 df2 的结构,即为每行 df2 找到其 store 列表中所有匹配项的 value 最小值。这可以通过对 merged_df 按照原始索引 (index) 进行分组,并再次取 value 的最小值来实现。

    # 按原始索引重新分组,并取value的最小值
    final_values = merged_df.groupby('index')['value'].min()
    
    # 将最终的value列赋值回原始df2
    df2_final = df2.assign(value=final_values)
    
    print("\nFinal df2:")
    print(df2_final)
    登录后复制

    输出:

    Final df2:
       store  month  value
    0  [1, 2, 3]      1   24.0
    1        [2]      2    0.0
    登录后复制

    至此,我们成功地根据复杂条件从 df1 中提取并聚合了值,并将其添加到了 df2 中。

完整示例代码

将上述步骤整合到一起,完整的解决方案如下:

import pandas as pd

# 1. 准备数据
data1 = {'store': [1, 1, 2, 2], 'value': [24, 28, 29, 0], 'month': [1, 2, 1, 2]}
df1 = pd.DataFrame(data1)

data2 = {'store': [[1, 2, 3], [2]], 'month': [1, 2]}
df2 = pd.DataFrame(data2)

print("原始 df1:")
print(df1)
print("\n原始 df2:")
print(df2)

# 2. 预处理 df1:计算每个 (store, month) 的最小 value
df1_min_values = df1.groupby(['store', 'month'], as_index=False)['value'].min()

# 3. 展开 df2 的 'store' 列,并与预处理的 df1_min_values 合并
#    - reset_index() 用于保存原始行索引,以便后续重新聚合
#    - merge() 执行左连接,匹配 store 和 month
merged_exploded_df = df2.explode('store').reset_index().merge(
    df1_min_values, on=['store', 'month'], how='left'
)

# 4. 根据原始索引重新聚合,获取每个 df2 原始行的 value 最小值
#    - groupby('index') 针对原始 df2 的每一行进行分组
#    - min() 再次取最小值,处理了 df2 中 store 列表的多个匹配值
final_aggregated_values = merged_exploded_df.groupby('index')['value'].min()

# 5. 将聚合后的值添加回原始 df2
df2_result = df2.assign(value=final_aggregated_values)

print("\n最终结果 df2:")
print(df2_result)
登录后复制

注意事项

  • 性能开销: explode 操作会根据列表的长度复制行。如果列表非常长或 DataFrame 包含大量行,explode 可能会显著增加 DataFrame 的行数,从而导致内存消耗增加和计算时间延长。在处理大规模数据时,需要评估其性能影响。
  • 缺失值处理: 如果 explode 后合并的 store/month 组合在 df1 中不存在,合并后的 value 列将包含 NaN。在最终的 groupby().min() 操作中,NaN 会被忽略(除非所有值都是 NaN,此时结果为 NaN)。如果需要将 NaN 视为 0 或其他默认值,应在 final_aggregated_values 赋值前进行 fillna() 处理。
  • 数据类型一致性: 确保 df1.store 的数据类型与 df2.store 列表中元素的数据类型一致,以避免合并失败。
  • 聚合函数选择: 本例中业务需求是获取最小值 (min()),但根据实际情况,也可以替换为 max()、mean()、sum() 或其他自定义聚合函数。

总结

通过巧妙地结合使用 Pandas 的 explode()、merge() 和 groupby().min() 函数,我们能够有效地解决涉及列表型列的复杂跨 DataFrame 数据提取和聚合问题。这种方法不仅功能强大,而且在 Pandas 框架下具有良好的可读性和效率。理解并掌握这些高级数据操作技巧,对于进行复杂的数据清洗、转换和分析至关重要。

以上就是Pandas数据处理:基于列表型列的跨DataFrame条件合并与最小值聚合的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号