
在数据分析和处理过程中,我们经常会遇到需要从一个数据源(dataframe)中根据特定条件提取信息并填充到另一个数据源的情况。当这些条件涉及复杂的数据结构,例如列表型列作为匹配键时,传统的合并操作将不再适用。本文将针对此类场景,提供一个高效且专业的pandas解决方案,旨在从另一个dataframe中,基于列表型列的匹配和月份条件,提取并聚合(取最小值)所需的值。
假设我们有两个Pandas DataFrame,df1 包含商店的销售值 (value) 和月份 (month),df2 包含一个商店列表 (store) 和月份 (month)。我们的目标是为 df2 添加一个 value 列,该列的值需要满足以下条件:
示例数据:
import pandas as pd
data1 = {'store': [1, 1, 2, 2], 'value': [24, 28, 29, 0], 'month': [1, 2, 1, 2]}
df1 = pd.DataFrame(data1)
data2 = {'store': [[1, 2, 3], [2]], 'month': [1, 2]}
df2 = pd.DataFrame(data2)
print("df1:")
print(df1)
print("\ndf2:")
print(df2)输出:
df1:
store value month
0 1 24 1
1 1 28 2
2 2 29 1
3 2 0 2
df2:
store month
0 [1, 2, 3] 1
1 [2] 2我们期望的输出结果是:
store month value 0 [1, 2, 3] 1 24.0 1 [2] 2 0.0
其中,对于 df2 的第一行 ([1, 2, 3], 1),df1 中 store=1, month=1 对应 value=24;store=2, month=1 对应 value=29;store=3 在 month=1 时没有匹配值。因此,取 min(24, 29) 得到 24。对于 df2 的第二行 ([2], 2),df1 中 store=2, month=2 对应 value=0,因此结果为 0。
解决此类问题的关键在于处理 df2 中列表型的 store 列。Pandas 的 explode 函数能够将列表或类列表的条目转换为单独的行,从而使我们能够执行标准的合并操作。
步骤分解:
预处理 df1:聚合每个 (store, month) 的最小值 由于我们最终需要获取匹配值的最小值,且 df1 可能在同一 (store, month) 组合下有多个 value(尽管在此示例中没有,但这是一个良好的实践),或者更重要的是,为了后续合并时能直接获取每个 (store, month) 的最小有效值,我们首先对 df1 进行分组聚合,计算每个 (store, month) 组合的 value 最小值。
df1_min_values = df1.groupby(['store', 'month'], as_index=False)['value'].min()
print("\ndf1_min_values:")
print(df1_min_values)输出:
df1_min_values: store month value 0 1 1 24 1 1 2 28 2 2 1 29 3 2 2 0
展开 df2 的列表列并合并 接下来,我们使用 explode('store') 将 df2 中的 store 列表展开。为了在后续聚合时能追溯到原始 df2 的行,我们还需要在 explode 之前重置索引并保存原始索引。然后,我们将展开后的 df2 与预处理过的 df1_min_values 进行左连接 (how='left'),基于 store 和 month 列进行匹配。
# 展开df2的store列,并保留原始索引
df2_exploded = df2.explode('store').reset_index()
# 将展开后的df2与df1的最小值进行合并
merged_df = df2_exploded.merge(df1_min_values, on=['store', 'month'], how='left')
print("\nmerged_df after explode and merge:")
print(merged_df)输出:
merged_df after explode and merge: index store month value 0 0 1 1 24.0 1 0 2 1 29.0 2 0 3 1 NaN 3 1 2 2 0.0
可以看到,原始 df2 的第一行(index=0)现在被分成了三行,分别对应 store 列表中的 1, 2, 3。store=3 在 df1 中没有匹配的 month=1 的值,因此 value 为 NaN。
重新聚合 value 到原始 df2 的行 现在 merged_df 包含了所有可能的匹配项。我们需要回到原始 df2 的结构,即为每行 df2 找到其 store 列表中所有匹配项的 value 最小值。这可以通过对 merged_df 按照原始索引 (index) 进行分组,并再次取 value 的最小值来实现。
# 按原始索引重新分组,并取value的最小值
final_values = merged_df.groupby('index')['value'].min()
# 将最终的value列赋值回原始df2
df2_final = df2.assign(value=final_values)
print("\nFinal df2:")
print(df2_final)输出:
Final df2: store month value 0 [1, 2, 3] 1 24.0 1 [2] 2 0.0
至此,我们成功地根据复杂条件从 df1 中提取并聚合了值,并将其添加到了 df2 中。
将上述步骤整合到一起,完整的解决方案如下:
import pandas as pd
# 1. 准备数据
data1 = {'store': [1, 1, 2, 2], 'value': [24, 28, 29, 0], 'month': [1, 2, 1, 2]}
df1 = pd.DataFrame(data1)
data2 = {'store': [[1, 2, 3], [2]], 'month': [1, 2]}
df2 = pd.DataFrame(data2)
print("原始 df1:")
print(df1)
print("\n原始 df2:")
print(df2)
# 2. 预处理 df1:计算每个 (store, month) 的最小 value
df1_min_values = df1.groupby(['store', 'month'], as_index=False)['value'].min()
# 3. 展开 df2 的 'store' 列,并与预处理的 df1_min_values 合并
# - reset_index() 用于保存原始行索引,以便后续重新聚合
# - merge() 执行左连接,匹配 store 和 month
merged_exploded_df = df2.explode('store').reset_index().merge(
df1_min_values, on=['store', 'month'], how='left'
)
# 4. 根据原始索引重新聚合,获取每个 df2 原始行的 value 最小值
# - groupby('index') 针对原始 df2 的每一行进行分组
# - min() 再次取最小值,处理了 df2 中 store 列表的多个匹配值
final_aggregated_values = merged_exploded_df.groupby('index')['value'].min()
# 5. 将聚合后的值添加回原始 df2
df2_result = df2.assign(value=final_aggregated_values)
print("\n最终结果 df2:")
print(df2_result)通过巧妙地结合使用 Pandas 的 explode()、merge() 和 groupby().min() 函数,我们能够有效地解决涉及列表型列的复杂跨 DataFrame 数据提取和聚合问题。这种方法不仅功能强大,而且在 Pandas 框架下具有良好的可读性和效率。理解并掌握这些高级数据操作技巧,对于进行复杂的数据清洗、转换和分析至关重要。
以上就是Pandas数据处理:基于列表型列的跨DataFrame条件合并与最小值聚合的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号