高效处理Pandas DataFrame中基于键匹配与频率的数据拆分

霞舞

发布时间：2025-10-10 11:46:29

525人浏览过

来源于php中文网

原创

高效处理pandas dataframe中基于键匹配与频率的数据拆分

本教程详细介绍了如何在Pandas DataFrames中，根据一个DataFrame中键的出现频率，将另一个DataFrame中对应键的值进行拆分和分配。通过结合使用merge、value_counts和元素级除法，我们能够高效地将源数据按比例映射到目标数据结构中，从而解决数据重构和分配的常见问题。

引言与问题描述

在数据处理和分析中，我们经常会遇到需要根据特定条件重新分配或拆分数据集中的数值的情况。一个常见的场景是，我们有两个Pandas DataFrame：一个包含重复的键（例如产品ID、用户ID等），另一个包含这些键的唯一实例及其关联的数值数据。我们的目标是创建一个新的DataFrame，其中第二个DataFrame中的数值被“拆分”并分配给第一个DataFrame中每个匹配的键，拆分的依据是该键在第一个DataFrame中出现的次数。

例如，假设我们有以下两个DataFrame：

DataFrame 1 (df1): 包含重复的ID

id
A
B
A
C
A
A
C

DataFrame 2 (df2): 包含唯一ID及其关联的数值

id	Col1	Col2	Col3
A	400	100	20
B	200		800
C	600	800

我们的目标是生成一个输出DataFrame，其中df2中Col1, Col2, Col3的值被其对应id在df1中出现的次数所除，然后合并到df1的结构中。

期望输出示例:

id	Col1	Col2	Col3
A	100	25	5
B	200		800
A	100	25	5
C	300	400
A	100	25	5
A	100	25	5
C	300	400

解决方案：基于频率的数值拆分与合并

解决此问题的核心思路是：

计算第一个DataFrame中每个键的出现频率。
使用这些频率对第二个DataFrame中对应的数值进行标准化（即除以频率）。
将标准化后的第二个DataFrame与第一个DataFrame进行合并。

我们将使用Pandas库中的value_counts()、div()和merge()等函数来实现这一目标。

1. 准备示例数据

首先，我们创建上述示例中的df1和df2：

import pandas as pd
import numpy as np

# DataFrame 1
data1 = {'id': ['A', 'B', 'A', 'C', 'A', 'A', 'C']}
df1 = pd.DataFrame(data1)

# DataFrame 2
data2 = {'id': ['A', 'B', 'C'],
         'Col1': [400, 200, 600],
         'Col2': [100, np.nan, 800],
         'Col3': [20, 800, np.nan]}
df2 = pd.DataFrame(data2)

print("DataFrame 1 (df1):")
print(df1)
print("\nDataFrame 2 (df2):")
print(df2)

2. 计算键的出现频率

我们需要知道df1中每个id出现的次数。这可以通过value_counts()方法轻松实现：

小蓝本

ToB智能销售增长平台

下载

id_counts = df1['id'].value_counts()
print("\nID Counts from df1:")
print(id_counts)
# 输出示例:
# A    4
# C    2
# B    1
# Name: id, dtype: int64

id_counts现在是一个Series，其索引是id值，值是它们在df1中出现的次数。

3. 标准化 df2 中的数值

接下来，我们将df2中的Col1, Col2, Col3列的值除以对应的id在df1中出现的频率。为了正确对齐，我们需要将df2的id列设置为索引，然后进行除法操作。

# 将df2的id列设为索引，以便与id_counts对齐
df2_indexed = df2.set_index('id')

# 使用div()方法进行除法操作，axis=0表示按行（即按索引）进行除法
# Pandas会自动根据索引匹配id_counts中的值进行除法
df2_standardized = df2_indexed.div(id_counts, axis=0)

print("\nStandardized DataFrame 2 (df2_standardized):")
print(df2_standardized)
# 输出示例:
#      Col1   Col2   Col3
# id                     
# A   100.0   25.0    5.0
# B   200.0    NaN  800.0
# C   300.0  400.0    NaN

注意，Col2和Col3中的NaN值在除法后仍然保持为NaN，这是符合预期的行为。

4. 合并 DataFrames

现在，我们有了标准化后的df2_standardized，可以将其与原始的df1进行合并。为了保持df1的原始顺序和索引，我们可以在合并前先将df1的当前索引保存为一个临时列，合并后再恢复。

# 保存df1的原始索引，以便后续恢复
df1_temp = df1.reset_index()

# 使用merge进行左连接，on='id'表示根据id列进行匹配
# df2_standardized的索引是id，会自动与df1_temp的id列匹配
output_df = df1_temp.merge(df2_standardized, on='id', how='left')

# 恢复df1的原始索引和顺序
output_df = output_df.set_index('index').reindex(df1.index)

print("\nFinal Output DataFrame:")
print(output_df)

完整代码示例:

将上述步骤整合到一起，得到最终的解决方案代码：

import pandas as pd
import numpy as np

# 1. 准备示例数据
data1 = {'id': ['A', 'B', 'A', 'C', 'A', 'A', 'C']}
df1 = pd.DataFrame(data1)

data2 = {'id': ['A', 'B', 'C'],
         'Col1': [400, 200, 600],
         'Col2': [100, np.nan, 800],
         'Col3': [20, 800, np.nan]}
df2 = pd.DataFrame(data2)

# 2. 计算df1中id的出现频率
id_counts = df1['id'].value_counts()

# 3. 标准化df2中的数值：将df2的id列设为索引，然后除以频率
#    axis=0确保按行（即按id）进行除法
df2_standardized = df2.set_index('id').div(id_counts, axis=0)

# 4. 合并DataFrames并恢复原始索引
#    a. reset_index()保存df1的原始索引
#    b. merge()进行左连接，将标准化后的数据合并到df1的结构中
#    c. set_index()和reindex()恢复df1的原始索引和顺序
out = (df1.reset_index()
          .merge(df2_standardized, on='id', how='left')
          .set_index('index').reindex(df1.index)
      )

print(out)

输出结果:

  id   Col1   Col2   Col3
0  A  100.0   25.0    5.0
1  B  200.0    NaN  800.0
2  A  100.0   25.0    5.0
3  C  300.0  400.0    NaN
4  A  100.0   25.0    5.0
5  A  100.0   25.0    5.0
6  C  300.0  400.0    NaN

注意事项与总结

索引管理: 在进行merge操作时，尤其当需要保持原始DataFrame的行顺序时，reset_index()和set_index().reindex()的组合非常有用。reset_index()将当前索引转换为一个普通列，merge完成后，set_index()将该列重新设为索引，而reindex(df1.index)则确保了最终DataFrame的行顺序与原始df1完全一致。
数据类型: 除法操作通常会将整数类型转换为浮点数类型，以处理可能的小数结果。这是Pandas的默认行为，也是合理的。
缺失值处理: 如果df2中存在NaN值，或者某个id在df1中出现但在df2中没有对应行，合并后将自然地产生NaN值。这通常是期望的行为，但如果需要，可以使用fillna()等方法进行后续处理。
性能: 对于大型数据集，这种基于Pandas内置函数的操作通常比手动循环迭代更高效。value_counts()、div()和merge()都经过优化，能够处理大量数据。
灵活性: 这种方法不仅限于简单的数值拆分，也可以扩展到更复杂的场景，例如根据不同权重进行分配，只需调整div()操作前的计算逻辑即可。

通过以上步骤，我们成功地解决了根据键匹配和频率拆分DataFrame数值的问题，提供了一个清晰、高效且易于理解的Pandas解决方案。

如何修复 Tkinter 窗口不显示标题和控件的问题

PythonAI入门到进阶教程_完整成长路径解析

Tkinter窗口不更新？检查__init__方法拼写是否正确

如何在Python中正确合并多个CSV文件并动态添加列

python3有serial库吗

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

299

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

222

2025.10.31

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

533

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06