Pandas教程：高效更新DataFrame子集行值的方法详解

心靈之曲

发布时间：2025-09-30 14:51:00

564人浏览过

来源于php中文网

原创

Pandas教程：高效更新DataFrame子集行值的方法详解

本教程详细探讨了如何在Pandas DataFrame中根据另一个DataFrame的匹配条件，高效地更新特定列的子集行值。文章分析了常见的错误操作及其原因，并提供了两种专业且推荐的解决方案：利用merge与combine_first组合操作，以及通过merge、reset_index与fillna实现原地更新，确保数据更新的准确性和效率。

在数据分析和处理中，我们经常需要根据一个dataframe中的数据来更新另一个dataframe中的特定行和列。例如，我们可能有一个主数据集df1，以及一个包含更新值和匹配键的辅助数据集df2。目标是根据df2中存在的键来更新df1中对应行的某一列，同时保留df1中不匹配行的原始值。

考虑以下两个Pandas DataFrame：

import pandas as pd

df1 = pd.DataFrame({'a':(1,2,3,4),'b':(10,20,30,40),'c':(100,200,300,400)})
df2 = pd.DataFrame({'a':(1,2,3),'b':(10,20,30),'c':(1111,2222,3333)})

print("df1:\n", df1)
print("\ndf2:\n", df2)

输出：

Audo Studio

AI音频清洗工具（噪音消除、声音平衡、音量调节）

下载

df1:
   a   b    c
0  1  10  100
1  2  20  200
2  3  30  300
3  4  40  400

df2:
   a   b     c
0  1  10  1111
1  2  20  2222
2  3  30  3333

我们的目标是根据df2中'a'和'b'列的组合，更新df1中对应行的'c'列值。对于df1中那些在df2中找不到匹配的行，其'c'列应保持不变。期望的df1结果如下：

   a   b     c
0  1  10  1111
1  2  20  2222
2  3  30  3333
3  4  40   400

理解常见的错误操作

许多初学者可能会尝试使用链式索引和set_index来解决这个问题，例如：

# 错误尝试
df1.set_index(['a', 'b']).loc[df2.set_index(['a', 'b']).index, 'c'] = df2.c
print("错误尝试后的df1:\n", df1)

这种尝试的输出结果会是原始的df1，没有任何改变：

错误尝试后的df1:
   a   b    c
0  1  10  100
1  2  20  200
2  3  30  300
3  4  40  400

原因分析： 这种操作失败的原因在于df1.set_index(['a', 'b'])会创建一个新的DataFrame（或其副本），而不是返回原始df1的视图。因此，对这个新创建的DataFrame进行的赋值操作，并不会反映到原始的df1上。这是Pandas中一个常见的“链式赋值”问题，通常会导致预期的修改丢失。

解决方案一：使用 merge 和 combine_first 组合操作

当需要生成一个新的DataFrame作为更新结果，或者df1具有默认的整数范围索引时，merge与combine_first的组合是一种简洁而有效的方法。

原理：

首先，我们通过df1[['a', 'b']].merge(df2, on=['a', 'b'], how='left')将df1的键列与df2进行左连接。这将把df2中匹配行的'c'列值引入，不匹配的行在新的'c'列（来自df2）中将显示为NaN。
然后，使用combine_first(df1)将合并结果中NaN的位置用df1的原始值进行填充。这确保了在df2中没有匹配的行会保留df1的原始'c'值。

# 解决方案一：使用 merge 和 combine_first
# 注意：此方法会创建一个新的DataFrame作为结果
out_df = df1[['a', 'b']].merge(df2, on=['a', 'b'], how='left').combine_first(df1)
print("使用merge和combine_first后的结果:\n", out_df)

输出：

使用merge和combine_first后的结果:
   a   b       c
0  1  10  1111.0
1  2  20  2222.0
2  3  30  3333.0
3  4  40   400.0

注意事项：

此方法会生成一个新的DataFrame，如果需要原地修改df1，则需要将结果重新赋值给df1。
合并后的'c'列类型可能会变为浮点型（例如1111.0），因为NaN值只能存在于浮点类型中。如果需要整数类型，可能需要后续进行类型转换。

解决方案二：实现原地更新与任意索引处理

当需要直接在df1上进行原地修改，或者df1具有非默认索引时，可以采用merge、reset_index、set_index和fillna的组合。

原理：

为了在merge操作后能正确地将结果对齐回df1的原始索引，我们首先将df1的索引通过reset_index()转换为一个普通列（通常命名为'index'）。
将df1的键列（'a', 'b'）与df2进行左连接，获取df2中匹配行的'c'值。
将合并结果的索引重新设置为原始df1的索引（通过set_index('index')）。
使用fillna(df1['c'])将合并结果中因不匹配而产生的NaN值，替换回df1原始的'c'列值。
最后，将处理后的新列赋值回df1的'c'列，实现原地更新。

# 解决方案二：实现原地更新
# 为了避免链式赋值问题，我们创建一个新的列，然后将其赋值回df1的'c'列
df1['c'] = (df1[['a', 'b']].reset_index()
            .merge(df2, on=['a', 'b'], how='left')
            .set_index('index')['c']
            .fillna(df1['c'])
           )
print("原地更新后的df1:\n", df1)

输出：

原地更新后的df1:
   a   b       c
0  1  10  1111.0
1  2  20  2222.0
2  3  30  3333.0
3  4  40   400.0

注意事项：

此方法同样会使'c'列的类型变为浮点型。如果需要保持整数类型，且没有NaN值（即所有行都能找到匹配或原始值不为NaN），可以在最后一步进行类型转换，例如df1['c'] = df1['c'].astype(int)。
此解决方案假设df2中用于匹配的键组合（'a'/'b'）是唯一的。如果df2中存在重复的键组合，merge操作可能会产生意想不到的结果（例如，重复行），可能需要在使用merge之前对df2进行去重处理（例如df2.drop_duplicates(subset=['a', 'b'])）。

总结

在Pandas中更新DataFrame的子集行值时，理解Pandas操作是返回视图还是副本至关重要，以避免链式赋值带来的常见陷阱。merge和combine_first组合提供了一种创建新DataFrame的优雅方式，而结合reset_index、merge、set_index和fillna则能实现高效且灵活的原地更新，适用于更复杂的索引情况。根据具体需求和数据特点选择最合适的策略，能够显著提高数据处理的效率和代码的健壮性。

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

string转int

在编程中，我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算，或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

338

2023.08.02

int占多少字节

int占4个字节，意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值，在某些情况下也可能是2个字节或8个字节，int是一种常用的数据类型，用于表示整数，需要根据具体情况选择合适的数据类型，以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

542

2024.08.29