解决Pandas DataFrame子框赋值中的列对齐问题

聖光之護

发布时间：2025-08-16 15:06:19

238人浏览过

来源于php中文网

原创

解决Pandas DataFrame子框赋值中的列对齐问题

本教程深入探讨了在Pandas DataFrame之间进行子框赋值时，因Pandas自动列对齐机制导致的NaN值问题。文章详细解释了该机制的工作原理，并提供了将右侧DataFrame子框转换为NumPy数组的解决方案，从而实现精确的、基于位置的赋值，有效避免数据丢失。

Pandas DataFrame子框赋值与自动对齐机制

在数据处理中，我们经常需要将一个pandas dataframe的特定部分（即子框）赋值给另一个dataframe的对应区域。pandas提供了强大的索引和选择功能，如loc和iloc，使得这种操作变得直观。然而，一个常见的误区是，即使源子框和目标子框的形状完全匹配，直接赋值也可能导致意外的nan值。这主要是因为pandas在执行赋值操作时，默认会启用其强大的自动对齐机制。

当您尝试将一个DataFrame（或其子框）赋值给另一个DataFrame的某个位置时，Pandas会尝试根据索引（行标签）和列名（列标签）来对齐左右两侧的数据。如果右侧（RHS）的列名与左侧（LHS）的列名不完全匹配，Pandas会根据匹配的列名进行赋值，而对于LHS中存在但RHS中不存在的列，则会填充NaN。同样，RHS中存在但LHS目标位置不存在的列，其数据会被忽略。

让我们通过一个具体的例子来理解这个问题。

import pandas as pd

# 初始化两个DataFrame
df1 = pd.DataFrame({'1':[1,2,3,4,5,6], '2':[10,20,30,40,50,60],'3': [100,200,300,400,500,600]})
df2 = pd.DataFrame({'1':[22,22], '2':[22,22], '3':[22,22]})

print("原始 df1:")
print(df1)
print("\n原始 df2:")
print(df2)

# 尝试将df2的前两行、列'1'和'2'赋值给df1的前两行、列'2'和'3'
df1.loc[[0,1],['2','3']] = df2.loc[[0,1],['1','2']]

print("\n赋值后的 df1 (错误结果):")
print(df1)

错误结果分析：

上述代码的输出将是：

原始 df1:
   1   2    3
0  1  10  100
1  2  20  200
2  3  30  300
3  4  40  400
4  5  50  500
5  6  60  600

原始 df2:
   1   2   3
0  22  22  22
1  22  22  22

赋值后的 df1 (错误结果):
     1     2      3
0  1.0  22.0    NaN
1  2.0  22.0    NaN
2  3.0  30.0  300.0
3  4.0  40.0  400.0
4  5.0  50.0  500.0
5  6.0  60.0  600.0

我们期望df1的[0,1]行和['2','3']列被df2的[0,1]行和['1','2']列的值替换。然而，实际结果中，df1的['3']列在第0和第1行变成了NaN。

这是因为：

DeepL

DeepL是一款强大的在线AI翻译工具，可以翻译31种不同语言的文本，并可以处理PDF、Word、PowerPoint等文档文件

下载

LHS的目标是df1.loc[[0,1],['2','3']]，它期望接收的数据对应列名为'2'和'3'。
RHS提供的是df2.loc[[0,1],['1','2']]，其列名为'1'和'2'。
Pandas在赋值时会尝试对齐列名：
- RHS的'2'列与LHS的'2'列成功匹配，因此df2中'2'列的值（22）被正确赋值给df1的'2'列。
- LHS的'3'列在RHS中没有对应的列名。因此，df1的'3'列在这些位置被填充了NaN。
- RHS的'1'列在LHS目标区域（['2','3']）中没有对应的列名，因此其值被忽略。

解决方案：转换为NumPy数组

要解决这个问题，即强制Pandas进行基于位置的赋值，而不是基于标签的对齐赋值，最直接有效的方法是将右侧的DataFrame子框转换为NumPy数组。当右侧是一个NumPy数组时，Pandas会绕过其对齐机制，直接根据形状进行元素级别的赋值。

import pandas as pd
import numpy as np # 导入numpy库

df1 = pd.DataFrame({'1':[1,2,3,4,5,6], '2':[10,20,30,40,50,60],'3': [100,200,300,400,500,600]})
df2 = pd.DataFrame({'1':[22,22], '2':[22,22], '3':[22,22]})

print("原始 df1:")
print(df1)
print("\n原始 df2:")
print(df2)

# 解决方案：将右侧的DataFrame子框转换为NumPy数组
df1.loc[[0,1], ['2','3']] = df2.loc[[0,1], ['1','2']].to_numpy()

print("\n赋值后的 df1 (正确结果):")
print(df1)

正确结果：

原始 df1:
   1   2    3
0  1  10  100
1  2  20  200
2  3  30  300
4  4  40  400
5  5  50  500
6  6  60  600

原始 df2:
   1   2   3
0  22  22  22
1  22  22  22

赋值后的 df1 (正确结果):
   1   2    3
0  1  22   22
1  2  22   22
2  3  30  300
3  4  40  400
4  5  50  500
5  6  60  600

通过.to_numpy()方法，df2.loc[[0,1], ['1','2']]这个子框被转换成了一个2x2的NumPy数组。此时，Pandas不再关心列名，而是简单地将这个2x2的数组按位置填充到df1.loc[[0,1], ['2','3']]所指定的2x2区域。

注意事项

形状匹配： 使用.to_numpy()进行赋值时，LHS和RHS的形状必须严格匹配。如果形状不匹配，Pandas会抛出ValueError。例如，如果df2.loc[[0,1], ['1','2']]的形状是2x2，而df1.loc[[0,1], ['2','3']]的形状也是2x2，则赋值成功。如果形状不一致，则会报错。
数据类型： NumPy数组赋值可能会影响目标DataFrame的数据类型。如果NumPy数组中的数据类型与目标DataFrame列的当前数据类型不兼容，Pandas可能会进行类型转换（例如，从整数转换为浮点数以适应NaN或混合类型）。
何时使用： 当您明确知道要进行基于位置的赋值，并且不希望Pandas的自动对齐机制介入时，to_numpy()是一个非常有效的策略。这在处理从外部源获取的数据，或者需要精确控制数据写入位置的场景中尤其有用。

总结

Pandas的自动对齐机制是其强大且灵活的特性之一，但在某些赋值场景下，它可能导致意外的NaN值，尤其当源DataFrame和目标DataFrame的列名不一致时。理解这一机制是高效使用Pandas的关键。当需要进行严格的基于位置的子框赋值时，将右侧DataFrame子框转换为NumPy数组 (.to_numpy()) 是一个简洁而强大的解决方案，它能有效绕过Pandas的对齐逻辑，确保数据按预期填充。在使用此方法时，务必确保左右两侧的形状严格匹配，以避免运行时错误。

如何正确将循环结果逐行写入文件而不丢失数据

如何正确将循环结果批量写入文件而不丢失数据

如何将嵌套列表数据反序列化为 Pydantic 模型

如何在 QML 中高效渲染带层级结构的 SQL 数据（支持展开/折叠与多选）

如何在 QML 中高效渲染带层级关系的 SQL 树形数据（支持展开/折叠与多选）