Pandas DataFrame差异提取：仅保留差异行与列的教程

碧海醫心

发布时间：2025-09-21 19:40:01

582人浏览过

来源于php中文网

原创

pandas dataframe差异提取：仅保留差异行与列的教程

本教程详细阐述如何在Pandas中比较两个DataFrame，并高效地提取仅包含差异值所在的行和列。我们将利用DataFrame.compare方法，结合索引设置和后处理步骤，精确地识别并展示两个数据集中所有不同之处，同时保留关键的维度列，从而实现数据差异的精准分析与可视化。

1. 引言与问题背景

在数据分析和数据质量管理中，经常需要比较两个结构相似的DataFrame，以找出它们之间的具体差异。例如，比较同一数据集在不同时间点的快照，或者比较不同数据源中相同实体的信息。常见的需求是不仅要识别出有差异的行，还要进一步识别出这些行中具体是哪些列的值发生了变化，并最终只保留这些差异信息以及作为标识的维度列。

考虑以下两个DataFrame df1 和 df2：

import pandas as pd

data1 = {
    'pet_name': ['Patrick', 'Patrick', 'Patrick', 'Patrick'],
    'exam_day': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],
    'result_1': [1, 2, 3, 4],
    'result_2': [10, 20, 30, 40],
    'pre_result_1': [123, 123, 123, 123]
}
df1 = pd.DataFrame(data1)

data2 = {
    'pet_name': ['Patrick', 'Patrick', 'Patrick', 'Patrick'],
    'exam_day': ['2023-01-01', '2023-01-02', '2023-01-03', '2023-01-04'],
    'result_1': [1, 99, 3, 4], # Difference here (2 vs 99)
    'result_2': [10, 20, 30, 100], # Difference here (40 vs 100)
    'pre_result_1': [123, 123, 123, 123]
}
df2 = pd.DataFrame(data2)

print("df1:")
print(df1)
print("\ndf2:")
print(df2)

输出：

df1:
  pet_name    exam_day  result_1  result_2  pre_result_1
0  Patrick  2023-01-01         1        10           123
1  Patrick  2023-01-02         2        20           123
2  Patrick  2023-01-03         3        30           123
3  Patrick  2023-01-04         4        40           123

df2:
  pet_name    exam_day  result_1  result_2  pre_result_1
0  Patrick  2023-01-01         1        10           123
1  Patrick  2023-01-02        99        20           123
2  Patrick  2023-01-03         3        30           123
3  Patrick  2023-01-04         4       100           123

我们的目标是得到一个DataFrame，其中只包含 pet_name 和 exam_day 作为标识列，以及所有值存在差异的列。例如，对于上述数据，期望的输出应类似：

  pet_name    exam_day  result_1  result_2
0  Patrick  2023-01-02       2.0       NaN
1  Patrick  2023-01-02      99.0       NaN
2  Patrick  2023-01-04       NaN      40.0
3  Patrick  2023-01-04       NaN     100.0

可以看到，pre_result_1 列因其值在两个DataFrame中完全相同而被移除。

2. 使用 DataFrame.compare 方法

Pandas 提供了 DataFrame.compare 方法，专门用于执行元素级别的比较，并返回一个突出显示差异的DataFrame。这是实现我们目标的最有效工具。

2.1 DataFrame.compare 简介

DataFrame.compare(other, align_axis=1, keep_equal=False, keep_shape=False)

other: 另一个要比较的DataFrame。
align_axis: 指定如何对齐差异。
- 0 或 'index': 按行对齐，返回的DataFrame将具有一个MultiIndex行，其中包含原始索引和指示是来自self还是other的级别。
- 1 或 'columns': 按列对齐，返回的DataFrame将具有一个MultiIndex列，其中包含原始列名和指示是来自self还是other的级别。通常，为了识别行级差异，我们使用 align_axis=0。
keep_equal: 布尔值，默认为 False。如果为 True，则即使列中的所有值都相同，也会保留该列。我们希望只保留差异列，因此保持默认 False。
keep_shape: 布尔值，默认为 False。如果为 True，则返回的DataFrame将保留原始形状，并在没有差异的位置填充 NaN。我们希望只看到差异，因此保持默认 False。

compare 方法的强大之处在于它会自动识别并只返回那些值存在差异的列。

2.2 实现步骤

为了达到期望的输出，我们需要执行以下步骤：

Stable Diffusion 2.1 Demo

最新体验版 Stable Diffusion 2.1

下载

设置索引: 将 pet_name 和 exam_day 这两个维度列设置为DataFrame的索引。这样做是为了确保 compare 方法能够正确地基于这些维度对齐和识别行。
执行比较: 调用 compare 方法，将 df2 作为 other 参数，并设置 align_axis=0。
后处理索引: compare 方法在 align_axis=0 模式下，如果原始索引不是唯一的，或者当我们将维度列设置为索引后，它会为结果DataFrame的行生成一个MultiIndex，其中包含一个额外的级别（'self' 或 'other'）来区分来自哪个DataFrame的数据。我们需要删除这个额外的级别。
重置索引: 将之前设置为索引的维度列（pet_name 和 exam_day）重新变回普通列。

下面是具体的实现代码：

# 1. 设置索引
df1_indexed = df1.set_index(['pet_name', 'exam_day'])
df2_indexed = df2.set_index(['pet_name', 'exam_day'])

# 2. 执行比较
# compare方法默认keep_equal=False，因此会自动移除完全相同的列
diff_df_raw = df1_indexed.compare(df2_indexed, align_axis=0)

print("--- 原始 compare 输出 ---")
print(diff_df_raw)

# 3. 后处理索引：删除由 compare 产生的 'self'/'other' 级别
# 这个级别是行MultiIndex的最后一个级别
diff_df_processed = diff_df_raw.droplevel(-1)

# 4. 重置索引，将维度列变回普通列
final_diff_df = diff_df_processed.reset_index()

print("\n--- 最终差异 DataFrame ---")
print(final_diff_df)

代码解析与输出：

首先，df1_indexed.compare(df2_indexed, align_axis=0) 的输出 diff_df_raw 如下：

--- 原始 compare 输出 ---
                           result_1  result_2
pet_name exam_day                            
Patrick  2023-01-02 self        2.0       NaN
                    other      99.0       NaN
         2023-01-04 self        NaN      40.0
                    other       NaN     100.0

可以看到，compare 方法成功地识别了 result_1 和 result_2 列中的差异。它创建了一个MultiIndex行，其中包含 pet_name、exam_day 以及一个指示数据来源（self 或 other）的级别。同时，result_1 和 result_2 列本身也带有MultiIndex（('result_1', 'self'), ('result_1', 'other') 等）。这里由于 keep_equal=False，pre_result_1 列被自动移除了。

然后，droplevel(-1) 操作移除了行MultiIndex中的最后一个级别（'self' 或 'other'），使得行索引只剩下 ('pet_name', 'exam_day')。

最后，reset_index() 将 pet_name 和 exam_day 从索引变回普通列，得到我们期望的最终结果：

--- 最终差异 DataFrame ---
  pet_name    exam_day  result_1  result_2
0  Patrick  2023-01-02       2.0       NaN
1  Patrick  2023-01-02      99.0       NaN
2  Patrick  2023-01-04       NaN      40.0
3  Patrick  2023-01-04       NaN     100.0

这个结果清晰地展示了两个DataFrame之间的所有差异，并且只保留了发生变化的列以及作为行标识的维度列。

3. 注意事项与最佳实践

索引的重要性: 在使用 compare 方法时，正确设置索引是至关重要的。如果你的DataFrame没有明确的唯一标识列，或者标识列并非唯一，compare 的行为可能会变得复杂。确保用于 set_index 的列组合能够唯一标识每一行。
列的MultiIndex: DataFrame.compare 的默认输出在列上会创建一个MultiIndex，例如 ('result_1', 'self') 和 ('result_1', 'other')。在上述解决方案中，我们通过 droplevel 和 reset_index 处理了行索引。如果需要进一步处理列MultiIndex（例如，将它们展平或重命名），可能需要额外的步骤，例如使用 df.columns = df.columns.map('_'.join) 或 pd.MultiIndex.from_tuples。然而，对于本教程的目标，即只保留差异列，compare 的默认行为已经足够。
数据类型: compare 方法对数据类型敏感。如果两个DataFrame中同一列的数据类型不同，即使值看起来相同，也可能被视为差异。确保比较前数据类型的一致性。
缺失值 (NaN): compare 默认会将 NaN 与非 NaN 值视为不同。如果 NaN 与 NaN 之间应视为相同，则可能需要预处理，例如使用 fillna()。
性能: 对于非常大的DataFrame，compare 方法的性能通常是高效的，因为它是在C语言层面实现的。然而，如果数据量极其庞大，仍需注意内存消耗。
多列差异: 即使有300+列，compare 方法也能自动处理，它只会保留那些存在差异的列，极大地简化了差异分析工作。

4. 总结

通过 DataFrame.compare 方法，结合适当的索引设置和后处理，我们可以高效且准确地从两个Pandas DataFrame中提取出所有值存在差异的行和列。这种方法不仅简化了差异识别过程，而且提供了清晰、易于理解的差异报告，对于数据验证、版本控制和数据质量监控等场景都非常有用。掌握此技巧，将大大提升您在Pandas中处理数据差异的能力。

Python自然语言处理进阶教程_词向量与文本分类实战

Python内建对象体系_核心类型说明【指导】

Python Pillow 导入错误的完整解决方案

如何解决 VS Code 中 PIL/Pillow 导入无法解析的问题

Python和Selenium自动化测试_Web UI驱动与元素定位

相关专题

C语言变量命名

c语言变量名规则是：1、变量名以英文字母开头；2、变量名中的字母是区分大小写的；3、变量名不能是关键字；4、变量名中不能包含空格、标点符号和类型说明符。php中文网还提供c语言变量的相关下载、相关课程等内容，供大家免费下载使用。

379

2023.06.20

c语言入门自学零基础

C语言是当代人学习及生活中的必备基础知识，应用十分广泛，本专题为大家c语言入门自学零基础的相关文章，以及相关课程，感兴趣的朋友千万不要错过了。

608

2023.07.25

c语言运算符的优先级顺序

c语言运算符的优先级顺序是括号运算符 > 一元运算符 > 算术运算符 > 移位运算符 > 关系运算符 > 位运算符 > 逻辑运算符 > 赋值运算符 > 逗号运算符。本专题为大家提供c语言运算符相关的各种文章、以及下载和课程。

348

2023.08.02

c语言数据结构

数据结构是指将数据按照一定的方式组织和存储的方法。它是计算机科学中的重要概念，用来描述和解决实际问题中的数据组织和处理问题。数据结构可以分为线性结构和非线性结构。线性结构包括数组、链表、堆栈和队列等，而非线性结构包括树和图等。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

255

2023.08.09

c语言random函数用法

c语言random函数用法：1、random.random，随机生成（0,1）之间的浮点数；2、random.randint，随机生成在范围之内的整数，两个参数分别表示上限和下限；3、random.randrange，在指定范围内，按指定基数递增的集合中获得一个随机数；4、random.choice，从序列中随机抽选一个数；5、random.shuffle，随机排序。

584

2023.09.05

c语言const用法

const是关键字，可以用于声明常量、函数参数中的const修饰符、const修饰函数返回值、const修饰指针。详细介绍：1、声明常量，const关键字可用于声明常量，常量的值在程序运行期间不可修改，常量可以是基本数据类型，如整数、浮点数、字符等，也可是自定义的数据类型；2、函数参数中的const修饰符，const关键字可用于函数的参数中，表示该参数在函数内部不可修改等等。

519

2023.09.20