使用 Pandas 比较 Excel 数据并添加状态列

霞舞

发布时间：2025-08-20 16:04:01

210人浏览过

来源于php中文网

原创

使用 pandas 比较 excel 数据并添加状态列

本文档旨在指导你如何使用 Pandas 比较两个 Excel 文件中的数据，并基于比较结果添加一个 "Status" 列。我们将通过一个完整的 Python 脚本示例，演示如何读取 Excel 文件、合并数据、比较指定列，并根据比较结果生成 "Pass" 或 "Fail" 状态。此外，还会介绍如何使用 Pandas 的样式功能来高亮显示不同的单元格，以便更直观地查看比较结果。

Pandas Excel 数据比较及状态列添加教程

本教程将详细介绍如何使用 Pandas 库比较两个 Excel 文件的数据，并添加一个基于比较结果的 "Status" 列。我们将通过一个 Python 类来封装整个流程，使其更具可重用性和可维护性。

1. 环境准备

首先，确保你已经安装了 Pandas 库。如果没有安装，可以使用 pip 进行安装：

pip install pandas openpyxl

注意，这里同时安装了 openpyxl，因为它是 Pandas 用于读写 Excel 文件的常用引擎。

2. 代码实现

下面是完整的 Python 代码示例：

蓝色大气通用企业公司网站2.0

蓝色大气通用企业公司网站源码，这是一款采用经典的三层结构，可以动态、伪静态模式，后台功能实用，界面大气，无限级分类，单篇栏目添加等的企业网站源码，比较适合二次开发或者企业自用，感兴趣的可以下载看一下啊。网站源码完整，后台是我作为程序员多年认为最为好用的一款后台，有时间我将发布更多的模板供大家下载使用，数据库为ACCESS，如需MSSQL数据库可与我联系。功能介绍：【新闻文章管理】可以发布公司新闻和

下载

import pandas as pd

class ExcelComparator:
    def __init__(self, src_file_name, src_sheet_name, src_pk, src_cols_to_compare, tgt_cols_to_compare, tgt_file_name,
                 tgt_sheet_name, tgt_pk, target_excel):
        self.src_file_name = src_file_name
        self.src_sheet_name = src_sheet_name
        self.src_pk = src_pk
        self.src_cols_to_compare = src_cols_to_compare
        self.tgt_cols_to_compare = tgt_cols_to_compare
        self.tgt_file_name = tgt_file_name
        self.tgt_sheet_name = tgt_sheet_name
        self.tgt_pk = tgt_pk
        self.target_excel = target_excel

    def highlight_cells(self, row):
        styles = [''] * len(row)
        pk_cols = [col for col in row.index if col in [self.src_pk, self.tgt_pk]]

        for i, col in enumerate(row.index):
            if i % 2 == 0 and col not in pk_cols:
                src_col = col
                tgt_col = row.index[i - 1]  # Adjusted to get the previous column

                if row[src_col] == row[tgt_col]:
                    styles[i], styles[i - 1] = 'background-color:lightgreen', 'background-color:lightgreen'
                elif pd.isnull(row[src_col]) or pd.isnull(row[tgt_col]):
                    styles[i], styles[i - 1] = 'background-color:yellow', 'background-color:yellow'
                else:
                    styles[i], styles[i - 1] = 'background-color:lightcoral', 'background-color:lightcoral'

        return styles

    def calculate_status(self, row):
        for i in range(len(row.index) - 1, 0, -2):
            src_col = row.index[i]
            tgt_col = row.index[i - 1]

            if row[src_col] != row[tgt_col]:
                return 'Fail'

        return 'Pass'

    def read_and_compare(self):
        src_df = pd.read_excel(self.src_file_name, sheet_name=self.src_sheet_name)
        tgt_df = pd.read_excel(self.tgt_file_name, sheet_name=self.tgt_sheet_name)

        result = src_df.merge(tgt_df, how='inner', left_on=self.src_pk, right_on=self.tgt_pk)
        result_columns = [self.src_pk] + [col for pair in zip(self.src_cols_to_compare, self.tgt_cols_to_compare) for col
                                         in pair]

        result = result[result_columns]
        result['Status'] = result.apply(self.calculate_status, axis=1)

        result.style.apply(self.highlight_cells, axis=1).to_excel(self.target_excel)


# Example usage
comparator = ExcelComparator(
    src_file_name='source.xlsx',
    src_sheet_name='Sheet1',
    src_pk='ID',
    src_cols_to_compare=['Name', 'Salary'],
    tgt_cols_to_compare=['FirstName', 'Sal'],
    tgt_file_name='target.xlsx',
    tgt_sheet_name='Sheet1',
    tgt_pk='EMP_ID',
    target_excel='result.xlsx'
)

comparator.read_and_compare()

3. 代码详解

3.1 ExcelComparator 类

该类封装了 Excel 文件比较的所有逻辑。

__init__ 方法: 初始化类的各种参数，包括源文件、目标文件、主键列、需要比较的列等。
highlight_cells 方法: 用于高亮显示比较结果。如果源列和目标列的值相等，则使用浅绿色；如果值为空，则使用黄色；否则，使用浅珊瑚色。注意，这里调整了索引，使得颜色可以正确对应。
calculate_status 方法: 用于计算每一行的 "Status"。如果任何一对比较列的值不相等，则状态为 "Fail"；否则，状态为 "Pass"。
read_and_compare 方法: 读取源 Excel 文件和目标 Excel 文件，使用主键进行内连接，选择需要比较的列，计算 "Status" 列，并使用 highlight_cells 方法进行高亮显示，最后将结果写入目标 Excel 文件。

3.2 使用示例

在代码的最后，我们创建了一个 ExcelComparator 类的实例，并调用了 read_and_compare 方法来执行比较操作。你需要根据你的实际情况修改以下参数：

src_file_name: 源 Excel 文件名。
src_sheet_name: 源 Excel 文件中的 sheet 名。
src_pk: 源 Excel 文件的主键列名。
src_cols_to_compare: 源 Excel 文件中需要比较的列名列表。
tgt_cols_to_compare: 目标 Excel 文件中需要比较的列名列表。
tgt_file_name: 目标 Excel 文件名。
tgt_sheet_name: 目标 Excel 文件中的 sheet 名。
tgt_pk: 目标 Excel 文件的主键列名。
target_excel: 结果 Excel 文件名。

4. 注意事项

确保源 Excel 文件和目标 Excel 文件都存在，并且指定的 sheet 名和列名都是正确的。
主键列的值必须是唯一的，否则可能会导致连接结果不正确。
如果需要比较的列的数据类型不一致，可能会导致比较结果不正确。建议在比较之前将数据类型转换为一致的类型。
本示例使用了内连接，这意味着只有在源 Excel 文件和目标 Excel 文件中都存在的主键值才会被包含在结果中。如果需要使用其他类型的连接，可以修改 merge 方法的 how 参数。

5. 总结

通过本教程，你学习了如何使用 Pandas 比较两个 Excel 文件的数据，并添加一个基于比较结果的 "Status" 列。你还学习了如何使用 Pandas 的样式功能来高亮显示不同的单元格，以便更直观地查看比较结果。这个方法可以帮助你快速有效地比较大量 Excel 数据，并找出其中的差异。

Python collections.defaultdict 的真实应用场景

如何为列表中每个元素单独打印一张票据

Python 字节码是什么时候生成的？

Python multiprocessing 如何绕过 GIL？

Python dict 为什么查找是 O(1)？

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

758

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

639

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

761

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1265

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

548

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

709

2023.08.11