使用Pandas检测DataFrame行对匹配并标记通过/失败-Python教程-PHP中文网

使用Pandas检测DataFrame行对匹配并标记通过/失败

碧海醫心

发布： 2025-10-25 13:08:01

原创

388人浏览过

使用pandas检测dataframe行对匹配并标记通过/失败

本文详细介绍了如何使用Pandas在DataFrame中检测成对行的匹配情况，并根据匹配结果添加“通过”或“失败”状态列。文章提供了两种核心方法：针对顺序配对的直接逐对比较法，以及基于内容匹配的`pd.merge`方法，并附有示例代码、注意事项及最佳实践，旨在帮助用户高效处理数据匹配与结果标记任务。

在数据处理和质量控制中，经常需要比较数据集中成对的记录，以判断它们是否符合特定的匹配条件。例如，一个“源”记录可能需要与其对应的“目标”记录进行比较，以验证数据的一致性。本文将探讨如何利用Pandas库在DataFrame中高效地实现这一需求，并根据匹配结果添加一个“结果”列（Pass/Fail）。

1. 问题描述与示例数据

假设我们有一个DataFrame，其中包含一系列“源”（Source）和“目标”（Target）记录。这些记录是成对出现的，即每一行“源”数据后面紧跟着其对应的“目标”数据。我们需要比较每一对记录中指定列的值，如果所有指定列都匹配，则将该“源”记录标记为“通过”（Pass）；否则标记为“失败”（Fail）。“目标”记录的“结果”列则留空。

以下是示例数据结构：

Quicktools Background Remover

Picsart推出的图片背景移除工具

查看详情

Obs | Dataset | Col1 | Col2 | Col3
----------------------------------
1   | Source  | A    | 10   | X
2   | Target  | A    | 10   | X
3   | Source  | B    | 20   | Y
4   | Target  | B    | 20   | Y
5   | Source  | C    | 30   | Z
6   | Target  | D    | 30   | Z

登录后复制

期望的输出格式如下，其中“Result”列作为第三列：

Obs | Dataset | Result | Col1 | Col2 | Col3
--------------------------------------------
1   | Source  | Pass   | A    | 10   | X
2   | Target  |        | A    | 10   | X
3   | Source  | Pass   | B    | 20   | Y
4   | Target  |        | B    | 20   | Y
5   | Source  | Fail   | C    | 30   | Z
6   | Target  |        | D    | 30   | Z

登录后复制

2. 数据准备

首先，我们创建上述示例DataFrame：

import pandas as pd

data = {
    'Obs': [1, 2, 3, 4, 5, 6],
    'Dataset': ['Source', 'Target', 'Source', 'Target', 'Source', 'Target'],
    'Col1': ['A', 'A', 'B', 'B', 'C', 'D'],
    'Col2': [10, 10, 20, 20, 30, 30],
    'Col3': ['X', 'X', 'Y', 'Y', 'Z', 'Z']
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

登录后复制

3. 方法一：直接逐对比较（推荐用于顺序配对）

这种方法适用于“源”和“目标”记录严格按照顺序成对出现的情况（例如，Obs 1和2是一对，3和4是一对，以此类推）。我们将为每对记录创建一个唯一的标识符，然后对这些组进行比较。

步骤详解：

创建配对ID： 根据DataFrame的索引（假设索引是0开始且连续，或者根据Obs列）生成一个PairID，使得每对“源”和“目标”记录拥有相同的PairID。
定义比较列： 明确哪些列需要进行匹配判断。
按PairID分组并应用函数： 对每个PairID对应的组，提取其“源”和“目标”行，比较指定列的值。
标记结果： 如果所有比较列都匹配，则将

以上就是使用Pandas检测DataFrame行对匹配并标记通过/失败的详细内容，更多请关注php中文网其它相关文章！