Pandas 中判断两列字符串值是否相互包含

DDD

发布时间：2025-10-12 11:28:01

401人浏览过

来源于php中文网

原创

pandas 中判断两列字符串值是否相互包含

本文旨在介绍如何使用 Pandas 判断 DataFrame 中两列字符串值是否相互包含，并生成一个新的布尔列来标识匹配结果。通过结合 `numpy.where` 和字符串 `in` 运算符，我们可以高效地实现此功能，并处理可能存在的缺失值情况。

在数据处理过程中，经常会遇到需要判断 DataFrame 中不同列的字符串值是否相互包含的情况。例如，判断产品名称是否包含在产品描述中，或者判断客户名称是否包含在客户地址中。本文将介绍如何使用 Pandas 和 NumPy 来高效地实现这一功能。

方法：使用 numpy.where 和 in 运算符

核心思路是使用 NumPy 的 where 函数，结合 Python 的 in 运算符，逐行判断两列字符串是否相互包含。为了处理可能存在的缺失值（NaN），我们需要先使用 fillna 方法填充缺失值。

示例代码

假设我们有如下 DataFrame：

import pandas as pd
import numpy as np

data = {'Column1': ['Customer1', np.nan, 'Customer3', np.nan, 'Customer5 LLC', 'Customer6 LLC', np.nan, np.nan],
        'Column2': ['Customer1', 'Customer2', np.nan, 'Customer4 LLC', np.nan, np.nan, 'Customer9 LLC', np.nan],
        'Match_Column': ['Customer1 LLC', 'Customer2 LLC', 'Customer3 LLC', 'Customer4', 'Customer5', 'Customer8', 'Customer4', 'Customer4']}
df = pd.DataFrame(data)

print(df)

输出：

Build AI

为您的业务构建自己的AI应用程序。不需要任何技术技能。

下载

         Column1        Column2   Match_Column
0      Customer1      Customer1  Customer1 LLC
1          NaN      Customer2  Customer2 LLC
2      Customer3          NaN  Customer3 LLC
3          NaN  Customer4 LLC      Customer4
4  Customer5 LLC          NaN      Customer5
5  Customer6 LLC          NaN      Customer8
6          NaN  Customer9 LLC      Customer4
7          NaN          NaN      Customer4

现在，我们想要判断 Column1 或 Column2 中的值是否包含在 Match_Column 中，或者 Match_Column 中的值是否包含在 Column1 或 Column2 中。可以使用以下代码实现：

df['is_Match'] = np.where([(a in c) or (b in c) or (c in a) or (c in b) for a,b,c
                           in zip(df['Column1'].fillna('_'), df['Column2'].fillna('_'),
                                  df['Match_Column'].fillna('nodata'))],
                          'Yes', 'No')
print (df)

输出：

         Column1        Column2   Match_Column is_Match
0      Customer1      Customer1  Customer1 LLC      Yes
1          NaN      Customer2  Customer2 LLC      Yes
2      Customer3          NaN  Customer3 LLC      Yes
3          NaN  Customer4 LLC      Customer4      Yes
4  Customer5 LLC          NaN      Customer5      Yes
5  Customer6 LLC          NaN      Customer8       No
6          NaN  Customer9 LLC      Customer4       No
7          NaN          NaN      Customer4       No

代码解释

df['Column1'].fillna('_'): 使用 fillna('_') 将 Column1 中的缺失值替换为 '_'。这样做是为了避免在后续的字符串比较中出现错误。
df['Column2'].fillna('_'): 同样，使用 fillna('_') 将 Column2 中的缺失值替换为 '_'。
df['Match_Column'].fillna('nodata'): 使用 fillna('nodata') 将 Match_Column 中的缺失值替换为 'nodata'。
zip(df['Column1'].fillna('_'), df['Column2'].fillna('_'), df['Match_Column'].fillna('nodata')): 使用 zip 函数将三个列的值逐行打包成元组。
[(a in c) or (b in c) or (c in a) or (c in b) for a,b,c in ...]: 这是一个列表推导式，它遍历 zip 函数生成的元组，对于每个元组 (a, b, c)，判断 a 是否包含在 c 中，或者 b 是否包含在 c 中，或者 c 是否包含在 a 中，或者 c 是否包含在 b 中。如果其中一个条件成立，则返回 True，否则返回 False。
np.where(..., 'Yes', 'No'): numpy.where 函数根据列表推导式的结果，如果为 True，则返回 'Yes'，否则返回 'No'。

注意事项

缺失值处理: 在进行字符串比较之前，务必处理缺失值，否则可能会导致错误。
性能: 对于大型 DataFrame，使用循环可能会比较慢。可以考虑使用向量化的字符串操作来提高性能。
大小写敏感: 默认情况下，字符串比较是大小写敏感的。如果需要进行大小写不敏感的比较，可以使用 lower() 方法将字符串转换为小写。

总结

本文介绍了如何使用 Pandas 和 NumPy 来判断 DataFrame 中两列字符串值是否相互包含。通过结合 numpy.where 和 in 运算符，我们可以高效地实现此功能，并处理可能存在的缺失值情况。这种方法在数据清洗、特征工程等场景中非常有用。

Python日志分析与可视化_ELK日志管道与图表展示

Python并发设计原则_扩展与复杂度说明【指导】

Python命令行脚本开发教程_argparse与sys模块应用

Python系统运维自动化教程_批量操作与脚本管理案例

如何在 Pandas DataFrame 中仅对指定索引行应用自定义向量化函数

相关标签:

python 数据清洗 Python numpy pandas 运算符 for 字符串循环

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python包内部模块引用：从子目录导入根模块的最佳实践下一篇：Django 测试返回 400 状态码及错误信息解决方案

作者最新文章

如何在 Bootstrap 折叠组件中单次点击即加载 NGL 3D 分子可视化

2025-12-30 14:04

《怪物猎人：荒野》要登录NS2？最新解包暗示已经在做了！

2025-12-30 14:04

如何正确使用 Axios 发送 PUT 请求更新 MongoDB 中的嵌套文档

2025-12-30 14:06

如何在 Go App Engine 项目中正确使用 go get 安装的外部包

2025-12-30 14:07

R星前总监力挺拉瑞安：不做《博德之门4》值得尊重！

2025-12-30 14:07

《仙剑奇侠传四：重制版》登热搜第一神作重制情怀拉满！

2025-12-30 14:07

Go 中自定义结构体的可读性格式化：实现 Stringer 接口实现优雅打印

2025-12-30 14:08

新鲜出炉!Steam评选2025年热门游戏榜单现已公布

2025-12-30 14:08

如何在 PHP 中将多维数组中成对的 FAQ 问答项合并为结构化数据

2025-12-30 14:08

如何精准固定背景上的可交互元素（如悬浮点击区域）

2025-12-30 14:09

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

715

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

625

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

739

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

617

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1235

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

575

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

698

2023.08.11