Python Pandas：高效组合字符串包含与排除条件

心靈之曲

发布时间：2025-08-11 23:24:01

488人浏览过

来源于php中文网

原创

python pandas：高效组合字符串包含与排除条件

本文详细阐述了如何在Pandas DataFrame中结合使用str.contains()方法与逻辑运算符（&和~）来筛选数据。通过构建包含特定子串且不包含另一特定子串的复杂条件，文章提供了清晰的代码示例和关键注意事项，帮助读者掌握在数据处理中实现精准字符串匹配与排除的技巧。

在数据分析和清洗过程中，我们经常需要根据字符串内容进行复杂的筛选。一个常见的需求是：找出那些包含特定关键词，同时又不能包含另一个特定关键词的数据行。例如，在商品描述中，我们可能需要找出所有提及“Mercedes”但没有提及“123”的条目。Pandas库提供了强大的字符串操作功能，结合逻辑运算符，可以轻松实现这种复杂的筛选逻辑。

核心概念：str.contains()与逻辑运算符

Pandas Series的str.contains()方法是进行字符串包含检查的核心工具。它返回一个布尔Series，指示每个元素是否包含指定的子串。

import pandas as pd

# 示例数据
data = {'Details': ['Mercedes 123', 'Green not sold', 'Mercedes A45', 'BMW 320i', 'Mercedes S-Class', 'Mercedes'],
        'check': ['Initial', 'Initial', 'Initial', 'Initial', 'Initial', 'Initial']}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

要实现“包含A且不包含B”的条件，我们需要将两个布尔条件组合起来。这里需要特别注意Python的逻辑运算符（and, or, not）与Pandas（或NumPy）中用于元素级布尔运算的位运算符（&, |, ~）的区别。

and, or, not: 这些是Python的短路逻辑运算符，用于连接单个布尔值或可转换为布尔值的表达式。它们在操作Pandas Series时会导致错误（如ValueError: The truth value of a Series is ambiguous），因为Series不是单个布尔值。
& (按位与), | (按位或), ~ (按位非): 这些是Pandas和NumPy中用于对整个布尔Series（或数组）进行元素级逻辑运算的运算符。它们会逐个元素地应用逻辑，并返回一个新的布尔Series。

因此，在Pandas中组合多个str.contains()条件时，必须使用&和~。

立即学习“Python免费学习笔记（深入）”；

实现“包含A且不包含B”的筛选逻辑

假设我们想找到Details列中包含“Mercedes”但不包含“123”的行，并更新其check列的值。

KAIZAN.ai

使用AI来改善客户服体验，提高忠诚度

下载

定义第一个条件（包含）： 检查Details列是否包含“Mercedes”。

condition_contains_mercedes = df['Details'].str.contains('Mercedes')
print("\n包含'Mercedes'的条件结果:")
print(condition_contains_mercedes)

定义第二个条件（不包含）： 检查Details列是否包含“123”，然后使用~运算符对其结果取反，表示“不包含123”。
```
condition_not_contains_123 = ~df['Details'].str.contains('123')
print("\n不包含'123'的条件结果:")
print(condition_not_contains_123)
```

组合两个条件： 使用&运算符将两个布尔Series组合起来，形成最终的筛选条件。

final_condition = condition_contains_mercedes & condition_not_contains_123
print("\n最终组合条件 (包含'Mercedes'且不包含'123') 的结果:")
print(final_condition)

应用条件： 可以使用df.loc进行筛选或直接赋值，也可以使用df.mask()方法。df.mask()在条件为True时替换值，这与原问题中的用法一致。

color1 = "Mercedes (No 123)" # 更新的标记值

# 应用条件，当final_condition为True时，更新df['check']列的值
df['check'] = df['check'].mask(final_condition, color1)

print("\n应用条件后的DataFrame:")
print(df)

完整示例代码：

import pandas as pd

# 示例数据
data = {'Details': ['Mercedes 123', 'Green not sold', 'Mercedes A45', 'BMW 320i', 'Mercedes S-Class', 'Mercedes'],
        'check': ['Initial', 'Initial', 'Initial', 'Initial', 'Initial', 'Initial']}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

color1 = "Mercedes (No 123)"

# 构建条件：包含'Mercedes' 且 不包含'123'
# 注意：使用 & 进行元素级逻辑“与”操作，使用 ~ 进行元素级逻辑“非”操作
condition_mercedes_and_not_123 = df['Details'].str.contains('Mercedes') & (~df['Details'].str.contains('123'))

# 应用条件：当条件为True时，将'check'列的值替换为color1
df['check'] = df['check'].mask(condition_mercedes_and_not_123, color1)

print("\n应用条件后的DataFrame:")
print(df)

运行上述代码，你会看到Details列为“Mercedes A45”、“Mercedes S-Class”和“Mercedes”的行的check列被更新为“Mercedes (No 123)”，因为它们满足“包含Mercedes且不包含123”的条件。

注意事项

运算符选择： 再次强调，在Pandas Series的布尔运算中，务必使用&（与）、|（或）和~（非），而非Python的and、or、not。
大小写敏感： str.contains()默认是大小写敏感的。如果需要进行不区分大小写的匹配，可以设置case=False参数：
```
df['Details'].str.contains('mercedes', case=False)
```
正则表达式： str.contains()支持使用正则表达式进行更复杂的模式匹配。默认情况下，regex=True。
```
# 匹配包含“Benz”或“BMW”的字符串
df['Details'].str.contains('Benz|BMW', regex=True)
```
处理缺失值（NaN）： 如果Details列中包含NaN值，str.contains()默认会将其视为不匹配，返回False。你可以通过na参数来控制对NaN的处理方式，例如设置为True或None：
```
# 对NaN返回True
df['Details'].str.contains('Mercedes', na=True)
# 对NaN返回NaN (默认行为)
df['Details'].str.contains('Mercedes', na=False)
```
通常情况下，na=False（默认值）的行为是符合预期的，即NaN不包含任何特定子串。

总结

通过结合使用Pandas的str.contains()方法和位逻辑运算符（&、~），我们可以灵活且高效地构建复杂的字符串筛选条件，实现“包含A且不包含B”、“包含A或包含B”等多种数据筛选需求。理解这些运算符在Pandas Series操作中的正确用法是进行高效数据清洗和分析的关键。掌握这些技巧将极大地提升你在处理文本数据时的能力。

标题：Python 日志配置的动态合并：字典默认配置与外部文件覆盖的优雅实践

Python 中实现单实例应用并等待前一个实例完成的完整方案

Python 中实现单实例应用并等待前一个实例结束的完整方案

如何高效统计字符串中出现的唯一排列子串数量

如何修改 Python 中的元组元素？

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

755

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

636

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

707

2023.08.11

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板