如何利用字典为Pandas DataFrame添加基于子字符串匹配的分类列

心靈之曲

发布时间：2025-09-25 13:14:00

278人浏览过

来源于php中文网

原创

如何利用字典为Pandas DataFrame添加基于子字符串匹配的分类列

本文详细介绍了如何使用Python的Pandas库，结合字典对DataFrame中的文本列进行分类。当字典的键是DataFrame列中字符串的子集时，传统的map方法无法直接应用。本教程通过apply方法与自定义的lambda函数，演示了如何高效地识别并分配类别，确保即使面对部分匹配的复杂情况也能准确地为数据框添加分类信息。

在数据分析和处理中，为数据集中的记录添加分类信息是一项常见的任务。当分类依据可以从现有文本列中提取，并且这种提取涉及到子字符串匹配时，传统的映射方法可能不再适用。本教程将指导您如何利用python的pandas库，结合一个预定义的分类字典，为dataframe动态地创建并填充一个类别列。

场景概述

假设我们有一个包含商品名称和成本的DataFrame，以及一个将关键词映射到类别的字典。我们的目标是根据商品名称中是否包含字典中的关键词，为其分配相应的类别。

示例数据：

一个包含商品名称的DataFrame： | Item | Cost | | :------------------------- | :--- | | apple from happy orchard | 15 | | grape from random vineyard | 20 | | chickpea and black bean mix | 10 | | coffee cup with dog decal | 14 |

一个分类字典：

category_dict = {'apple':'fruit', 'grape':'fruit', 'chickpea':'beans','coffee cup':'tableware'}

挑战分析

直接使用 df['Item'].map(category_dict) 的方法在这里是无效的，因为map函数要求Item列中的值与category_dict的键完全匹配。然而，在我们的场景中，Item列的值是更长的描述性字符串，而category_dict的键只是这些描述中的子字符串（例如，"apple from happy orchard" 包含 "apple"）。因此，我们需要一种更灵活的匹配机制。

解决方案：使用 apply 方法与 Lambda 函数

Pandas DataFrame的apply方法允许我们对DataFrame的行或列应用一个函数。结合Python的lambda函数，我们可以定义一个自定义的匹配逻辑，遍历字典的键，检查它们是否作为子字符串存在于DataFrame的每个Item中。

医真AI+开放平台

医真AI+ 医学AI开放平台

下载

以下是实现这一功能的代码示例：

import pandas as pd

# 1. 定义分类字典
category_dict = {'apple': 'fruit', 'grape': 'fruit', 'chickpea': 'beans', 'coffee cup': 'tableware'}

# 2. 创建示例 DataFrame
data = {
    'Item': ['apple from happy orchard', 'grape from random vineyard', 'chickpea and black bean mix', 'coffee cup with dog decal'],
    'Cost': [15, 20, 10, 14]
}
df = pd.DataFrame(data)

print("原始 DataFrame:")
print(df)
print("-" * 30)

# 3. 使用 apply 和 lambda 函数添加 'Category' 列
# 对于 'Item' 列中的每一个字符串 x：
# 遍历 category_dict 中的每一个键值对 (key, value)
# 如果 key 是 x 的子字符串，则返回对应的 value
# next() 函数会返回第一个匹配到的值
# 如果没有找到任何匹配，则返回 None
df['Category'] = df['Item'].apply(lambda x: next((value for key, value in category_dict.items() if key in x), None))

print("\n添加 'Category' 列后的 DataFrame:")
print(df)

代码解释：

df['Item'].apply(...): 这会将括号内的lambda函数应用于df['Item']列中的每一个元素。
lambda x: ...: x代表Item列中的当前字符串（例如 "apple from happy orchard"）。
next((value for key, value in category_dict.items() if key in x), None):
- 这是一个生成器表达式，它遍历category_dict中的所有键值对。
- if key in x: 这是一个条件判断，检查字典的key是否是当前Item字符串x的子字符串。
- 如果条件为真，生成器会产出对应的value。
- next(...): 这个内置函数从生成器中获取下一个（即第一个）值。
- next(..., None): 如果生成器没有产生任何值（即Item字符串中没有匹配到任何字典键），next函数将返回None，而不是抛出StopIteration错误。

注意事项

匹配顺序： category_dict.items() 的迭代顺序会影响匹配结果。如果一个Item字符串可能匹配多个字典键（例如，"apple pie" 既包含 "apple" 也可能包含 "pie"），next函数将返回字典中第一个被迭代到的匹配项的类别。如果匹配顺序很重要，您可能需要对字典进行排序，或者调整category_dict.items()的迭代方式。
无匹配项处理： 当前的解决方案在没有找到匹配项时会填充None。您可以根据需要将其替换为其他默认值，例如 'Other' 或 np.nan。
```
# 示例：将未匹配项填充为 'Other'
df['Category'] = df['Item'].apply(lambda x: next((value for key, value in category_dict.items() if key in x), 'Other'))
```
性能考量： 对于非常大的DataFrame和/或包含大量键的字典，apply方法在Python循环中执行，可能不如Pandas内置的矢量化操作高效。然而，对于大多数常见场景，这种方法的性能是完全可以接受的。如果性能成为瓶颈，可以考虑使用正则表达式匹配或更高级的文本处理库（如fuzzywuzzy进行模糊匹配）来优化。
键的精确性： 确保字典中的键足够精确，以避免意外的匹配。例如，如果有一个键是“apple”，另一个是“pineapple”，那么包含“pineapple”的项可能会意外地匹配到“apple”，这取决于匹配顺序。

总结

通过结合Pandas的apply方法和自定义的lambda函数，我们可以灵活地利用字典为DataFrame添加分类列，即使分类依据是文本列中的子字符串匹配。这种方法提供了一个强大且易于理解的解决方案，适用于处理各种复杂的文本分类需求。理解其背后的匹配逻辑和潜在的注意事项，将帮助您更有效地管理和分析数据。

Python multiprocessing 如何在子进程里正确使用 logging

Python 如何检测字符串是否包含不可打印字符

Python 如何判断当前文件是否被作为主模块运行（main）

Python 如何让 print() 默认输出到 stderr 而不是 stdout

Python 如何安全地在多线程里使用 random（不加锁）

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

758

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

639

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

761

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1265

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

548

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

708

2023.08.11