如何在Pandas DataFrame中利用字典和子字符串匹配添加分类列

聖光之護

发布时间：2025-09-25 10:14:19

263人浏览过

来源于php中文网

原创

如何在Pandas DataFrame中利用字典和子字符串匹配添加分类列

本教程旨在解决如何在Pandas DataFrame中，根据一个包含关键词-类别映射的字典，为现有列动态添加一个分类列。当字典中的键是DataFrame列值中的子字符串时，直接使用map函数无法满足需求。我们将详细讲解如何利用apply函数结合自定义的lambda表达式，实现高效且灵活的子字符串匹配与分类赋值。

问题背景与挑战

在数据处理中，我们经常需要根据文本描述为数据项添加类别标签。一个常见的场景是，我们拥有一个包含关键词及其对应类别的字典，以及一个dataframe，其中某一列的文本值包含这些关键词。例如，我们有一个商品名称列表，希望根据商品名称中的特定词汇（如“apple”、“grape”）将其归类为“fruit”。

直接使用Pandas的map函数进行字典映射是处理一对一精确匹配的常用方法。然而，当字典的键不是DataFrame列值的精确匹配，而是其子字符串时，map函数将无法直接应用。例如，如果字典是{'apple': 'fruit'}，而DataFrame中的项是'apple from happy orchard'，直接df['Item'].map(category_dict)将返回NaN，因为它无法找到完全匹配的键。

解决方案：结合apply与自定义匹配逻辑

为了解决子字符串匹配的问题，我们可以利用Pandas DataFrame的apply方法，结合一个自定义的lambda函数。这个lambda函数将遍历字典中的所有键值对，检查字典的键是否作为子字符串存在于DataFrame的当前单元格中。

1. 准备数据与字典

首先，我们定义用于映射的字典和示例DataFrame：

import pandas as pd

# 类别字典，键是关键词，值是类别
category_dict = {
    'apple': 'fruit',
    'grape': 'fruit',
    'chickpea': 'beans',
    'coffee cup': 'tableware'
}

# 示例DataFrame
data = {
    'Item': [
        'apple from happy orchard',
        'grape from random vineyard',
        'chickpea and black bean mix',
        'coffee cup with dog decal'
    ],
    'Cost': [15, 20, 10, 14]
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

2. 应用自定义匹配函数

核心的解决方案在于使用df['Item'].apply()方法。apply方法会对DataFrame指定列的每一个元素执行一个函数。在这里，我们传递一个lambda函数，该函数接收列中的每个字符串x作为输入，并执行以下逻辑：

遍历字典项： for key, value in category_dict.items() 遍历字典中的每一个关键词和类别。
子字符串匹配： if key in x 检查当前的关键词key是否是当前DataFrame项x的子字符串。
获取第一个匹配项： next((value for key, value in category_dict.items() if key in x), None) 这行代码使用了一个生成器表达式。它会寻找第一个满足key in x条件的键值对，并返回其对应的value。如果没有任何键匹配成功，next函数将返回其第二个参数None。

# 应用自定义函数添加 'Category' 列
df['Category'] = df['Item'].apply(
    lambda x: next((value for key, value in category_dict.items() if key in x), None)
)

print("\n添加 'Category' 列后的DataFrame:")
print(df)

输出结果：

原始DataFrame:
                          Item  Cost
0     apple from happy orchard    15
1   grape from random vineyard    20
2  chickpea and black bean mix    10
3    coffee cup with dog decal    14

添加 'Category' 列后的DataFrame:
                          Item  Cost   Category
0     apple from happy orchard    15      fruit
1   grape from random vineyard    20      fruit
2  chickpea and black bean mix    10      beans
3    coffee cup with dog decal    14  tableware

注意事项与进阶考量

性能考量： 对于非常大的DataFrame和/或字典，apply方法在Python循环中执行，可能不是最高效的。如果性能成为瓶颈，可以考虑以下优化：

Remove.bg
AI在线抠图软件，图片去除背景

下载
- 正则表达式： 使用str.contains()结合正则表达式进行匹配，这通常在C语言层面实现，性能更优。
- 向量化操作： 如果可能，将字典转换为更适合向量化操作的结构。
- 预处理： 如果字典键的数量非常大，可以考虑构建一个Trie树或其他字符串搜索数据结构来加速匹配。
匹配优先级： next()函数会返回第一个找到的匹配项。如果一个DataFrame项可以匹配字典中的多个键（例如，"apple pie"可以匹配"apple"和"pie"），则字典中迭代顺序靠前的键会优先匹配。如果需要特定的优先级，应确保字典的键按照所需的优先级顺序排列（例如，将更具体的键放在前面，或对字典键进行排序）。
无匹配项处理： 当前代码中，如果DataFrame中的项没有匹配到字典中的任何关键词，Category列将赋值为None。你可以根据需求修改next函数的默认值，例如将其设置为'Other'或保留为pd.NA。
```
# 示例：无匹配项时赋值为 'Unknown'
df['Category_with_unknown'] = df['Item'].apply(
    lambda x: next((value for key, value in category_dict.items() if key in x), 'Unknown')
)
```

大小写敏感性： key in x 是大小写敏感的。如果需要进行大小写不敏感的匹配，应在比较前将key和x都转换为小写：

df['Category_case_insensitive'] = df['Item'].apply(
    lambda x: next((value for key, value in category_dict.items() if key.lower() in x.lower()), None)
)

总结

通过灵活运用Pandas的apply函数结合自定义的lambda表达式，我们可以有效地解决在DataFrame中基于字典进行子字符串匹配并添加分类列的问题。这种方法提供了一种强大且可定制的解决方案，适用于各种复杂的文本数据分类场景。在实际应用中，根据数据规模和性能需求，可以进一步考虑优化匹配逻辑和算法。

Python 队列在并发中的作用

Python中使用win32api获取Windows可执行文件版本号的正确方法

python人马兽系列为什么在编程圈火了

如何修复 Python 中多个 elif 语句仅第一个生效的问题

Python 函数注解能解决什么问题？

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python TypeVars与联合类型：理解约束与灵活绑定的兼容性下一篇：SQLAlchemy 动态 WHERE 子句构建教程

作者最新文章

如何在 Go 中读取包含多个单词的控制台输入字符串

2026-01-21 09:54

如何让 Bootstrap 登录页完整填充全屏（解决内容截断问题）

2026-01-21 09:57

如何使用解构赋值高效更新对象的多个属性

2026-01-21 09:57

如何在 Selectize 下拉选项中添加国旗图标（SVG/IMG）

2026-01-21 10:00

如何在 React 列表中仅对单个项触发状态变更？

2026-01-21 10:01

如何在数据库中按优先级分批扣减库存（支持跨多条记录的原子化扣减）

2026-01-21 10:19

如何在删除嵌套字典中不符合条件的项后重编号键值

2026-01-21 10:21

《龙腾世纪4》失利导致《质量效应5》开发进程受阻

2026-01-21 10:21

Java 8 Streams 实现嵌套 Map 结构的条件筛选

2026-01-21 10:24

如何通过 CSS 为内联 SVG 元素应用滤镜效果

2026-01-21 10:26

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PC软件

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

771

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

661

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

659

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1345

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

730

2023.08.11