0

0

如何在Pandas DataFrame中利用字典和子字符串匹配添加分类列

聖光之護

聖光之護

发布时间:2025-09-25 10:14:19

|

263人浏览过

|

来源于php中文网

原创

如何在Pandas DataFrame中利用字典和子字符串匹配添加分类列

本教程旨在解决如何在Pandas DataFrame中,根据一个包含关键词-类别映射的字典,为现有列动态添加一个分类列。当字典中的键是DataFrame列值中的子字符串时,直接使用map函数无法满足需求。我们将详细讲解如何利用apply函数结合自定义的lambda表达式,实现高效且灵活的子字符串匹配与分类赋值。

问题背景与挑战

在数据处理中,我们经常需要根据文本描述为数据项添加类别标签。一个常见的场景是,我们拥有一个包含关键词及其对应类别的字典,以及一个dataframe,其中某一列的文本值包含这些关键词。例如,我们有一个商品名称列表,希望根据商品名称中的特定词汇(如“apple”、“grape”)将其归类为“fruit”。

直接使用Pandas的map函数进行字典映射是处理一对一精确匹配的常用方法。然而,当字典的键不是DataFrame列值的精确匹配,而是其子字符串时,map函数将无法直接应用。例如,如果字典是{'apple': 'fruit'},而DataFrame中的项是'apple from happy orchard',直接df['Item'].map(category_dict)将返回NaN,因为它无法找到完全匹配的键。

解决方案:结合apply与自定义匹配逻辑

为了解决子字符串匹配的问题,我们可以利用Pandas DataFrame的apply方法,结合一个自定义的lambda函数。这个lambda函数将遍历字典中的所有键值对,检查字典的键是否作为子字符串存在于DataFrame的当前单元格中。

1. 准备数据与字典

首先,我们定义用于映射的字典和示例DataFrame:

import pandas as pd

# 类别字典,键是关键词,值是类别
category_dict = {
    'apple': 'fruit',
    'grape': 'fruit',
    'chickpea': 'beans',
    'coffee cup': 'tableware'
}

# 示例DataFrame
data = {
    'Item': [
        'apple from happy orchard',
        'grape from random vineyard',
        'chickpea and black bean mix',
        'coffee cup with dog decal'
    ],
    'Cost': [15, 20, 10, 14]
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

2. 应用自定义匹配函数

核心的解决方案在于使用df['Item'].apply()方法。apply方法会对DataFrame指定列的每一个元素执行一个函数。在这里,我们传递一个lambda函数,该函数接收列中的每个字符串x作为输入,并执行以下逻辑:

  1. 遍历字典项: for key, value in category_dict.items() 遍历字典中的每一个关键词和类别。
  2. 子字符串匹配: if key in x 检查当前的关键词key是否是当前DataFrame项x的子字符串。
  3. 获取第一个匹配项: next((value for key, value in category_dict.items() if key in x), None) 这行代码使用了一个生成器表达式。它会寻找第一个满足key in x条件的键值对,并返回其对应的value。如果没有任何键匹配成功,next函数将返回其第二个参数None。
# 应用自定义函数添加 'Category' 列
df['Category'] = df['Item'].apply(
    lambda x: next((value for key, value in category_dict.items() if key in x), None)
)

print("\n添加 'Category' 列后的DataFrame:")
print(df)

输出结果:

原始DataFrame:
                          Item  Cost
0     apple from happy orchard    15
1   grape from random vineyard    20
2  chickpea and black bean mix    10
3    coffee cup with dog decal    14

添加 'Category' 列后的DataFrame:
                          Item  Cost   Category
0     apple from happy orchard    15      fruit
1   grape from random vineyard    20      fruit
2  chickpea and black bean mix    10      beans
3    coffee cup with dog decal    14  tableware

注意事项与进阶考量

  1. 性能考量: 对于非常大的DataFrame和/或字典,apply方法在Python循环中执行,可能不是最高效的。如果性能成为瓶颈,可以考虑以下优化:

    Remove.bg
    Remove.bg

    AI在线抠图软件,图片去除背景

    下载
    • 正则表达式 使用str.contains()结合正则表达式进行匹配,这通常在C语言层面实现,性能更优。
    • 向量化操作: 如果可能,将字典转换为更适合向量化操作的结构。
    • 预处理: 如果字典键的数量非常大,可以考虑构建一个Trie树或其他字符串搜索数据结构来加速匹配。
  2. 匹配优先级: next()函数会返回第一个找到的匹配项。如果一个DataFrame项可以匹配字典中的多个键(例如,"apple pie"可以匹配"apple"和"pie"),则字典中迭代顺序靠前的键会优先匹配。如果需要特定的优先级,应确保字典的键按照所需的优先级顺序排列(例如,将更具体的键放在前面,或对字典键进行排序)。

  3. 无匹配项处理: 当前代码中,如果DataFrame中的项没有匹配到字典中的任何关键词,Category列将赋值为None。你可以根据需求修改next函数的默认值,例如将其设置为'Other'或保留为pd.NA。

    # 示例:无匹配项时赋值为 'Unknown'
    df['Category_with_unknown'] = df['Item'].apply(
        lambda x: next((value for key, value in category_dict.items() if key in x), 'Unknown')
    )
  4. 大小写敏感性: key in x 是大小写敏感的。如果需要进行大小写不敏感的匹配,应在比较前将key和x都转换为小写:

    df['Category_case_insensitive'] = df['Item'].apply(
        lambda x: next((value for key, value in category_dict.items() if key.lower() in x.lower()), None)
    )

总结

通过灵活运用Pandas的apply函数结合自定义的lambda表达式,我们可以有效地解决在DataFrame中基于字典进行子字符串匹配并添加分类列的问题。这种方法提供了一种强大且可定制的解决方案,适用于各种复杂的文本数据分类场景。在实际应用中,根据数据规模和性能需求,可以进一步考虑优化匹配逻辑和算法。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

771

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

661

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

659

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1345

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

549

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

730

2023.08.11

Golang 性能分析与pprof调优实战
Golang 性能分析与pprof调优实战

本专题系统讲解 Golang 应用的性能分析与调优方法,重点覆盖 pprof 的使用方式,包括 CPU、内存、阻塞与 goroutine 分析,火焰图解读,常见性能瓶颈定位思路,以及在真实项目中进行针对性优化的实践技巧。通过案例讲解,帮助开发者掌握 用数据驱动的方式持续提升 Go 程序性能与稳定性。

9

2026.01.22

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 12.7万人学习

Django 教程
Django 教程

共28课时 | 3.4万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号