0

0

Pandas DataFrame中基于字符串数字的高级条件赋值技巧

心靈之曲

心靈之曲

发布时间:2025-10-10 11:23:01

|

735人浏览过

|

来源于php中文网

原创

Pandas DataFrame中基于字符串数字的高级条件赋值技巧

本文深入探讨了在Pandas DataFrame中,如何根据现有列(如字符串中的数字部分)的特定条件,高效地创建或更新新列。文章将详细介绍如何结合str.extract、pd.cut和np.log10等工具,实现基于数值范围或数字位数的高级条件赋值,从而提升数据处理的灵活性和效率。

在数据分析和处理过程中,我们经常需要根据dataframe中某一列的复杂条件来生成或更新另一列的值。例如,从一个包含混合字符串和数字的列中提取数字,并根据这些数字的特点(如数值大小范围或数字的位数)进行分类赋值。本教程将展示两种高效且专业的pandas解决方案来解决这类问题。

初始数据准备

首先,我们构建一个示例DataFrame,它包含Server和Port两列。Port列是一个字符串,其中包含"Ethernet"前缀和随后的一个或多个数字。

import pandas as pd
import numpy as np

data = {
    'Server': ['Ser123', 'Ser123', 'Ser123', 'Ser123', 'Serabc', 'Serabc', 'Serabc', 'Serabc'],
    'Port': ['Ethernet3', 'Ethernet4', 'Ethernet12', 'Ethernet567', 'Ethernet2', 'Ethernet34', 'Ethernet458', 'Ethernet5689']
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

输出:

原始DataFrame:
   Server          Port
0  Ser123     Ethernet3
1  Ser123     Ethernet4
2  Ser123    Ethernet12
3  Ser123   Ethernet567
4  Serabc     Ethernet2
5  Serabc    Ethernet34
6  Serabc   Ethernet458
7  Serabc  Ethernet5689

我们的目标是创建一个名为function_val的新列,其值将根据Port列中数字部分的特性来决定。具体规则如下:

  • 如果数字是1位(例如Ethernet3),function_val为'5k'。
  • 如果数字是2位(例如Ethernet12),function_val为'10k'。
  • 如果数字是3位或更多(例如Ethernet567),function_val为'20k'。

解决方案一:基于数值范围的分类赋值 (str.extract + pd.cut)

这种方法适用于根据提取出的数字的数值大小范围进行分类。

  1. 提取数字: 使用Series.str.extract()结合正则表达式r'(\d+)$'来提取Port列末尾的数字。(\d+)捕获一个或多个数字,$匹配字符串的末尾。expand=False确保返回一个Series而不是DataFrame。
  2. 类型转换: 将提取出的字符串数字转换为整数类型,以便进行数值比较。
  3. 区间划分与赋值: 使用pd.cut()函数将数字划分到预定义的区间(bins)中,并为每个区间分配相应的标签(labels)。
# 定义数值区间和对应的标签
bins = [0, 10, 100, np.inf] # 0 < x <= 10, 10 < x <= 100, 100 < x <= inf
labels = ['5k', '10k', '20k']

# 提取数字,转换为整数,并使用pd.cut进行分类赋值
df['function_val_cut'] = pd.cut(
    df['Port'].str.extract(r'(\d+)$', expand=False).astype(int),
    bins=bins,
    labels=labels,
    right=True # 默认右闭合,即 (bin_i, bin_i+1]
)

print("\n使用pd.cut分类后的DataFrame:")
print(df)

输出:

使用pd.cut分类后的DataFrame:
   Server          Port function_val_cut
0  Ser123     Ethernet3               5k
1  Ser123     Ethernet4               5k
2  Ser123    Ethernet12              10k
3  Ser123   Ethernet567              20k
4  Serabc     Ethernet2               5k
5  Serabc    Ethernet34              10k
6  Serabc   Ethernet458              20k
7  Serabc  Ethernet5689              NaN

注意事项:

  • bins定义了区间的边界。例如,[0, 10, 100, np.inf]会创建三个区间:(0, 10], (10, 100], (100, inf)。
  • right=True(默认值)表示区间是右闭合的,即bins[i]到bins[i+1]的区间包含bins[i+1]但不包含bins[i]。
  • 在上述示例中,Ethernet5689中的5689超出了[0, 10, 100, np.inf]定义的最高区间,因此被赋值为NaN。如果需要处理这种情况,可以调整bins的定义或在pd.cut之后进行进一步处理。

解决方案二:基于数字位数的条件赋值 (str.extract + np.log10 + np.ceil + map)

这种方法适用于根据提取出的数字的位数进行分类。

百度文心一格
百度文心一格

百度推出的AI绘画作图工具

下载
  1. 提取数字和类型转换: 与方法一相同,提取数字并转换为整数。
  2. 计算位数: 利用数学函数np.log10和np.ceil来计算一个正整数的位数。对于一个正整数N,其位数为ceil(log10(N+1))。
    • 例如,N=3 (log10(4) ≈ 0.6) -> ceil(0.6) = 1位。
    • 例如,N=12 (log10(13) ≈ 1.1) -> ceil(1.1) = 2位。
    • 例如,N=567 (log10(568) ≈ 2.7) -> ceil(2.7) = 3位。
  3. 映射赋值: 使用Series.map()函数将计算出的位数映射到预定义的标签字典。
# 定义位数和对应的标签映射
labels_by_digits = {1: '5k', 2: '10k', 3: '20k', 4: '20k'} # 假设4位也对应20k

# 提取数字,转换为整数,计算位数,并使用map进行赋值
df['function_val_digits'] = (
    np.ceil(np.log10(df['Port'].str.extract(r'(\d+)$', expand=False).astype(int) + 1))
    .map(labels_by_digits)
)

print("\n使用位数映射分类后的DataFrame:")
print(df)

输出:

使用位数映射分类后的DataFrame:
   Server          Port function_val_cut function_val_digits
0  Ser123     Ethernet3               5k                  5k
1  Ser123     Ethernet4               5k                  5k
2  Ser123    Ethernet12              10k                 10k
3  Ser123   Ethernet567              20k                 20k
4  Serabc     Ethernet2               5k                  5k
5  Serabc    Ethernet34              10k                 10k
6  Serabc   Ethernet458              20k                 20k
7  Serabc  Ethernet5689              NaN                 20k

注意事项:

  • labels_by_digits字典需要包含所有可能出现的位数及其对应的标签。如果计算出的位数在字典中没有对应的键,map函数将返回NaN。
  • 这种方法对于严格按照数字位数进行分类的场景非常有效。

总结与最佳实践

本文展示了在Pandas DataFrame中根据复杂条件(特别是从字符串中提取数字并基于其数值或位数)创建新列的两种强大方法:

  1. str.extract + pd.cut: 适用于根据数值的大小范围进行分类。当需要将连续的数值数据离散化到预定义区间时,这是一个理想的选择。
  2. str.extract + np.log10 + np.ceil + map: 适用于根据数字的位数进行分类。当分类逻辑与数字的长度而非具体数值范围更相关时,此方法更为直接和高效。

在实际应用中,选择哪种方法取决于具体的业务逻辑和分类需求。无论哪种方法,以下几点都是通用的最佳实践:

  • 正则表达式的精准性: 确保str.extract中的正则表达式能够准确无误地捕获目标数据。
  • 数据类型转换: 在进行数值计算或比较之前,务必将提取出的字符串数据转换为正确的数值类型(如int或float)。
  • 错误处理: 考虑正则表达式未能匹配、类型转换失败或数值超出预设范围/映射字典的情况,并根据需要添加错误处理逻辑(例如,使用fillna()处理NaN值)。
  • 可读性与维护性: 对于复杂的条件逻辑,将bins、labels或映射字典定义为单独的变量,可以提高代码的可读性和可维护性。

通过掌握这些Pandas技巧,您可以更高效、更灵活地处理和转换DataFrame中的数据,满足各种复杂的数据处理需求。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

510

2023.06.20

正则表达式不包含
正则表达式不包含

正则表达式,又称规则表达式,,是一种文本模式,包括普通字符和特殊字符,是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串,通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章,希望对大家能有所帮助。

247

2023.07.05

java正则表达式语法
java正则表达式语法

java正则表达式语法是一种模式匹配工具,它非常有用,可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题,供大家免费下载体验。

737

2023.07.05

java正则表达式匹配字符串
java正则表达式匹配字符串

在Java中,我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容,帮助大家解决问题。

211

2023.08.11

正则表达式空格
正则表达式空格

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容,供大家免费下载体验。

349

2023.08.31

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示
正则表达式空格如何表示

正则表达式空格可以用“s”来表示,它是一个特殊的元字符,用于匹配任意空白字符,包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容,可以访问下面的文章。

232

2023.11.17

正则表达式中如何匹配数字
正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

528

2023.12.06

Java 项目构建与依赖管理(Maven / Gradle)
Java 项目构建与依赖管理(Maven / Gradle)

本专题系统讲解 Java 项目构建与依赖管理的完整体系,重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例,帮助学习者掌握 从零搭建、维护到发布 Java 工程的标准化流程,提升在实际团队开发中的工程能力与协作效率。

10

2026.01.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Git 教程
Git 教程

共21课时 | 2.6万人学习

Git版本控制工具
Git版本控制工具

共8课时 | 1.5万人学习

Git中文开发手册
Git中文开发手册

共0课时 | 0人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号