Pandas数据框中基于复杂条件更新列值：高效提取、分类与赋值实践

碧海醫心

发布时间：2025-10-10 11:22:01

722人浏览过

来源于php中文网

原创

Pandas数据框中基于复杂条件更新列值：高效提取、分类与赋值实践

本文详细介绍了在Pandas数据框中，如何根据某一列的复杂字符串模式（如从'Ethernet'后提取数字）来创建或更新新列。通过结合正则表达式提取数值、使用pd.cut进行数值范围分箱，或利用np.log10计算数字位数并进行映射，实现高效、灵活的条件赋值，避免了低效的循环操作，提升数据处理效率。

引言

在数据处理和分析中，我们经常需要根据现有列的复杂逻辑来生成或更新新的数据列。这其中一个常见的场景是，从包含特定模式的字符串列中提取数值，并依据这些数值的特征（如大小范围或数字位数）来赋予新列不同的分类标签。传统的方法可能涉及循环遍历行，但这在处理大型数据集时效率低下。pandas提供了强大的向量化操作，能够以更高效、简洁的方式完成此类任务。本文将以一个具体示例，详细讲解如何利用pandas的str.extract、pd.cut和np.log10等函数，实现基于复杂条件的列值更新。

问题描述

假设我们有一个Pandas DataFrame，其中包含Server和Port两列。Port列的值通常以“Ethernet”开头，后跟一个或多个数字，例如Ethernet3、Ethernet12、Ethernet567。我们的目标是根据Port列中“Ethernet”后的数字特征，创建一个名为function_val的新列。具体的分类规则如下：

如果数字是单位数（如3、4），function_val应为'5k'。
如果数字是两位数（如12、34），function_val应为'10k'。
如果数字是三位数或更多位数（如567、5689），function_val应为'20k'。

原始数据框示例如下：

import pandas as pd
import numpy as np

data = {
    'Server': ['Ser123', 'Ser123', 'Ser123', 'Ser123', 'Serabc', 'Serabc', 'Serabc', 'Serabc'],
    'Port': ['Ethernet3', 'Ethernet4', 'Ethernet12', 'Ethernet567', 'Ethernet2', 'Ethernet34', 'Ethernet458', 'Ethernet5689']
}
df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

期望的输出数据框：

   Server          Port function_val
0  Ser123     Ethernet3           5k
1  Ser123     Ethernet4           5k
2  Ser123    Ethernet12          10k
3  Ser123   Ethernet567          20k
4  Serabc     Ethernet2           5k
5  Serabc    Ethernet34          10k
6  Serabc   Ethernet458          20k
7  Serabc  Ethernet5689          20k

解决方案一：基于数值范围的条件赋值 (使用 str.extract 和 pd.cut)

这种方法适用于根据提取出的数值在不同区间内进行分类赋值的场景。它首先通过正则表达式从字符串中提取数字，然后使用pd.cut函数将这些数字分箱并分配相应的标签。

1. 提取数字部分

首先，我们需要从Port列的字符串中提取出末尾的数字。这可以通过Pandas的字符串方法str.extract()结合正则表达式实现。正则表达式r'(\d+)$'用于匹配字符串末尾的一个或多个数字。expand=False参数确保结果是一个Series而不是DataFrame。提取出的数字字符串随后需要转换为整数类型，以便进行数值比较和分箱。

# 提取Port列中的数字并转换为整数
extracted_numbers = df['Port'].str.extract(r'(\d+)$', expand=False).astype(int)
print("\n提取出的数字:")
print(extracted_numbers)

2. 定义分箱规则并赋值

接下来，我们定义数值区间（bins）和对应的标签（labels）。pd.cut()函数会将extracted_numbers中的每个值放入其所属的区间，并赋予相应的标签。

bins: 一个列表，定义了数值的分割点。[0, 10, 100, np.inf]表示将数字分为(0, 10]（即1-9）、(10, 100]（即10-99）和(100, inf)（即100及以上）三个区间。
labels: 一个列表，与bins中的区间一一对应，为每个区间指定一个标签。

# 定义分箱的边界和标签
bins = [0, 10, 100, np.inf]
labels = ['5k', '10k', '20k']

# 使用pd.cut进行分箱并创建新列
df['function_val'] = pd.cut(extracted_numbers, bins=bins, labels=labels, right=True)
print("\n使用pd.cut后的DataFrame:")
print(df)

代码解析：

笔启AI论文

专业高质量、低查重，免费论文大纲，在线AI生成原创论文，AI辅助生成论文的神器！

下载

pd.cut(..., right=True): 默认情况下，pd.cut的区间是左开右闭的（例如(0, 10]）。这意味着10会落在第一个区间。如果希望10落在第二个区间（即[10, 100)），则需要调整bins或设置right=False。在我们的例子中，单位数是1-9，两位数是10-99，三位数是100+。所以，[0, 10, 100, np.inf] 配合 right=True 意味着：
- (0, 10] 对应 5k (数字 1-9)
- (10, 100] 对应 10k (数字 10-99)
- (100, inf) 对应 20k (数字 100 及以上) 这与我们的需求完美匹配。

解决方案二：基于数字位数的条件赋值 (使用 str.extract, np.log10 和 map)

如果分类逻辑是严格基于数字的位数（例如，1位数、2位数、3位数），我们可以采用另一种方法：先提取数字，然后计算其位数，最后将位数映射到相应的标签。

1. 提取数字并计算位数

同样，我们首先提取数字并转换为整数。接着，利用数学函数np.log10()和np.ceil()来计算数字的位数。

对于一个正整数 N，其位数可以通过 floor(log10(N)) + 1 或 ceil(log10(N + 1)) 来计算。
np.ceil(np.log10(value + 1)) 是一种简洁且适用于大多数正整数的位数计算方法。例如：
- value = 3: ceil(log10(4)) = ceil(0.602) = 1 (1位数)
- value = 12: ceil(log10(13)) = ceil(1.114) = 2 (2位数)
- value = 567: ceil(log10(568)) = ceil(2.754) = 3 (3位数)
- value = 5689: ceil(log10(5690)) = ceil(3.755) = 4 (4位数)

# 提取数字并计算位数
num_digits = np.ceil(np.log10(df['Port'].str.extract(r'(\d+)$', expand=False).astype(int) + 1)).astype(int)
print("\n提取出的数字位数:")
print(num_digits)

2. 映射位数到目标值

计算出每个数字的位数后，我们创建一个字典来定义位数与目标值之间的映射关系，然后使用Series的map()方法将位数转换为对应的function_val。

# 定义位数到标签的映射
labels_by_digits = {1: '5k', 2: '10k', 3: '20k', 4: '20k'} # 根据原始需求，4位数也应为'20k'

# 使用map进行赋值
df['function_val_by_digits'] = num_digits.map(labels_by_digits)
print("\n使用np.log10和map后的DataFrame:")
print(df)

注意事项： 如果labels_by_digits字典中没有对应的位数，map()方法将默认填充NaN。你可以通过在字典中添加一个默认值或使用fillna()来处理这些情况。例如，如果希望所有超过3位数的都显示为“other”，可以设置labels_by_digits = {1: '5k', 2: '10k', 3: '20k', 4: 'other'}。在我们的例子中，为了满足原始需求，4位数也映射到'20k'。

总结与最佳实践

本文介绍了两种在Pandas数据框中根据复杂条件更新列值的有效方法：

基于数值范围的条件赋值 (str.extract + pd.cut)：
- 优点：直观地定义数值区间，适用于需要将数值划分为不同等级或类别的场景。
- 适用场景：当分类逻辑是基于提取数字的实际数值大小范围时，例如1-9、10-99、100+。
基于数字位数的条件赋值 (str.extract + np.log10 + map)：
- 优点：精确地根据数字的位数进行分类，逻辑清晰。
- 适用场景：当分类逻辑是基于提取数字的位数时，例如一位数、两位数、三位数等。

这两种方法都利用了Pandas的向量化操作，避免了低效的行级循环，从而在处理大规模数据集时表现出卓越的性能。在实际应用中，选择哪种方法取决于你的具体分类需求：是基于数值的绝对范围，还是基于数字的位数。理解并熟练运用这些技术，将大大提高你在Pandas中数据清洗和特征工程的效率。

Python持续集成高级教程_测试覆盖率与发布流程实践

ZSH 提示符中动态条件显示 Git 分支与虚拟环境信息的完整教程

如何在 ZSH 提示符中动态条件显示 Git 分支与虚拟环境信息

如何在 Pipfile 中正确引用本地 Git 仓库的特定分支

如何在 Pipfile 中正确引用本地 Git 仓库的指定分支

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

510

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

247

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

737

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

211

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

349

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

232

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

528

2023.12.06

Java 项目构建与依赖管理（Maven / Gradle）

本专题系统讲解 Java 项目构建与依赖管理的完整体系，重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例，帮助学习者掌握从零搭建、维护到发布 Java 工程的标准化流程，提升在实际团队开发中的工程能力与协作效率。

2026.01.12

热门下载

网站特效

网站源码

网站素材

前端模板