Pandas DataFrame中基于字符串数字的高级条件赋值技巧

心靈之曲

发布时间：2025-10-10 11:23:01

735人浏览过

来源于php中文网

原创

Pandas DataFrame中基于字符串数字的高级条件赋值技巧

本文深入探讨了在Pandas DataFrame中，如何根据现有列（如字符串中的数字部分）的特定条件，高效地创建或更新新列。文章将详细介绍如何结合str.extract、pd.cut和np.log10等工具，实现基于数值范围或数字位数的高级条件赋值，从而提升数据处理的灵活性和效率。

在数据分析和处理过程中，我们经常需要根据dataframe中某一列的复杂条件来生成或更新另一列的值。例如，从一个包含混合字符串和数字的列中提取数字，并根据这些数字的特点（如数值大小范围或数字的位数）进行分类赋值。本教程将展示两种高效且专业的pandas解决方案来解决这类问题。

初始数据准备

首先，我们构建一个示例DataFrame，它包含Server和Port两列。Port列是一个字符串，其中包含"Ethernet"前缀和随后的一个或多个数字。

import pandas as pd
import numpy as np

data = {
    'Server': ['Ser123', 'Ser123', 'Ser123', 'Ser123', 'Serabc', 'Serabc', 'Serabc', 'Serabc'],
    'Port': ['Ethernet3', 'Ethernet4', 'Ethernet12', 'Ethernet567', 'Ethernet2', 'Ethernet34', 'Ethernet458', 'Ethernet5689']
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

输出：

原始DataFrame:
   Server          Port
0  Ser123     Ethernet3
1  Ser123     Ethernet4
2  Ser123    Ethernet12
3  Ser123   Ethernet567
4  Serabc     Ethernet2
5  Serabc    Ethernet34
6  Serabc   Ethernet458
7  Serabc  Ethernet5689

我们的目标是创建一个名为function_val的新列，其值将根据Port列中数字部分的特性来决定。具体规则如下：

如果数字是1位（例如Ethernet3），function_val为'5k'。
如果数字是2位（例如Ethernet12），function_val为'10k'。
如果数字是3位或更多（例如Ethernet567），function_val为'20k'。

解决方案一：基于数值范围的分类赋值 (str.extract + pd.cut)

这种方法适用于根据提取出的数字的数值大小范围进行分类。

提取数字： 使用Series.str.extract()结合正则表达式r'(\d+)$'来提取Port列末尾的数字。(\d+)捕获一个或多个数字，$匹配字符串的末尾。expand=False确保返回一个Series而不是DataFrame。
类型转换： 将提取出的字符串数字转换为整数类型，以便进行数值比较。
区间划分与赋值： 使用pd.cut()函数将数字划分到预定义的区间（bins）中，并为每个区间分配相应的标签（labels）。

# 定义数值区间和对应的标签
bins = [0, 10, 100, np.inf] # 0 < x <= 10, 10 < x <= 100, 100 < x <= inf
labels = ['5k', '10k', '20k']

# 提取数字，转换为整数，并使用pd.cut进行分类赋值
df['function_val_cut'] = pd.cut(
    df['Port'].str.extract(r'(\d+)$', expand=False).astype(int),
    bins=bins,
    labels=labels,
    right=True # 默认右闭合，即 (bin_i, bin_i+1]
)

print("\n使用pd.cut分类后的DataFrame:")
print(df)

输出：

使用pd.cut分类后的DataFrame:
   Server          Port function_val_cut
0  Ser123     Ethernet3               5k
1  Ser123     Ethernet4               5k
2  Ser123    Ethernet12              10k
3  Ser123   Ethernet567              20k
4  Serabc     Ethernet2               5k
5  Serabc    Ethernet34              10k
6  Serabc   Ethernet458              20k
7  Serabc  Ethernet5689              NaN

注意事项：

bins定义了区间的边界。例如，[0, 10, 100, np.inf]会创建三个区间：(0, 10], (10, 100], (100, inf)。
right=True（默认值）表示区间是右闭合的，即bins[i]到bins[i+1]的区间包含bins[i+1]但不包含bins[i]。
在上述示例中，Ethernet5689中的5689超出了[0, 10, 100, np.inf]定义的最高区间，因此被赋值为NaN。如果需要处理这种情况，可以调整bins的定义或在pd.cut之后进行进一步处理。

解决方案二：基于数字位数的条件赋值 (str.extract + np.log10 + np.ceil + map)

这种方法适用于根据提取出的数字的位数进行分类。

百度文心一格

百度推出的AI绘画作图工具

下载

提取数字和类型转换： 与方法一相同，提取数字并转换为整数。
计算位数： 利用数学函数np.log10和np.ceil来计算一个正整数的位数。对于一个正整数N，其位数为ceil(log10(N+1))。
- 例如，N=3 (log10(4) ≈ 0.6) -> ceil(0.6) = 1位。
- 例如，N=12 (log10(13) ≈ 1.1) -> ceil(1.1) = 2位。
- 例如，N=567 (log10(568) ≈ 2.7) -> ceil(2.7) = 3位。
映射赋值： 使用Series.map()函数将计算出的位数映射到预定义的标签字典。

# 定义位数和对应的标签映射
labels_by_digits = {1: '5k', 2: '10k', 3: '20k', 4: '20k'} # 假设4位也对应20k

# 提取数字，转换为整数，计算位数，并使用map进行赋值
df['function_val_digits'] = (
    np.ceil(np.log10(df['Port'].str.extract(r'(\d+)$', expand=False).astype(int) + 1))
    .map(labels_by_digits)
)

print("\n使用位数映射分类后的DataFrame:")
print(df)

输出：

使用位数映射分类后的DataFrame:
   Server          Port function_val_cut function_val_digits
0  Ser123     Ethernet3               5k                  5k
1  Ser123     Ethernet4               5k                  5k
2  Ser123    Ethernet12              10k                 10k
3  Ser123   Ethernet567              20k                 20k
4  Serabc     Ethernet2               5k                  5k
5  Serabc    Ethernet34              10k                 10k
6  Serabc   Ethernet458              20k                 20k
7  Serabc  Ethernet5689              NaN                 20k

注意事项：

labels_by_digits字典需要包含所有可能出现的位数及其对应的标签。如果计算出的位数在字典中没有对应的键，map函数将返回NaN。
这种方法对于严格按照数字位数进行分类的场景非常有效。

总结与最佳实践

本文展示了在Pandas DataFrame中根据复杂条件（特别是从字符串中提取数字并基于其数值或位数）创建新列的两种强大方法：

str.extract + pd.cut： 适用于根据数值的大小范围进行分类。当需要将连续的数值数据离散化到预定义区间时，这是一个理想的选择。
str.extract + np.log10 + np.ceil + map： 适用于根据数字的位数进行分类。当分类逻辑与数字的长度而非具体数值范围更相关时，此方法更为直接和高效。

在实际应用中，选择哪种方法取决于具体的业务逻辑和分类需求。无论哪种方法，以下几点都是通用的最佳实践：

正则表达式的精准性： 确保str.extract中的正则表达式能够准确无误地捕获目标数据。
数据类型转换： 在进行数值计算或比较之前，务必将提取出的字符串数据转换为正确的数值类型（如int或float）。
错误处理： 考虑正则表达式未能匹配、类型转换失败或数值超出预设范围/映射字典的情况，并根据需要添加错误处理逻辑（例如，使用fillna()处理NaN值）。
可读性与维护性： 对于复杂的条件逻辑，将bins、labels或映射字典定义为单独的变量，可以提高代码的可读性和可维护性。

通过掌握这些Pandas技巧，您可以更高效、更灵活地处理和转换DataFrame中的数据，满足各种复杂的数据处理需求。

Python持续集成高级教程_测试覆盖率与发布流程实践

ZSH 提示符中动态条件显示 Git 分支与虚拟环境信息的完整教程

如何在 ZSH 提示符中动态条件显示 Git 分支与虚拟环境信息

如何在 Pipfile 中正确引用本地 Git 仓库的特定分支

如何在 Pipfile 中正确引用本地 Git 仓库的指定分支

相关专题

js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法，还有更多js正则表达式的相关文章、相关下载、相关课程，供大家免费下载体验。

510

2023.06.20

正则表达式不包含

正则表达式，又称规则表达式,，是一种文本模式，包括普通字符和特殊字符，是计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串，通常被用来检索、替换那些符合某个模式的文本。php中文网给大家带来了有关正则表达式的相关教程以及文章，希望对大家能有所帮助。

247

2023.07.05

java正则表达式语法

java正则表达式语法是一种模式匹配工具，它非常有用，可以在处理文本和字符串时快速地查找、替换、验证和提取特定的模式和数据。本专题提供java正则表达式语法的相关文章、下载和专题，供大家免费下载体验。

737

2023.07.05

java正则表达式匹配字符串

在Java中，我们可以使用正则表达式来匹配字符串。本专题为大家带来java正则表达式匹配字符串的相关内容，帮助大家解决问题。

211

2023.08.11

正则表达式空格

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。本专题为大家提供正则表达式相关的文章、下载、课程内容，供大家免费下载体验。

349

2023.08.31

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

正则表达式空格如何表示

正则表达式空格可以用“s”来表示，它是一个特殊的元字符，用于匹配任意空白字符，包括空格、制表符、换行符等。想了解更多正则表达式空格怎么表示的内容，可以访问下面的文章。

232

2023.11.17

正则表达式中如何匹配数字

正则表达式中可以通过匹配单个数字、匹配多个数字、匹配固定长度的数字、匹配整数和小数、匹配负数和匹配科学计数法表示的数字的方法匹配数字。更多关于正则表达式的相关知识详情请看本专题下面的文章。php中文网欢迎大家前来学习。

528

2023.12.06

Java 项目构建与依赖管理（Maven / Gradle）

本专题系统讲解 Java 项目构建与依赖管理的完整体系，重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例，帮助学习者掌握从零搭建、维护到发布 Java 工程的标准化流程，提升在实际团队开发中的工程能力与协作效率。

2026.01.12

热门下载

网站特效

网站源码

网站素材

前端模板