基于键值条件高效映射 Pandas DataFrame 多列数据

花韻仙語

发布时间：2025-11-29 13:08:17

816人浏览过

来源于php中文网

原创

基于键值条件高效映射 Pandas DataFrame 多列数据

本文介绍如何利用 pandas 和 numpy 高效地根据 dataframe 中“键”列的值，有条件地映射和处理多列数据。针对传统 `numpy.select` 逐列操作的低效性，教程将展示如何通过构建布尔掩码结合 `dataframe.where()` 方法实现矢量化操作，从而优化数据清洗和转换流程，将不符合条件的列值替换为指定标记（如 'na'）。

1. 问题背景与传统方法局限性

在数据处理中，我们经常需要根据某一“键”列的值，有条件地修改或保留 DataFrame 中其他多列的数据。例如，当“键”列为 'key1' 时，我们可能只关心 'colA' 和 'colD' 的值，而其他列则应标记为无效。

以下是一个典型的场景及使用 numpy.select 的传统实现方式：

import pandas as pd
import numpy as np

# 创建示例 DataFrame
data = {
    'key': ['key1', 'key2', 'key3', 'key1', 'key2'],
    'colA': ['value1A', 'value2A', 'value3A', 'value4A', 'value5A'],
    'colB': ['value1B', 'value2B', 'value3B', 'value4B', 'value5B'],
    'colC': ['value1C', 'value2C', 'value3C', 'value4C', 'value5C'],
    'colD': ['value1D', 'value2D', 'value3D', 'value4D', 'value5D']
}
df = pd.DataFrame(data)

# 传统方法：为每列单独应用 np.select
df['colA'] = np.select([df['key'] == 'key1'], [df['colA']], default= 'NA')
df['colD'] = np.select([df['key'] == 'key1'], [df['colD']], default= 'NA')
df['colB'] = np.select([df['key'] == 'key2'], [df['colB']], default= 'NA')
df['colC'] = np.select([df['key'] == 'key3'], [df['colC']], default= 'NA')

print("使用 np.select 的结果:")
print(df)

输出结果：

使用 np.select 的结果:
    key     colA     colB     colC     colD
0  key1  value1A       NA       NA  value1D
1  key2       NA  value2B       NA       NA
2  key3       NA       NA  value3C       NA
3  key1  value4A       NA       NA  value4D
4  key2       NA  value5B       NA       NA

这种方法虽然能达到目的，但存在明显局限性：

拍我AI

AI视频生成平台PixVerse的国内版本

下载

重复性高： 对于每个需要映射的列，都需要重复编写 np.select 逻辑。
扩展性差： 当需要处理的列数很多时，代码会变得冗长且难以维护。
效率问题： 尽管 np.select 是矢量化的，但多次独立的列操作仍然不如一次性处理所有相关列高效。

为了解决这些问题，我们需要一种更高效、更具通用性的矢量化方法。

2. 基于布尔掩码的矢量化映射方法

Pandas 提供了强大的工具来构建和应用布尔掩码，实现对 DataFrame 的高效条件性修改。核心思想是创建一个与原始 DataFrame 形状相似的布尔矩阵，该矩阵的 True 值指示应保留原始数据，False 值指示应替换为默认值（如 'NA'）。

2.1 核心思路

定义映射规则： 使用字典明确指定每个“键”值对应哪些目标列是有效的。
生成布尔掩码： 将映射规则转换为一个布尔 DataFrame，其中行代表“键”，列代表数据列，True 表示该键下该列有效。
对齐并应用掩码： 将生成的布尔掩码与原始 DataFrame 的“键”列对齐，然后使用 DataFrame.where() 方法一次性应用到所有目标列。

2.2 实现步骤与代码示例

首先，定义我们的映射规则，即哪个 key 对应哪些列是有效的：

import pandas as pd
import numpy as np

# 重新创建原始 DataFrame
data = {
    'key': ['key1', 'key2', 'key3', 'key1', 'key2'],
    'colA': ['value1A', 'value2A', 'value3A', 'value4A', 'value5A'],
    'colB': ['value1B', 'value2B', 'value3B', 'value4B', 'value5B'],
    'colC': ['value1C', 'value2C', 'value3C', 'value4C', 'value5C'],
    'colD': ['value1D', 'value2D', 'value3D', 'value4D', 'value5D']
}
df = pd.DataFrame(data)

# 1. 定义键与目标列的映射关系
# 例如：'key1' 对应 'colA' 和 'colD'

Pandas教程：合并具有重叠日期区间的两个DataFrame

Pandas 实现时间区间重叠合并：按日期粒度对齐多源时序数据

如何在 ROS2 Humble 中正确运行 Python 节点

LangChain 工具调用异常：arg1 参数错误的成因与正确实现方案

Python dataclass 与类型提示的协同设计

相关标签:

工具数据清洗 numpy pandas select

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Dagster资产间数据传递与用户配置管理教程下一篇：Python csv 模块处理非字符串数据：列表写入 CSV 文件的机制解析

作者最新文章

在 PHP 中嵌入 JavaScript 并正确传递 PHP 变量值的完整指南

2026-01-21 09:41

如何使用正则表达式精准提取引号内外的非空白标识符（跳过引号内空格）

2026-01-21 09:44

小红书达人种草下单平台是什么？小红书达人如何筛选？

2026-01-21 09:45

Vue-Laravel 文件上传失败：FormData 为空的完整解决方案

2026-01-21 09:59

Vue-Laravel 文件上传 FormData 为空问题的完整解决方案

2026-01-21 10:00

高效导入 MariaDB 大数据集：低内存占用的 Python 实现方案

2026-01-21 10:03

如何在 DataTables 服务端模式下正确设置默认每页显示行数

2026-01-21 10:19

Java 8 Streams 实现嵌套 Map 结构的条件过滤与键提取

2026-01-21 10:28

如何解析 Go 源文件中的 go:generate 指令

2026-01-21 10:29

Kaggle 中解决 pip 依赖冲突的正确方法：使用 legacy 解析器

2026-01-21 10:30

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Java编译相关教程合集

本专题整合了Java编译相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.21

C++多线程相关合集

本专题整合了C++多线程相关教程，阅读专题下面的的文章了解更多详细内容。

2026.01.21

无人机驾驶证报考 uom民用无人机综合管理平台官网

无人机驾驶证（CAAC执照）报考需年满16周岁，初中以上学历，身体健康（矫正视力1.0以上，无严重疾病），且无犯罪记录。个人需通过民航局授权的训练机构报名，经理论（法规、原理）、模拟飞行、实操（GPS/姿态模式）及地面站训练后考试合格，通常15-25天拿证。

2026.01.21

Python多线程合集

本专题整合了Python多线程相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.21

java多线程相关教程合集

本专题整合了java多线程相关教程，阅读专题下面的文章了解更多详细内容。

2026.01.21

windows激活码分享 windows一键激活教程指南

Windows 10/11一键激活可以通过PowerShell脚本或KMS工具实现永久或长期激活。最推荐的简便方法是打开PowerShell（管理员），运行 irm https://get.activated.win | iex 脚本，按提示选择数字激活（选项1）。其他方法包括使用HEU KMS Activator工具进行智能激活。

2026.01.21

excel表格操作技巧大全表格制作excel教程

Excel表格操作的核心技巧在于熟练使用快捷键、数据处理函数及视图工具，如Ctrl+C/V（复制粘贴）、Alt+=（自动求和）、条件格式、数据验证及数据透视表。掌握这些可大幅提升数据分析与办公效率，实现快速录入、查找、筛选和汇总。

2026.01.21

毒蘑菇显卡测试网站入口毒蘑菇测试官网volumeshader_bm

毒蘑菇VOLUMESHADER_BM测试网站网址为https://toolwa.com/vsbm/，该平台基于WebGL技术通过渲染高复杂度三维分形图形评估设备图形处理能力，用户可通过拖动彩色物体观察画面流畅度判断GPU与CPU协同性能；测试兼容多种设备，但中低端手机易卡顿或崩溃，高端机型可能因发热降频影响表现，桌面端需启用独立显卡并使用支持WebGL的主流浏览器以确保准确结果

2026.01.21

热门下载

网站特效

网站源码

网站素材

前端模板