Python Pandas：高效比较多列并创建新列

霞舞

发布时间：2025-10-14 13:47:01

173人浏览过

来源于php中文网

原创

python pandas：高效比较多列并创建新列

本文旨在提供一种高效的Python Pandas解决方案，用于比较DataFrame中具有特定命名规则的多列，并根据比较结果创建新的指示列。通过循环遍历提取的特征名，并利用Pandas的向量化操作，可以显著简化代码并提高处理大量列的效率。

在数据分析和处理过程中，经常会遇到需要比较DataFrame中多列数据的情况，特别是当这些列具有相似的命名规则时。例如，存在column_x和column_y，需要比较这两列并生成一个指示它们是否相等的column_change列。如果需要比较的列很多，手动编写大量的比较语句会非常繁琐且容易出错。本文将介绍一种利用Python Pandas库，通过循环和向量化操作，高效地完成此类任务的方法。

问题描述

假设我们有一个DataFrame，其中包含多对列，列名以_x和_y结尾，表示需要比较的两个值。我们的目标是为每一对列创建一个新的列，列名以_change结尾，用于指示_x和_y列的值是否相等。如果相等，则_change列的值为1，否则为0。

解决方案

核心思路是：

立即学习“Python免费学习笔记（深入）”；

千面数字人

千面 Avatar 系列：音频转换让静图随声动起来，动作模仿让动漫复刻真人动作，操作简单，满足多元创意需求。

下载

提取所有需要比较的特征名（即列名前缀）。
循环遍历这些特征名。
在循环内部，使用Pandas的向量化操作比较对应的_x和_y列，并将结果存储到新的_change列中。

以下是具体的代码实现：

import pandas as pd

# 示例数据
data = {'cost_x': [1, 1], 'cost_y': [1, 0], 'amount_x': [1, 1], 'amount_y': [0, 1], 'type_x': [1, 0], 'type_y': [1, 1]}
df = pd.DataFrame(data)

# 提取特征名
features = pd.Series(df.columns).apply(lambda s: s.split("_")[0]).unique()

# 循环遍历特征名并创建新列
for v in features:
    df[v+"_change"] = (df[v+"_x"] == df[v+"_y"]).astype(int)

print(df)

代码解释：

导入Pandas库： import pandas as pd 导入Pandas库，用于数据处理。
创建示例数据： data = {...} 和 df = pd.DataFrame(data) 创建一个示例DataFrame，用于演示代码的运行效果。
提取特征名：
- pd.Series(df.columns) 将DataFrame的列名转换为Pandas Series。
- .apply(lambda s: s.split("_")[0]) 使用apply函数和lambda表达式，提取每个列名的前缀（即特征名）。
- .unique() 去除重复的特征名，得到一个包含所有唯一特征名的NumPy数组。
循环遍历特征名并创建新列：
- for v in features: 循环遍历提取到的特征名。
- df[v+"_change"] = (df[v+"_x"] == df[v+"_y"]).astype(int) 这是核心代码，使用Pandas的向量化操作比较v+"_x"和v+"_y"两列的值。
  - (df[v+"_x"] == df[v+"_y"]) 返回一个布尔型的Series，表示两列对应位置的值是否相等。
  - .astype(int) 将布尔型的Series转换为整型Series，True转换为1，False转换为0。
  - df[v+"_change"] = ... 将结果赋值给新的列v+"_change"。
打印结果： print(df) 打印修改后的DataFrame。

运行结果：

   cost_x  cost_y  amount_x  amount_y  type_x  type_y  cost_change  amount_change  type_change
0       1       1         1         0       1       1            1              0            1
1       1       0         1         1       0       1            0              1            0

总结与注意事项

向量化操作： Pandas的向量化操作是提高代码效率的关键。避免使用循环逐行比较，而是直接对整个列进行比较，可以显著提高代码的执行速度。
灵活性： 该方法具有很高的灵活性，可以轻松地应用于具有不同特征名和不同列数的数据集。只需要修改提取特征名的代码即可。
错误处理： 在实际应用中，可能需要添加错误处理机制，例如，检查是否存在对应的_x和_y列，或者处理缺失值等。
内存占用： 对于非常大的DataFrame，创建大量的中间变量可能会导致内存占用过高。可以考虑使用inplace=True参数直接修改DataFrame，或者使用更高级的内存优化技术。

通过使用以上方法，可以有效地比较Pandas DataFrame中的多列，并根据比较结果创建新的指示列，从而提高数据处理的效率和代码的可读性。这种方法尤其适用于需要处理大量列的情况，可以避免手动编写大量重复代码。

Python 文件缓冲区是如何工作的？

Python I/O 阻塞如何影响性能？

Python 如何设计“可恢复”的异常？

Python C 扩展如何提升性能？

Python 异常驱动流程是否合理？

相关标签:

python app 内存占用 cos Python numpy pandas print for 整型布尔型 int 循环 Lambda 数据分析

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：构建健壮的Tkinter化学元素查询GUI：解决常见错误与优化实践下一篇：Numba JIT模式下从现有NumPy数组创建新数组的正确姿势

作者最新文章

如何将 JSON 对象转换为 PHP 关联数组并安全访问数据

2026-01-21 09:57

日本一城市启用驱熊无人机系统，应对创纪录人熊冲突

2026-01-21 10:07

如何让 Bootstrap 登录页填满全屏并正确居中显示

2026-01-21 10:15

Cordova Android 应用保持沉浸模式并正确适配软键盘的完整解决方案

2026-01-21 10:15

Laravel 8 多语言 JSON 本地化失效的正确实现方案

2026-01-21 10:16

小红书私信禁言申诉内容怎么写？禁言多久会自动解除？

2026-01-21 10:22

如何在数据库表可能被修改时安全地缓存 SQL 查询结果

2026-01-21 10:22

IndexedDB 索引未找到错误的完整解决方案

2026-01-21 10:24

Linux JNI库加载失败的根源与解决方案

2026-01-21 10:28

抖音私信获客怎么做链接？获客链接靠谱吗？

2026-01-21 10:32

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

769

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

661

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

659

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1345

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

730

2023.08.11