Pandas管道操作中合并后高效创建新列的方法

心靈之曲

发布时间：2025-11-25 14:25:14

177人浏览过

来源于php中文网

原创

Pandas管道操作中合并后高效创建新列的方法

在pandas数据处理管道中，合并（merge）操作后如何高效且简洁地利用现有列创建新列是一个常见需求。本文将深入探讨在管道中执行此类计算的正确方法，重点介绍`dataframe.eval()`方法，并解释为什么直接使用`assign()`或`transform()`可能导致类型错误，提供清晰的实现范例，以优化数据处理流程。

在数据分析和处理中，我们经常需要将多个数据集合并，然后在合并后的结果上进行进一步的计算，生成新的特征列。Pandas的管道式操作（.pipe()或链式方法调用）能够使代码更加简洁和可读。然而，在管道中合并数据后尝试使用assign()或transform()创建新列时，可能会遇到一些类型错误，尤其是在直接引用列名进行运算时。

初始数据准备

首先，我们创建两个示例DataFrame，solar_part和solar_aod，它们将通过pool列进行合并。

import pandas as pd

# 第一个DataFrame
solar_part = pd.DataFrame(
     {'pool': 1,
     'orig': 635.1}, index = [0]
     )

# 第二个DataFrame
solar_aod = pd.DataFrame(
     {'pool': [1,1,1,1],
      'MoP': [1,2,3,4],
     'prin': [113.1, 115.3, 456.6, 234.1]}
     )

print("solar_part DataFrame:")
print(solar_part)
print("\nsolar_aod DataFrame:")
print(solar_aod)

合并后的计算挑战

我们的目标是在合并solar_aod和solar_part后，创建一个名为remn的新列，其值为prin列除以orig列的结果。

尝试直接在assign()中使用列表引用列名进行计算，例如 assign(remn = ['prin'] / ['orig'])，会导致 TypeError: unsupported operand type(s) for /: 'list' and 'list'。这是因为 ['prin'] 和 ['orig'] 被解释为包含字符串的列表，而不是DataFrame的Series列。即使尝试使用字符串引用（例如 'prin' / 'orig'），也会因为字符串不支持除法操作而产生类似的错误。

# 错误的尝试：直接在assign中使用列表引用
try:
    solar_p_error = (
        solar_aod
        .merge(solar_part, on = ['pool'], how = 'left')
        .assign(remn = ['prin'] / ['orig'])
    )
except TypeError as e:
    print(f"\n捕获到错误：{e}")

解决方案：使用 DataFrame.eval()

为了在管道中优雅且高效地完成合并后的列计算，DataFrame.eval()方法是一个非常强大的工具。它允许我们使用字符串表达式来创建或修改列，Pandas会在DataFrame的上下文中解析这些表达式。

eval()的优势在于：

简洁性： 可以直接用字符串形式表达复杂的列间运算。
性能： 对于大型DataFrame，eval()在某些情况下比纯Python循环或NumPy操作更高效，因为它在C层面进行计算。
可读性： 表达式直接反映了计算逻辑。

以下是使用eval()在合并后创建新列的正确方法：

动易网上商城管理系统 2006 Sp6 Build 1120 普及版

将产品展示、购物管理、资金管理等功能相结合，并提供了简易的操作、丰富的功能和完善的权限管理，为用户提供了一个低成本、高效率的网上商城建设方案包含PowerEasy CMS普及版，主要功能模块：文章频道、下载频道、图片频道、留言频道、采集管理、商城模块、商城日常操作模块500个订单限制（超出限制后只能查看和删除，不能进行其他处理）无订单处理权限分配功能（只有超级管理员才能处理订单）

下载

# 正确的解决方案：使用 eval()
solar_p_correct = (
    solar_aod
    .merge(solar_part, on='pool', how='left')
    .eval('remn = prin / orig')
)

print("\n使用 eval() 创建新列后的 DataFrame:")
print(solar_p_correct)

输出结果：

   pool  MoP   prin   orig      remn
0     1    1  113.1  635.1  0.178082
1     1    2  115.3  635.1  0.181546
2     1    3  456.6  635.1  0.718942
3     1    4  234.1  635.1  0.368603

在这个示例中，'remn = prin / orig' 是一个字符串表达式，eval()会识别 prin 和 orig 为DataFrame中的列，并执行相应的除法运算，将结果赋值给新列 remn。

替代方案：assign() 结合 lambda 函数

虽然 eval() 在此场景下表现出色，但 assign() 也可以通过结合 lambda 函数来完成任务。lambda 函数允许您传入DataFrame本身作为参数，从而正确地引用其列。

# 替代方案：使用 assign() 结合 lambda 函数
solar_p_lambda = (
    solar_aod
    .merge(solar_part, on='pool', how='left')
    .assign(remn = lambda df: df['prin'] / df['orig'])
)

print("\n使用 assign() 结合 lambda 创建新列后的 DataFrame:")
print(solar_p_lambda)

这种方法同样有效，但对于简单的算术表达式，eval() 的字符串语法通常更简洁直观。assign() 结合 lambda 在需要更复杂逻辑（例如条件判断、调用外部函数）时更为灵活。

注意事项与最佳实践

选择合适的工具： 对于基于现有列的简单算术或比较操作，DataFrame.eval() 是管道中创建新列的理想选择。它提供简洁的语法和潜在的性能优势。
理解 assign() 的工作方式： assign() 期望接收Series或可调用对象（如 lambda 函数），而不是直接的字符串列名或列表。当使用 lambda 时，lambda 函数会接收当前DataFrame作为参数，从而可以正确地访问列。
可读性优先： 在选择方法时，始终考虑代码的可读性和维护性。对于复杂的、涉及多列的计算，eval() 的字符串表达式可能比嵌套的 lambda 表达式更易读。
避免混合引用： 在 eval() 表达式中，列名可以直接使用，但如果要引入外部变量，需要使用 @ 符号，例如 eval('remn = prin / @my_variable')。

总结

在Pandas的数据处理管道中，合并操作后高效地创建新列是常见需求。通过本文的探讨，我们了解到DataFrame.eval()方法是处理这类任务的强大且简洁的工具，它允许我们直接使用字符串表达式进行列间计算，避免了assign()在直接引用列名时可能导致的TypeError。同时，我们也介绍了assign()结合lambda函数的替代方案，适用于更复杂的逻辑。掌握这些技巧，将有助于您编写更清晰、更高效的Pandas数据处理代码。

标题：Python 日志配置的动态合并：字典默认配置与外部文件覆盖的优雅实践

Python 中实现单实例应用并等待前一个实例完成的完整方案

Python 中实现单实例应用并等待前一个实例结束的完整方案

如何高效统计字符串中出现的唯一排列子串数量

如何修改 Python 中的元组元素？

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

754

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

636

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

707

2023.08.11

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板