Pandas DataFrame：优化多列批量加减运算

心靈之曲

发布时间：2025-11-23 12:56:16

869人浏览过

来源于php中文网

原创

Pandas DataFrame：优化多列批量加减运算

本教程详细介绍了在pandas dataframe中对多列执行批量加减运算的两种高效方法。我们将探讨如何利用`dataframe.eval()`进行多行表达式求值，以及如何通过链式调用`add()`和`sub()`方法结合向量化操作实现相同效果。文章将提供详细的代码示例和解释，帮助读者根据具体场景选择最合适的策略，从而提升数据处理效率和代码可读性。

引言：DataFrame多列批量运算挑战

在数据分析和处理中，我们经常需要对Pandas DataFrame中的多个列执行相同的算术运算。例如，可能需要将某个基准列的值从一组目标列中减去，然后再加上另一个参考列的值。手动逐列编写这样的操作（如 df['C'] = df['C'] - df['B'] + df['A']，然后对 D 和 E 重复）不仅冗长，而且效率低下，尤其当涉及的列数很多时。本教程将介绍两种更优雅、更高效的解决方案，帮助您简化代码并提升性能。

方法一：使用 DataFrame.eval() 实现多行表达式求值

DataFrame.eval() 方法允许您使用字符串表达式对DataFrame进行计算，其语法更接近数学表达式，并且可以处理多行表达式，从而实现对多列的批量操作。对于复杂的、涉及多个列的运算，eval() 提供了一种简洁且可读性强的解决方案。

示例代码

假设我们有一个DataFrame df，需要将列 C, D, E 分别减去 B 列的值，然后加上 A 列的值。

import pandas as pd

data = {
  "A": [42, 38, 39, 23],
  "B": [45, 30, 15, 65],
  "C": [60, 50, 25, 43],
  "D": [12, 70, 35, 76],
  "E": [87, 90, 45, 43],
  "F": [40, 48, 55, 76],
  "G": [58, 42, 85, 10],
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

# 使用eval()进行批量操作
df_eval = df.copy() # 创建副本以避免修改原始DataFrame
df_eval = df_eval.eval('''C = C - B + A
D = D - B + A
E = E - B + A
''')

print("\n使用eval()后的DataFrame:")
print(df_eval)

解释

eval() 方法接受一个多行字符串作为参数，其中每一行代表一个赋值表达式。在表达式中，您可以直接引用DataFrame的列名，eval() 会自动识别并将其视为Series对象进行计算。这种方法在内部利用NumExpr库进行优化，对于大型数据集可以提供显著的性能提升。它将多个独立的赋值操作合并为一个高效的内部计算过程。

方法二：利用链式 add() 和 sub() 进行向量化操作

Pandas的Series和DataFrame对象支持向量化操作，这意味着您可以对整个列或DataFrame执行算术运算，而无需编写显式的循环。通过链式调用 add() 和 sub() 等方法，我们可以构建出高效且表达力强的批量操作。这种方法特别适用于当多个目标列需要应用相同的偏移量或变换时。

网趣网上购物系统HTML静态版

网趣购物系统静态版支持网站一键静态生成，采用动态进度条模式生成静态，生成过程更加清晰明确，商品管理上增加淘宝数据包导入功能，与淘宝数据同步更新!采用领先的AJAX+XML相融技术，速度更快更高效！系统进行了大量的实用性更新，如优化核心算法、增加商品图片批量上传、谷歌地图浏览插入等，静态版独特的生成算法技术使静态生成过程可随意掌控，从而可以大大减轻服务器的负担，结合多种强大的SEO优化方式于一体，使

下载

示例代码

我们将使用与上述相同的数据集，通过链式方法实现相同的运算。

import pandas as pd

data = {
  "A": [42, 38, 39, 23],
  "B": [45, 30, 15, 65],
  "C": [60, 50, 25, 43],
  "D": [12, 70, 35, 76],
  "E": [87, 90, 45, 43],
  "F": [40, 48, 55, 76],
  "G": [58, 42, 85, 10],
}
df = pd.DataFrame(data)

# print("原始DataFrame:") # 原始DataFrame已在eval示例中打印
# print(df)

# 使用链式add/sub进行批量操作
df_chained = df.copy() # 创建副本以避免修改原始DataFrame

# 计算共同的偏移量：A - B
# df['A'].sub(df['B']) 等同于 df['A'] - df['B']
offset = df_chained['A'].sub(df_chained['B'])

# 将偏移量加到目标列上
# df[['C', 'D', 'E']] 是一个包含目标列的子DataFrame
# .add(offset, axis=0) 将 Series 'offset' 按行（axis=0）广播到子DataFrame的每一列
df_chained[['C', 'D', 'E']] = df_chained[['C', 'D', 'E']].add(offset, axis=0)

print("\n使用链式add/sub后的DataFrame:")
print(df_chained)

解释

这种方法的核心在于利用Pandas的广播机制。首先，我们计算出所有目标列都需要共享的共同偏移量 A - B，这会得到一个Series对象 offset。然后，我们选择目标列 df_chained[['C', 'D', 'E']]，并使用 .add() 方法将 offset Series 添加到这些列上。axis=0 参数确保 offset Series 的值按行与目标DataFrame的每一列对齐并相加。这种方式非常直观，且充分利用了Pandas底层的优化，提供了出色的性能。

两种方法的比较与选择

DataFrame.eval()：
- 优点： 语法简洁，更接近自然语言或数学表达式，尤其适合处理多行且逻辑复杂的表达式。对于大型DataFrame，它通常能提供更好的性能，因为它利用NumExpr库进行优化。
- 缺点： 字符串表达式可能在某些情况下难以调试。此外，应避免在eval()中使用不受信任的用户输入，以防潜在的安全风险。
链式 add()/sub()：
- 优点： 代码更具Pandas风格，显式调用方法使得操作流程清晰。对于本例中这种“对多列应用相同操作”的场景，通过计算一个公共偏移量并进行广播，代码简洁高效。易于理解其向量化原理。
- 缺点： 对于非常复杂的、涉及不同运算逻辑的多列操作，可能需要更复杂的链式调用或分步操作。

性能考量： 对于大多数常见的数据集大小，这两种方法都比传统的Python循环快得多。在极大规模的数据集上，eval() 可能会因其底层的NumExpr优化而略胜一筹。然而，在实际应用中，选择哪种方法更多取决于代码的可读性、维护性以及个人或团队的偏好。

总结

Pandas为DataFrame中的批量算术运算提供了多种高效且灵活的工具。DataFrame.eval() 提供了一种简洁的字符串表达式方式，适用于复杂的多行逻辑。而链式调用 add() 和 sub() 等方法则通过向量化和广播机制，为重复的、结构化的运算提供了清晰高效的解决方案。掌握这两种方法，将使您能够更有效地处理数据，编写出更简洁、更专业的Pandas代码。在实际工作中，建议根据具体任务的复杂性、代码的可读性要求以及性能需求来选择最适合的方法。

Python 为什么不推荐复杂继承体系？

Python 并发程序为何难以测试？

Python 数据结构如何影响算法复杂度？

Python flush 到底刷新了什么？

Python 动态导入的正确使用方式

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

760

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

639

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

762

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

619

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1285

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

709

2023.08.11

PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践，涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例，帮助开发者掌握使用 PHP 构建实时通信与推送服务的完整开发流程，适用于即时消息与高互动性应用场景。

2026.01.19

热门下载

网站特效

网站源码

网站素材

前端模板