0

0

使用NumPy高效选择Pandas DataFrame指定坐标的单元格

花韻仙語

花韻仙語

发布时间:2025-11-12 11:23:01

|

602人浏览过

|

来源于php中文网

原创

使用numpy高效选择pandas dataframe指定坐标的单元格

本文详细介绍了如何利用NumPy的强大索引能力,高效地从Pandas DataFrame中根据一组行/列坐标选择特定单元格,并支持“反向选择”模式。通过将坐标列表转换为适合NumPy数组索引的转置元组,我们能够以矢量化方式创建新的DataFrame,填充指定单元格或将其余单元格留空,从而避免了低效的循环操作,显著提升了数据处理性能。

引言

在数据分析和处理中,我们经常需要从大型数据结构中精确地提取或修改特定数据点。对于Pandas DataFrame而言,虽然有多种选择数据的方法(如loc、iloc、at、iat),但当需要根据一组非连续的(行索引, 列索引)坐标来批量选择单元格时,直接迭代往往效率低下。本文将介绍一种利用NumPy数组的矢量化索引功能,高效地实现DataFrame指定单元格选择,并支持反向选择的策略。

问题描述与传统方法的局限

假设我们有一个Pandas DataFrame和一个包含(行, 列)元组的坐标列表。我们的目标是根据这些坐标来选择DataFrame中的特定单元格,并能够灵活地实现两种模式:

  1. 正向选择 (inverted=False):只保留指定坐标处的单元格内容,其余单元格留空(例如,设置为 '')。
  2. 反向选择 (inverted=True):保留所有非指定坐标处的单元格内容,而将指定坐标处的单元格留空。

传统上,对于单个或少量单元格的操作,我们可以使用df.iat[row, col]或df.at[row_label, col_label]。但当坐标列表较长时,循环遍历并逐个操作这些单元格会非常慢,尤其是在需要创建新DataFrame而不是原地修改时。

解决方案:利用NumPy的矢量化索引

NumPy数组提供了强大的高级索引功能,允许我们使用整数数组作为索引来同时选择多个非连续的元素。这是实现高效批量选择的关键。

核心思路

  1. DataFrame到NumPy数组的转换:将Pandas DataFrame转换为NumPy数组,以便利用NumPy的矢量化操作。
  2. 坐标列表的转换:将[(row1, col1), (row2, col2), ...]形式的坐标列表转换为NumPy高级索引所需的(array([row1, row2, ...]), array([col1, col2, ...]))形式。
  3. 矢量化选择与赋值:根据inverted标志,创建目标数组并使用转换后的坐标进行高效的赋值操作。
  4. NumPy数组到DataFrame的转换:将处理后的NumPy数组转换回Pandas DataFrame。

步骤详解与示例代码

首先,定义我们的输入数据:

超能文献
超能文献

超能文献是一款革命性的AI驱动医学文献搜索引擎。

下载
import pandas as pd
import numpy as np

df = pd.DataFrame({
    'col1': ['A', 'B', 'C', 'A', 'G'],
    'col2': ['B', 'E', 'F', 'F', 'H'],
    'col3': ['C', 'D', 'E', 'A', 'I']
})

coords = [(2, 0), (3, 2)]

print("原始DataFrame:")
print(df)

输出:

原始DataFrame:
  col1 col2 col3
0    A    B    C
1    B    E    D
2    C    F    E
3    A    F    A
4    G    H    I

接下来,我们构建实现选择逻辑的函数:

def select_cells_by_coords(dataframe: pd.DataFrame, coordinates: list, inverted: bool = False) -> pd.DataFrame:
    """
    根据给定的坐标列表选择或反向选择DataFrame中的单元格。

    参数:
        dataframe (pd.DataFrame): 输入的Pandas DataFrame。
        coordinates (list): 包含 (行索引, 列索引) 元组的列表。
        inverted (bool): 如果为True,则保留非指定坐标的单元格,将指定坐标的单元格留空。
                         如果为False,则只保留指定坐标的单元格,其余留空。

    返回:
        pd.DataFrame: 经过选择操作后的新DataFrame。
    """
    # 1. 将DataFrame转换为NumPy数组
    data_array = dataframe.to_numpy()

    # 2. 转换坐标列表为NumPy高级索引格式
    # np.array(coordinates) 得到 [[r1, c1], [r2, c2], ...]
    # .T 进行转置得到 [[r1, r2, ...], [c1, c2, ...]]
    # tuple(...) 将其转换为 (array([r1, r2, ...]), array([c1, c2, ...]))
    # 这是NumPy高级索引所期望的格式
    np_coords = tuple(np.array(coordinates).T)

    # 3. 根据 'inverted' 标志执行选择逻辑
    if inverted:
        # 反向选择:复制原始数据,然后将指定坐标处的单元格设置为空字符串
        output_array = data_array.copy()
        output_array[np_coords] = ''
    else:
        # 正向选择:创建一个与原始DataFrame形状相同的空字符串数组
        # 然后将原始数据中指定坐标的单元格内容复制过来
        output_array = np.full(data_array.shape, '', dtype=object) # 使用object dtype以容纳混合类型
        output_array[np_coords] = data_array[np_coords]

    # 4. 将处理后的NumPy数组转换回Pandas DataFrame
    return pd.DataFrame(output_array, columns=dataframe.columns)

# 测试函数
print("\n--- 正向选择 (inverted=False) ---")
result_normal = select_cells_by_coords(df, coords, inverted=False)
print(result_normal)

print("\n--- 反向选择 (inverted=True) ---")
result_inverted = select_cells_by_coords(df, coords, inverted=True)
print(result_inverted)

预期输出:

--- 正向选择 (inverted=False) ---
  col1 col2 col3
0
1
2    C
3              A
4

--- 反向选择 (inverted=True) ---
  col1 col2 col3
0    A    B    C
1    B    E    D
2         F    E
3    A    F
4    G    H    I

代码解析

  1. dataframe.to_numpy(): 这是性能优化的第一步。Pandas DataFrame的索引和标签查找开销较大,而NumPy数组的直接内存访问和索引操作效率更高。
  2. tuple(np.array(coordinates).T): 这是理解本方案的关键。
    • np.array(coordinates)将[(2, 0), (3, 2)]转换为二维NumPy数组 [[2, 0], [3, 2]]。
    • .T(转置)操作将其变为 [[2, 3], [0, 2]]。
    • tuple(...) 将其转换为 (array([2, 3]), array([0, 2]))。
    • 这种(行索引数组, 列索引数组)的元组形式正是NumPy高级索引所需要的,它会选择所有由(行索引数组[i], 列索引数组[i])定义的单元格。
  3. if inverted: 逻辑:
    • 当 inverted=True 时,我们首先复制原始数据 (data_array.copy()),然后直接使用 output_array[np_coords] = '' 将指定坐标处的单元格内容替换为空字符串。
    • 当 inverted=False 时,我们首先创建一个与原始数据形状相同的全空字符串数组 (np.full(data_array.shape, '', dtype=object))。dtype=object 是为了确保能够容纳字符串,避免NumPy在混合类型时尝试统一为数值类型导致的问题。然后,我们从原始数据中提取指定坐标的单元格内容 (data_array[np_coords]),并将其赋值给 output_array 相同坐标的位置。
  4. pd.DataFrame(output_array, columns=dataframe.columns): 最后一步是将处理后的NumPy数组重新封装回Pandas DataFrame,并保留原始的列名。

注意事项与总结

  • 性能优势:相较于使用df.iat在循环中逐个修改单元格,NumPy的矢量化操作能够显著提高处理大量坐标时的性能。
  • 数据类型兼容性:在将单元格设置为空字符串''时,如果原始DataFrame包含数值类型数据,NumPy数组的dtype可能会变为object以容纳混合类型。这通常不会影响后续操作,但需要注意数据类型的变化。如果需要保留数值类型并在空白处使用np.nan,则需要相应调整填充值。
  • 灵活性:这种方法不仅限于设置为空字符串,你可以根据需求将指定单元格设置为任何其他值,或者执行更复杂的计算。
  • 内存使用:此方法会创建原始DataFrame的NumPy数组副本以及一个结果数组。对于非常大的DataFrame,需要考虑内存消耗。

通过以上方法,我们能够以一种既高效又灵活的方式,根据坐标列表对Pandas DataFrame的单元格进行精确选择和操作,无论是正向筛选还是反向剔除,都能轻松应对。这充分展示了NumPy与Pandas结合在数据处理中的强大威力。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

52

2025.12.04

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

306

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

if什么意思
if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词,用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章,供大家免费阅读。

755

2023.08.22

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

258

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

209

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1468

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

620

2023.11.24

C++多线程相关合集
C++多线程相关合集

本专题整合了C++多线程相关教程,阅读专题下面的的文章了解更多详细内容。

0

2026.01.21

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Swoft2.x速学之http api篇课程
Swoft2.x速学之http api篇课程

共16课时 | 0.9万人学习

php初学者入门课程
php初学者入门课程

共10课时 | 0.6万人学习

PHP基础入门课程
PHP基础入门课程

共33课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号