
本文详细介绍了如何利用NumPy的强大索引能力,高效地从Pandas DataFrame中根据一组行/列坐标选择特定单元格,并支持“反向选择”模式。通过将坐标列表转换为适合NumPy数组索引的转置元组,我们能够以矢量化方式创建新的DataFrame,填充指定单元格或将其余单元格留空,从而避免了低效的循环操作,显著提升了数据处理性能。
在数据分析和处理中,我们经常需要从大型数据结构中精确地提取或修改特定数据点。对于Pandas DataFrame而言,虽然有多种选择数据的方法(如loc、iloc、at、iat),但当需要根据一组非连续的(行索引, 列索引)坐标来批量选择单元格时,直接迭代往往效率低下。本文将介绍一种利用NumPy数组的矢量化索引功能,高效地实现DataFrame指定单元格选择,并支持反向选择的策略。
假设我们有一个Pandas DataFrame和一个包含(行, 列)元组的坐标列表。我们的目标是根据这些坐标来选择DataFrame中的特定单元格,并能够灵活地实现两种模式:
传统上,对于单个或少量单元格的操作,我们可以使用df.iat[row, col]或df.at[row_label, col_label]。但当坐标列表较长时,循环遍历并逐个操作这些单元格会非常慢,尤其是在需要创建新DataFrame而不是原地修改时。
NumPy数组提供了强大的高级索引功能,允许我们使用整数数组作为索引来同时选择多个非连续的元素。这是实现高效批量选择的关键。
首先,定义我们的输入数据:
import pandas as pd
import numpy as np
df = pd.DataFrame({
'col1': ['A', 'B', 'C', 'A', 'G'],
'col2': ['B', 'E', 'F', 'F', 'H'],
'col3': ['C', 'D', 'E', 'A', 'I']
})
coords = [(2, 0), (3, 2)]
print("原始DataFrame:")
print(df)输出:
原始DataFrame: col1 col2 col3 0 A B C 1 B E D 2 C F E 3 A F A 4 G H I
接下来,我们构建实现选择逻辑的函数:
def select_cells_by_coords(dataframe: pd.DataFrame, coordinates: list, inverted: bool = False) -> pd.DataFrame:
"""
根据给定的坐标列表选择或反向选择DataFrame中的单元格。
参数:
dataframe (pd.DataFrame): 输入的Pandas DataFrame。
coordinates (list): 包含 (行索引, 列索引) 元组的列表。
inverted (bool): 如果为True,则保留非指定坐标的单元格,将指定坐标的单元格留空。
如果为False,则只保留指定坐标的单元格,其余留空。
返回:
pd.DataFrame: 经过选择操作后的新DataFrame。
"""
# 1. 将DataFrame转换为NumPy数组
data_array = dataframe.to_numpy()
# 2. 转换坐标列表为NumPy高级索引格式
# np.array(coordinates) 得到 [[r1, c1], [r2, c2], ...]
# .T 进行转置得到 [[r1, r2, ...], [c1, c2, ...]]
# tuple(...) 将其转换为 (array([r1, r2, ...]), array([c1, c2, ...]))
# 这是NumPy高级索引所期望的格式
np_coords = tuple(np.array(coordinates).T)
# 3. 根据 'inverted' 标志执行选择逻辑
if inverted:
# 反向选择:复制原始数据,然后将指定坐标处的单元格设置为空字符串
output_array = data_array.copy()
output_array[np_coords] = ''
else:
# 正向选择:创建一个与原始DataFrame形状相同的空字符串数组
# 然后将原始数据中指定坐标的单元格内容复制过来
output_array = np.full(data_array.shape, '', dtype=object) # 使用object dtype以容纳混合类型
output_array[np_coords] = data_array[np_coords]
# 4. 将处理后的NumPy数组转换回Pandas DataFrame
return pd.DataFrame(output_array, columns=dataframe.columns)
# 测试函数
print("\n--- 正向选择 (inverted=False) ---")
result_normal = select_cells_by_coords(df, coords, inverted=False)
print(result_normal)
print("\n--- 反向选择 (inverted=True) ---")
result_inverted = select_cells_by_coords(df, coords, inverted=True)
print(result_inverted)预期输出:
--- 正向选择 (inverted=False) --- col1 col2 col3 0 1 2 C 3 A 4 --- 反向选择 (inverted=True) --- col1 col2 col3 0 A B C 1 B E D 2 F E 3 A F 4 G H I
通过以上方法,我们能够以一种既高效又灵活的方式,根据坐标列表对Pandas DataFrame的单元格进行精确选择和操作,无论是正向筛选还是反向剔除,都能轻松应对。这充分展示了NumPy与Pandas结合在数据处理中的强大威力。
以上就是使用NumPy高效选择Pandas DataFrame指定坐标的单元格的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号