Pandas DataFrame高效筛选：按列条件提取关联患者列表

DDD

发布时间：2025-11-21 14:34:02

546人浏览过

来源于php中文网

原创

Pandas DataFrame高效筛选：按列条件提取关联患者列表

本文将深入探讨如何在pandas dataframe中高效地执行向量化操作，特别关注如何根据列的特定条件筛选数据，并提取与之关联的非表格化信息，例如患者id列表。我们将通过实例演示如何结合向量化过滤和列表推导式，以优化性能并获取结构清晰的结果。

Pandas中的向量化操作简介

Pandas作为Python数据分析的核心库，其强大的向量化能力是实现高性能数据处理的关键。向量化操作允许我们对整个Series或DataFrame进行元素级别的操作，而无需编写显式的Python循环，从而显著提高执行效率。

我们首先创建一个示例DataFrame来演示：

import pandas as pd

columns = ['S1', 'S2', 'S3', 'S4', 'S5']

df = pd.DataFrame({'Patient':['p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'p7', 'p8', 'p9', 'p10'],
                   'S1':[0.7, 0.3, 0.5, 0.8, 0.9, 0.1, 0.9, 0.2, 0.6, 0.3],
                   'S2':[0.2, 0.3, 0.5, 0.4, 0.9, 0.1, 0.9, 0.7, 0.4, 0.3],
                   'S3':[0.6, 0.3, 0.5, 0.8, 0.9, 0.8, 0.9, 0.3, 0.6, 0.3],
                   'S4':[0.2, 0.3, 0.7, 0.8, 0.9, 0.1, 0.9, 0.7, 0.3, 0.3 ],
                   'S5':[0.9, 0.8, 0.5, 0.8, 0.9, 0.7, 0.2, 0.7, 0.6, 0.3 ]})

print("原始DataFrame:")
print(df)

基于此DataFrame，我们可以轻松执行一些基本的向量化聚合操作。例如，计算每列中值大于或等于0.5的单元格数量，以及这些单元格的总和：

# 获取每列中值 >= 0.5 的单元格数量
arr1 = df[columns].ge(0.5).sum().to_numpy()
print("\n每列中值 >= 0.5 的单元格数量:")
print(arr1)

# 获取每列中值 >= 0.5 的单元格总和
# 注意：这里先筛选出符合条件的单元格，不符合的会变为NaN，然后对NaN求和会忽略NaN
arr2 = df[df[columns]>=0.5][columns].sum().to_numpy()
print("\n每列中值 >= 0.5 的单元格总和:")
print(arr2)

按列条件筛选并提取关联数据

上述示例展示了对DataFrame进行聚合计算的向量化方法。然而，在某些场景下，我们可能需要根据每列的特定条件，提取与这些条件关联的“行标识符”（例如本例中的Patient ID），并以列表的形式呈现，而不是进行聚合。

例如，我们希望得到一个列表，其中每个元素都是一个子列表，包含特定列中值大于或等于0.5的所有Patient ID。期望的输出格式如下：

Remover

几秒钟去除图中不需要的元素

下载

[['p1', 'p3', 'p4', 'p5', 'p7', 'p9'],
 ['p3', 'p5', 'p7', 'p8'],
 ['p1', 'p3', 'p4', 'p5', 'p6', 'p7', 'p9'],
 (...),
 (...)]

为了实现这种非表格化的结果，我们可以结合使用列表推导式（List Comprehension）和Pandas的布尔索引。对于每一列，我们首先生成一个布尔Series，然后用它来筛选Patient列，最后将结果转换为列表。

解决方案

# 使用列表推导式按列筛选并提取患者ID
patient_lists_by_column = [df.Patient[df[col] >= 0.5].to_list() for col in columns]

print("\n按列条件筛选的患者ID列表:")
print(patient_lists_by_column)

代码解析：

for col in columns: 这是一个列表推导式的外部循环，它会遍历columns列表中定义的每一列（'S1', 'S2', ... 'S5'）。
df[col] >= 0.5: 在每次循环中，这会为当前列col生成一个布尔Series。Series中的每个元素都是True或False，表示对应行在该列的值是否大于或等于0.5。
df.Patient[...]: 这是Pandas的布尔索引机制。我们将上一步生成的布尔Series作为索引传递给df.Patient。Pandas会选择df.Patient Series中对应布尔值为True的所有元素，即符合条件的患者ID。
.to_list(): 最后，将筛选出的Patient Series转换为一个标准的Python列表。

通过这种方式，我们避免了显式的嵌套循环，利用了Pandas底层的优化，使得代码既简洁又高效。

注意事项与性能考量

非表格化输出: 这种方法特别适用于需要生成非表格化（例如列表的列表、字典等）结果的场景。如果目标是生成一个新的DataFrame，可能需要考虑不同的apply或groupby策略。
列表推导式与循环: 尽管列表推导式在语法上包含循环，但它通常比传统的for循环更高效，因为它在C语言级别进行优化。在本例中，列表推导式内部的df.Patient[df[col] >= 0.5]操作是高度向量化的。
内存使用: 当DataFrame非常大时，生成大量的中间布尔Series可能会占用一定内存。但对于大多数常见数据集，这种方法是高效且内存友好的。
灵活性: 这种模式非常灵活，可以轻松修改筛选条件（例如df[col] = 0.5]）。

总结

在Pandas DataFrame中，高效地根据列条件筛选数据并提取关联信息是常见需求。本文演示了如何巧妙地结合Pandas的向量化布尔索引与Python的列表推导式，以简洁、高效的方式实现这一目标。这种方法不仅能够处理聚合计算，还能灵活地生成结构化的非表格化结果，如本例中的患者ID列表，极大地提升了数据处理的效率和代码的可读性。掌握这种模式，将有助于您在数据分析工作中更游刃有余。

Python 测试中如何隔离外部依赖？

Python API 接口如何做权限控制？

Python 常见数据结构误用总结

Python lambda 为什么是表达式而不是语句？

如何检测当前代码是否运行在 Jupyter Notebook 环境里

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

759

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

639

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

762

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1265

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

709

2023.08.11