Pandas DataFrame高效筛选:按列条件提取关联患者列表

DDD
发布: 2025-11-21 14:34:02
原创
515人浏览过

Pandas DataFrame高效筛选:按列条件提取关联患者列表

本文将深入探讨如何在pandas dataframe中高效地执行向量化操作,特别关注如何根据列的特定条件筛选数据,并提取与之关联的非表格化信息,例如患者id列表。我们将通过实例演示如何结合向量化过滤和列表推导式,以优化性能并获取结构清晰的结果。

Pandas中的向量化操作简介

Pandas作为Python数据分析的核心库,其强大的向量化能力是实现高性能数据处理的关键。向量化操作允许我们对整个Series或DataFrame进行元素级别的操作,而无需编写显式的Python循环,从而显著提高执行效率。

我们首先创建一个示例DataFrame来演示:

import pandas as pd

columns = ['S1', 'S2', 'S3', 'S4', 'S5']

df = pd.DataFrame({'Patient':['p1', 'p2', 'p3', 'p4', 'p5', 'p6', 'p7', 'p8', 'p9', 'p10'],
                   'S1':[0.7, 0.3, 0.5, 0.8, 0.9, 0.1, 0.9, 0.2, 0.6, 0.3],
                   'S2':[0.2, 0.3, 0.5, 0.4, 0.9, 0.1, 0.9, 0.7, 0.4, 0.3],
                   'S3':[0.6, 0.3, 0.5, 0.8, 0.9, 0.8, 0.9, 0.3, 0.6, 0.3],
                   'S4':[0.2, 0.3, 0.7, 0.8, 0.9, 0.1, 0.9, 0.7, 0.3, 0.3 ],
                   'S5':[0.9, 0.8, 0.5, 0.8, 0.9, 0.7, 0.2, 0.7, 0.6, 0.3 ]})

print("原始DataFrame:")
print(df)
登录后复制

基于此DataFrame,我们可以轻松执行一些基本的向量化聚合操作。例如,计算每列中值大于或等于0.5的单元格数量,以及这些单元格的总和:

# 获取每列中值 >= 0.5 的单元格数量
arr1 = df[columns].ge(0.5).sum().to_numpy()
print("\n每列中值 >= 0.5 的单元格数量:")
print(arr1)

# 获取每列中值 >= 0.5 的单元格总和
# 注意:这里先筛选出符合条件的单元格,不符合的会变为NaN,然后对NaN求和会忽略NaN
arr2 = df[df[columns]>=0.5][columns].sum().to_numpy()
print("\n每列中值 >= 0.5 的单元格总和:")
print(arr2)
登录后复制

按列条件筛选并提取关联数据

上述示例展示了对DataFrame进行聚合计算的向量化方法。然而,在某些场景下,我们可能需要根据每列的特定条件,提取与这些条件关联的“行标识符”(例如本例中的Patient ID),并以列表的形式呈现,而不是进行聚合。

例如,我们希望得到一个列表,其中每个元素都是一个子列表,包含特定列中值大于或等于0.5的所有Patient ID。期望的输出格式如下:

落笔AI
落笔AI

AI写作,AI写网文、AI写长篇小说、短篇小说

落笔AI 41
查看详情 落笔AI
[['p1', 'p3', 'p4', 'p5', 'p7', 'p9'],
 ['p3', 'p5', 'p7', 'p8'],
 ['p1', 'p3', 'p4', 'p5', 'p6', 'p7', 'p9'],
 (...),
 (...)]
登录后复制

为了实现这种非表格化的结果,我们可以结合使用列表推导式(List Comprehension)和Pandas的布尔索引。对于每一列,我们首先生成一个布尔Series,然后用它来筛选Patient列,最后将结果转换为列表。

解决方案

# 使用列表推导式按列筛选并提取患者ID
patient_lists_by_column = [df.Patient[df[col] >= 0.5].to_list() for col in columns]

print("\n按列条件筛选的患者ID列表:")
print(patient_lists_by_column)
登录后复制

代码解析:

  1. for col in columns: 这是一个列表推导式的外部循环,它会遍历columns列表中定义的每一列('S1', 'S2', ... 'S5')。
  2. df[col] >= 0.5: 在每次循环中,这会为当前列col生成一个布尔Series。Series中的每个元素都是True或False,表示对应行在该列的值是否大于或等于0.5。
  3. df.Patient[...]: 这是Pandas的布尔索引机制。我们将上一步生成的布尔Series作为索引传递给df.Patient。Pandas会选择df.Patient Series中对应布尔值为True的所有元素,即符合条件的患者ID。
  4. .to_list(): 最后,将筛选出的Patient Series转换为一个标准的Python列表。

通过这种方式,我们避免了显式的嵌套循环,利用了Pandas底层的优化,使得代码既简洁又高效。

注意事项与性能考量

  • 非表格化输出: 这种方法特别适用于需要生成非表格化(例如列表的列表、字典等)结果的场景。如果目标是生成一个新的DataFrame,可能需要考虑不同的apply或groupby策略。
  • 列表推导式与循环: 尽管列表推导式在语法上包含循环,但它通常比传统的for循环更高效,因为它在C语言级别进行优化。在本例中,列表推导式内部的df.Patient[df[col] >= 0.5]操作是高度向量化的。
  • 内存使用: 当DataFrame非常大时,生成大量的中间布尔Series可能会占用一定内存。但对于大多数常见数据集,这种方法是高效且内存友好的。
  • 灵活性: 这种模式非常灵活,可以轻松修改筛选条件(例如df[col] < 0.3)或提取其他关联列(例如df['Another_Column'][df[col] >= 0.5])。

总结

在Pandas DataFrame中,高效地根据列条件筛选数据并提取关联信息是常见需求。本文演示了如何巧妙地结合Pandas的向量化布尔索引与Python的列表推导式,以简洁、高效的方式实现这一目标。这种方法不仅能够处理聚合计算,还能灵活地生成结构化的非表格化结果,如本例中的患者ID列表,极大地提升了数据处理的效率和代码的可读性。掌握这种模式,将有助于您在数据分析工作中更游刃有余。

以上就是Pandas DataFrame高效筛选:按列条件提取关联患者列表的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号