如何根据特定列的值切割或筛选Pandas DataFrame

DDD

发布时间：2025-11-14 13:23:11

599人浏览过

来源于php中文网

原创

如何根据特定列的值切割或筛选pandas dataframe

本文旨在详细讲解如何利用Pandas库对DataFrame进行高效的数据筛选与切割，特别是根据某一列的数值条件来选择行。我们将探讨布尔索引和`.query()`方法，并通过实例代码展示其用法，帮助读者掌握在数据分析中精确提取所需数据子集的核心技巧。

在数据分析和处理中，我们经常需要从大型数据集中提取满足特定条件的数据子集。Pandas DataFrame作为Python中强大的数据结构，提供了多种灵活且高效的方法来实现这一目标。本文将聚焦于如何根据DataFrame某一列的数值条件来“切割”或筛选数据，以获取我们感兴趣的数据区间。

1. 场景与常见问题

假设我们有一个实验数据，记录了从 t=0 到 t=500s 的测量值，但我们只想分析或绘制前 100s 的数据。直观上，我们可能尝试使用 df.loc[df['ElapsedTime'] == 100] 这样的表达式，期望它能返回所有 ElapsedTime 等于 100 的行。然而，这种方法通常只会返回 ElapsedTime 精确等于 100 的行，如果数据是连续的或者 100 这个值不精确存在，结果可能为空，或者无法满足“小于等于100”的需求。此外，当将筛选结果用于绘图时，如果维度不匹配，也可能导致 x and y must have same first dimension 这样的错误。

正确的思路是筛选出 ElapsedTime 小于或等于 100 的所有行，而不是仅仅等于 100 的行。

2. 核心筛选方法

Pandas提供了两种主要且高效的方法来根据列值进行条件筛选：布尔索引和.query()方法。

为了更好地演示，我们首先创建一个示例DataFrame：

import pandas as pd
import numpy as np

# 创建示例DataFrame
data = {
    'ElapsedTime': np.arange(0, 501, 10),
    'MeasurementA': np.random.rand(51) * 100,
    'MeasurementB': np.random.randint(1, 100, 51)
}
df = pd.DataFrame(data)
print("原始DataFrame前5行:")
print(df.head())

2.1 方法一：布尔索引 (Boolean Indexing)

布尔索引是Pandas中最常用且灵活的筛选方法。它的核心思想是创建一个与DataFrame行数相同的布尔序列（True/False），然后用这个序列作为索引来选择对应的行。

原理： 当我们在DataFrame的方括号 [] 中传入一个布尔序列时，Pandas会返回所有对应布尔序列中 True 的行。

示例代码：

# 筛选 ElapsedTime 小于等于 100 的数据
filtered_df_boolean = df[df['ElapsedTime'] <= 100]

print("\n使用布尔索引筛选后的DataFrame前5行 (ElapsedTime <= 100):")
print(filtered_df_boolean.head())
print("\n使用布尔索引筛选后的DataFrame最后5行:")
print(filtered_df_boolean.tail())

代码解释：

df['ElapsedTime']
df[...]：将这个布尔Series作为索引传递给DataFrame，Pandas会返回所有 True 对应的行。

2.2 方法二：使用 .query() 方法

.query() 方法提供了一种更接近SQL查询语句的字符串表达式方式来筛选DataFrame，尤其在条件复杂时，可以提高代码的可读性。

拍我AI

AI视频生成平台PixVerse的国内版本

下载

原理：.query() 方法接受一个字符串表达式，该表达式可以直接引用DataFrame的列名，并进行比较操作。

示例代码：

# 筛选 ElapsedTime 小于等于 100 的数据
filtered_df_query = df.query('ElapsedTime <= 100')

print("\n使用 .query() 方法筛选后的DataFrame前5行 (ElapsedTime <= 100):")
print(filtered_df_query.head())
print("\n使用 .query() 方法筛选后的DataFrame最后5行:")
print(filtered_df_query.tail())

代码解释：

df.query('ElapsedTime

3. 注意事项与最佳实践

创建新DataFrame vs. 修改原DataFrame： 上述两种方法都会返回一个新的DataFrame。如果你想在原始DataFrame上进行修改，可以结合 .loc 和布尔索引，或者将结果重新赋值给原DataFrame。
```
# 创建新DataFrame (推荐，避免副作用)
new_df = df[df['ElapsedTime'] <= 100].copy() # 使用.copy()明确创建一个副本

# 或者直接覆盖原DataFrame (需谨慎)
# df = df[df['ElapsedTime'] <= 100]
```

多重条件筛选：

布尔索引： 使用 & (and), | (or), ~ (not) 运算符，并用括号 () 明确优先级。

# ElapsedTime <= 100 并且 MeasurementA > 50
filtered_multi_boolean = df[(df['ElapsedTime'] <= 100) & (df['MeasurementA'] > 50)]
print("\n多重条件布尔索引筛选后的DataFrame前5行:")
print(filtered_multi_boolean.head())

.query() 方法： 直接在字符串中使用 and, or, not 关键字。

# ElapsedTime <= 100 并且 MeasurementA > 50
filtered_multi_query = df.query('ElapsedTime <= 100 and MeasurementA > 50')
print("\n多重条件 .query() 筛选后的DataFrame前5行:")
print(filtered_multi_query.head())

性能考量： 对于小型到中型DataFrame，两种方法性能差异不大。对于非常大的DataFrame，布尔索引通常略快于 .query()，因为 .query() 需要解析字符串。然而，.query() 在可读性方面有优势，尤其是在条件复杂时。

链式操作： 筛选操作经常与其他Pandas操作（如 .groupby(), .mean(), .plot()）进行链式调用，以构建更复杂的数据处理流程。

# 筛选后直接绘制数据
filtered_df_boolean.plot(x='ElapsedTime', y='MeasurementA', title='MeasurementA for ElapsedTime <= 100s')
# import matplotlib.pyplot as plt
# plt.show() # 如果在脚本中运行，需要这一行来显示图表

4. 总结

本文详细介绍了如何在Pandas DataFrame中根据特定列的数值条件进行数据筛选和切割。通过布尔索引和 .query() 方法，我们可以灵活高效地提取所需的数据子集。

布尔索引 (df[df['column']
.query() 方法 (df.query('column

掌握这些技巧，将使你在处理和分析时间序列、实验数据或任何需要基于条件筛选的数据集时，能够更加得心应手。选择哪种方法取决于个人偏好、代码可读性需求以及特定场景下的性能考量。在大多数情况下，两者都能很好地完成任务。

Python 如何实现 tail -f 类功能？

Python tuple 为什么比 list 更省内存？

Python 如何正确实现一个 TCP 服务端？

Python 锁是否真的会降低性能？

Python 相对导入与绝对导入的使用边界

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

769

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

661

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

659

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1325

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

709

2023.08.11