0

0

Pandas DataFrame 数据截取:基于列值高效筛选与切割

心靈之曲

心靈之曲

发布时间:2025-11-10 10:49:30

|

163人浏览过

|

来源于php中文网

原创

Pandas DataFrame 数据截取:基于列值高效筛选与切割

本文详细介绍了如何在pandas dataframe中根据特定列的值进行数据截取和筛选。我们将探讨布尔索引、query() 方法以及结合 loc 进行筛选的多种高效技术,旨在帮助用户精确地从数据集中选择符合特定条件(如小于或等于某个阈值)的行,从而满足数据分析和可视化的需求,避免常见的筛选错误。

在数据分析和处理过程中,我们经常需要从大型数据集中提取符合特定条件的数据子集。一个常见的场景是,我们希望根据某一列的数值来“切割”或“筛选”DataFrame,例如,只保留时间戳小于或等于某个特定值的所有数据。本文将详细介绍几种在Pandas中实现这一目标的高效方法。

1. 准备示例数据

首先,我们创建一个示例Pandas DataFrame,模拟实验数据,其中包含一个 ElapsedTime 列,表示经过的时间。

import pandas as pd
import numpy as np

# 创建一个示例DataFrame
data = {
    'ElapsedTime': np.arange(0, 501, 5), # 从0到500,步长为5
    'MeasurementA': np.random.rand(101) * 100,
    'MeasurementB': np.random.rand(101) * 50
}
df = pd.DataFrame(data)

print("原始DataFrame:")
print(df.head())
print("...")
print(df.tail())

我们的目标是只保留 ElapsedTime 小于或等于100秒的数据。

2. 使用布尔索引进行筛选

布尔索引是Pandas中最基础也是最常用的数据筛选方法之一。通过创建一个布尔Series(由条件表达式生成),我们可以直接将其应用于DataFrame来选择对应的行。

# 方法一:使用布尔索引
# 创建一个布尔Series,其中ElapsedTime <= 100的为True
condition = df['ElapsedTime'] <= 100
df_filtered_boolean = df[condition]

print("\n使用布尔索引筛选后的DataFrame (ElapsedTime <= 100):")
print(df_filtered_boolean.head())
print("...")
print(df_filtered_boolean.tail())
print(f"筛选后的行数: {len(df_filtered_boolean)}")

解释:

知鹿匠
知鹿匠

知鹿匠教师AI工具,新课标教案_AI课件PPT_作业批改

下载
  1. df['ElapsedTime']
  2. 将这个布尔Series condition 放到DataFrame的方括号 df[condition] 中,Pandas会自动选择所有对应布尔值为 True 的行。

3. 使用 query() 方法进行筛选

query() 方法提供了一种使用字符串表达式来筛选DataFrame的便捷方式。它通常在筛选条件比较复杂时,能提供更好的可读性。

# 方法二:使用query()方法
df_filtered_query = df.query('ElapsedTime <= 100')

print("\n使用query()方法筛选后的DataFrame (ElapsedTime <= 100):")
print(df_filtered_query.head())
print("...")
print(df_filtered_query.tail())
print(f"筛选后的行数: {len(df_filtered_query)}")

解释:

  1. df.query('ElapsedTime
  2. Pandas会在内部解析这个字符串,并应用相应的筛选逻辑。对于简单的条件,它的性能与布尔索引相近,但在处理多个条件或引用外部变量时,query() 的语法可能更简洁。

4. 结合 loc 进行筛选

loc 访问器主要用于基于标签的索引,但它也可以与布尔索引结合使用,以更明确的方式进行行选择。这在需要同时选择特定行和列时尤其有用。

# 方法三:使用loc结合布尔索引
df_filtered_loc = df.loc[df['ElapsedTime'] <= 100]

print("\n使用loc结合布尔索引筛选后的DataFrame (ElapsedTime <= 100):")
print(df_filtered_loc.head())
print("...")
print(df_filtered_loc.tail())
print(f"筛选后的行数: {len(df_filtered_loc)}")

解释:

  1. df.loc[] 的第一个参数用于行选择。
  2. 我们将布尔Series df['ElapsedTime']
  3. 如果还需要选择特定的列,可以在 loc 的第二个参数中指定,例如 df.loc[df['ElapsedTime']

5. 常见错误与注意事项

在进行数据截取时,用户常犯的一个错误是使用 ==(等于)而不是

错误示例:

# 错误示例:只选择ElapsedTime等于100的行
df_error = df.loc[df['ElapsedTime'] == 100]

print("\n错误示例:只选择ElapsedTime等于100的DataFrame:")
print(df_error)
print(f"筛选后的行数: {len(df_error)}")

问题分析:

  • 如果你的数据在 ElapsedTime 列中没有精确等于100的行(例如,数据点是0, 5, 10...95, 100, 105...),那么 df['ElapsedTime'] == 100 可能只会返回一行或几行,甚至是一个空的DataFrame。
  • 原始问题中提到的 x and y must have same first dimension, but have shapes (973088,) and (0, 5) 错误,很可能就是因为筛选结果 x(即 df_error)是一个空DataFrame(或行数极少),而尝试将其与原始DataFrame的某些列(如 y)进行操作或绘图时,导致维度不匹配。

正确理解需求:

  • 如果目标是“前100秒的数据”,通常意味着 ElapsedTime 从0到100(包含100),因此应该使用
  • 只有当明确需要数据点恰好在某个特定值时,才使用 ==。

性能考量:

  • 对于简单的筛选条件,布尔索引通常是最直接且性能良好的方法。
  • query() 方法在内部经过优化,对于复杂的条件表达式(例如涉及多个列和逻辑运算符),其可读性往往优于嵌套的布尔索引,并且在某些情况下也能提供不错的性能。
  • 在绝大多数日常使用场景中,这几种方法的性能差异不足以成为选择的主要因素,应优先考虑代码的可读性和维护性。

总结

本文介绍了在Pandas DataFrame中根据列值进行数据截取和筛选的三种主要方法:布尔索引、query() 方法以及结合 loc。每种方法都有其适用场景和优势。

  • 布尔索引 (df[df['column']
  • query() 方法 (df.query('column 代码可读性。
  • loc 结合布尔索引 (df.loc[df['column']

理解并正确应用这些方法,特别是区分 == 和 数据可视化和后续分析工作。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

49

2025.12.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1431

2023.10.24

Go语言中的运算符有哪些
Go语言中的运算符有哪些

Go语言中的运算符有:1、加法运算符;2、减法运算符;3、乘法运算符;4、除法运算符;5、取余运算符;6、比较运算符;7、位运算符;8、按位与运算符;9、按位或运算符;10、按位异或运算符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

221

2024.02.23

php三元运算符用法
php三元运算符用法

本专题整合了php三元运算符相关教程,阅读专题下面的文章了解更多详细内容。

73

2025.10.17

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

246

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

204

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1431

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

606

2023.11.24

俄罗斯搜索引擎Yandex最新官方入口网址
俄罗斯搜索引擎Yandex最新官方入口网址

Yandex官方入口网址是https://yandex.com;用户可通过网页端直连或移动端浏览器直接访问,无需登录即可使用搜索、图片、新闻、地图等全部基础功能,并支持多语种检索与静态资源精准筛选。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

1

2025.12.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
10分钟--Midjourney创作自己的漫画
10分钟--Midjourney创作自己的漫画

共1课时 | 0.1万人学习

Midjourney 关键词系列整合
Midjourney 关键词系列整合

共13课时 | 0.9万人学习

AI绘画教程
AI绘画教程

共2课时 | 0.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号