如何保留 DataFrame 中某值首次出现之前的所有行

花韻仙語

发布时间：2026-01-02 22:08:46

335人浏览过

来源于php中文网

原创

如何保留 DataFrame 中某值首次出现之前的所有行

本文介绍在 pandas 中高效保留指定列中某目标值首次出现前所有行的方法，核心是利用布尔索引与 `cummax()` 的逻辑组合，兼顾健壮性与性能，并对比 `np.argmax` 等替代方案的适用场景。

在数据清洗或时序截断任务中，常需基于某一条件动态确定截断点——例如“保留 Count 列中第一个 1 出现之前（不含该行）的所有记录”。这看似简单，但需避免手动遍历、循环或低效切片，以充分发挥 pandas 的向量化优势。

最推荐、最健壮的解决方案是使用布尔索引配合 cummax()：

import pandas as pd

df = pd.DataFrame({
    'Year': [1997, 1998, 1999, 2000, 2001],
    'ID':   [1,    2,    3,    4,    5],
    'Count': [0,   0,    1,    0,    1]
})

# ✅ 推荐：通用、安全、可读性强
mask = ~df['Count'].eq(1).cummax()
result = df[mask].reset_index(drop=True)

print(result)

输出：

   Year  ID  Count
0  1997   1      0
1  1998   2      0

原理详解：

Chatbase

从你的知识库中构建一个AI聊天机器人

下载

df['Count'].eq(1) 生成布尔 Series [False, False, True, False, True]；
.cummax() 对其累积取最大值（即首次 True 后全部变为 True），结果为 [False, False, True, True, True]；
~ 取反后得到 [True, True, False, False, False]，恰好标识出首个 1 之前（含）的所有行；
布尔索引 df[mask] 即完成精准截取。

⚠️ 注意事项：

该方法天然支持边界情况：若 Count 列中不存在 1，cummax() 全为 False，取反后全为 True，因此返回整个 DataFrame —— 行为合理且无需额外异常处理；
若目标值首次出现在第 0 行，则 mask[0] 为 False，结果为空 DataFrame，符合“保留首次出现之前”的语义。

替代方案（仅限确定存在目标值时使用）：

import numpy as np
# ⚠️ 仅当确认至少有一个 1 时可用；否则 np.argmax 返回 0，导致错误截断
idx = np.argmax(df['Count'].eq(1))
result = df.iloc[:idx].reset_index(drop=True)

此写法虽简洁，但一旦 1 不存在，np.argmax 将返回 0（因默认 axis=0 且全 False 时返回首个索引），导致 df.iloc[:0] 恒为空，掩盖数据异常，故不建议在生产环境中无保护地使用。

总结：
优先采用 ~df[col].eq(target).cummax() 模式——它向量化、语义清晰、鲁棒性强，是 pandas 中实现“保留首次匹配前所有行”的标准范式。在构建 ETL 流程、特征工程切片或实验数据预处理时，可直接复用该逻辑，替换 col 和 target 即可适配任意列与值。

PythonDjango基础教程_模型视图模板完整项目实战

Python和SQL数据库结合实战_ORM与性能调优策略

Python量化交易高级教程_策略优化回测与风控实践

PythonAPI接口调用_REST实践说明【指导】

Python数据采集规范_稳定运行说明【指导】

相关标签:

数据清洗 pandas count 循环切片 etl

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何在 BigQuery 参数化查询中正确传递并展开字符串数组参数下一篇：如何在 Pandas 中保留目标值首次出现前的所有行

作者最新文章

如何使用正则表达式提取字符串中首个字母数字分界点前的部分

2026-01-02 13:30

法国画师将《光与影：33号远征队》重绘为HD-2D风格致敬《八方旅人》等经典作品

2026-01-02 13:33

如何在 Vue 中保持标签内容静态显示，同时允许输入框双向绑定更新数据

2026-01-02 13:33

如何在 Quarkus 或 Mutiny 中实现异步操作的顺序执行与容错处理

2026-01-02 13:35

如何在 Mutiny 中实现异步操作的顺序执行并容错处理

2026-01-02 13:37

生存恐怖游戏《Last mile》定档1月29日 Steam试玩现已上架

2026-01-02 13:39

Epic连续喜加一最终弹：《全面战争：三国》+《无主星渊》

2026-01-02 13:45

Go 中如何正确判断输出通道已关闭并安全结束协程处理

2026-01-02 13:49

如何在 Go 中高效压缩 HTML：移除冗余空格与换行符

2026-01-02 13:52

Canvas 缩放与尺寸关系详解：实现响应式图像缩放与滚动控制

2026-01-02 13:56

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI大模型

开放平台

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI大模型

腾讯元宝

腾讯混元平台推出的AI助手

文档处理

Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI大模型

中文写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

中文写作

写作工具

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI大模型

中文写作

智谱清言 - 免费全能的AI助手

AI大模型

PDF 文档

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

counta和count的区别

Count函数用于计算指定范围内数字的个数，而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

193

2023.11.20

go语言数组和切片

本专题整合了go语言数组和切片的区别与含义，阅读专题下面的文章了解更多详细内容。

2025.09.03

php源码安装教程大全

本专题整合了php源码安装教程，阅读专题下面的文章了解更多详细内容。

138

2025.12.31

php网站源码教程大全

本专题整合了php网站源码相关教程，阅读专题下面的文章了解更多详细内容。

2025.12.31

视频文件格式

本专题整合了视频文件格式相关内容，阅读专题下面的文章了解更多详细内容。

2025.12.31

不受国内限制的浏览器大全

想找真正自由、无限制的上网体验？本合集精选2025年最开放、隐私强、访问无阻的浏览器App，涵盖Tor、Brave、Via、X浏览器、Mullvad等高自由度工具。支持自定义搜索引擎、广告拦截、隐身模式及全球网站无障碍访问，部分更具备防追踪、去谷歌化、双内核切换等高级功能。无论日常浏览、隐私保护还是突破地域限制，总有一款适合你！

2025.12.31