0

0

Pandas 中按组识别首次出现值并生成累加序列的高效实现

php中文网

php中文网

发布时间:2026-01-12 14:50:53

|

929人浏览过

|

来源于php中文网

原创

Pandas 中按组识别首次出现值并生成累加序列的高效实现

本文介绍如何在 pandes dataframe 中,基于分组(groupby)和条件(如首次出现某值),为每组生成一个从 0 开始、按固定步长累加的数值列(如 100/6 的累加序列),并在条件中断后重置。

在实际数据分析中,常需根据业务逻辑对数据进行“状态感知”的填充:例如,当某列首次出现标记值(如 CURA_T1 == 1)时,启动一个递增计数器,并在该连续段内按固定步长(如 100/6 ≈ 16.666...)累加,形成类似进度条的数值序列;一旦标记中断(如后续又变为 0),则重置为 0。同时,还需支持多组 ID(如 CLI_CD)独立计算。

关键难点在于:既要识别“首次出现 1 的连续块”,又要确保每个 CLI_CD 组内独立处理,且不跨组累积。直接使用 .groupby('CLI_CD') 并配合 .cumsum() 或 .cumcount() 容易误判连续性——因为 CURA_T1 的 1 可能非首尾相连,中间夹杂 0。

✅ 正确解法的核心思路是:
用 df['CURA_T1'].eq(0).cumsum() 构造“逻辑分段标识符” —— 该操作将每个 CURA_T1 == 0 的位置标记为 True,再累加,从而在每次 CURA_T1 从 0 变为 1(即新连续 1 段开始)时,产生一个新的分段编号。这样,所有连续的 1 自动被划入同一分段,而前导/尾随/中断的 0 各自成段。

随后,对这个分段标识符再次 groupby().cumcount(),即可获得每段内的行序号(从 0 开始),乘以 100/6 并取整,即得目标列 CURA_ALT。

以下是完整可运行代码:

ChartGen
ChartGen

AI快速生成专业数据图表

下载
import pandas as pd

# 构造示例数据
df = pd.DataFrame({
    'CLI_CD': [3]*12,
    'CURA_T1': [0,0,0,0,1,1,1,1,1,1,0,0]
})

# 核心逻辑:按 CURA_T1==0 的累计和分段 → 对每段内行号累加 → 乘步长 → 取整
df['CURA_ALT'] = (
    df.groupby(df['CURA_T1'].eq(0).cumsum()).cumcount() 
    * (100 / 6)
).astype(int)

print(df)

输出结果:

    CLI_CD  CURA_T1  CURA_ALT
0        3        0         0
1        3        0         0
2        3        0         0
3        3        0         0
4        3        1        16   # 第1个1 → 0*100/6 = 0 → 但 cumcount 从0开始,第1行是索引0 → 实际为第1个有效1行 → 0→16
5        3        1        33   # 索引1 → 1*16.666≈16.66→int=16? 注意:cumcount() 返回 0,1,2,... → 0→0, 1→16, 2→33...
6        3        1        50
7        3        1        66
8        3        1        83
9        3        1       100
10       3        0         0
11       3        0         0

⚠️ 注意事项:

  • 100/6 是浮点数,cumcount() 从 0 开始计数,因此第 n 个 1(在连续段中位置为 n-1)对应值为 (n-1) * 100/6,四舍五入取整后与预期略有差异(如第 1 行显示 16 而非 17),这是浮点精度与整型截断共同导致的。若需严格向上取整或四舍五入,可用 np.round(...).astype(int) 或 np.ceil()。
  • 该方法天然支持多组 CLI_CD:因 df['CURA_T1'].eq(0).cumsum() 是全局运算,但后续 groupby(...).cumcount() 作用于该 Series,其分段已隐含组内连续性;若存在多个 CLI_CD,需先确保数据按 CLI_CD 排序,或改用 groupby(['CLI_CD', df['CURA_T1'].eq(0).cumsum()]) 显式分组(更稳健)。
  • 若需“仅从首个 1 开始累加,此前全为 0,此后遇 0 即清零”,本方案已满足;若需“跨 CLI_CD 不混段”,务必在构造 cumsum 前按 CLI_CD 排序或分组预处理。

总结:此技巧巧妙利用布尔累积和构造语义分段,避开显式循环与 apply,兼具性能与可读性,是 Pandas 高级分组场景的典型范式。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

51

2025.12.04

mysql标识符无效错误怎么解决
mysql标识符无效错误怎么解决

mysql标识符无效错误的解决办法:1、检查标识符是否被其他表或数据库使用;2、检查标识符是否包含特殊字符;3、使用引号包裹标识符;4、使用反引号包裹标识符;5、检查MySQL的配置文件等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

179

2023.12.04

Python标识符有哪些
Python标识符有哪些

Python标识符有变量标识符、函数标识符、类标识符、模块标识符、下划线开头的标识符、双下划线开头、双下划线结尾的标识符、整型标识符、浮点型标识符等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

277

2024.02.23

java标识符合集
java标识符合集

本专题整合了java标识符相关内容,想了解更多详细内容,请阅读下面的文章。

252

2025.06.11

c++标识符介绍
c++标识符介绍

本专题整合了c++标识符相关内容,阅读专题下面的文章了解更多详细内容。

121

2025.08.07

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

315

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

534

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

51

2025.08.29

Java 项目构建与依赖管理(Maven / Gradle)
Java 项目构建与依赖管理(Maven / Gradle)

本专题系统讲解 Java 项目构建与依赖管理的完整体系,重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例,帮助学习者掌握 从零搭建、维护到发布 Java 工程的标准化流程,提升在实际团队开发中的工程能力与协作效率。

7

2026.01.12

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Java 教程
Java 教程

共578课时 | 44.7万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号