0

0

如何基于条件与分组在 Pandas DataFrame 每行中填充累加值

碧海醫心

碧海醫心

发布时间:2026-01-12 15:03:48

|

150人浏览过

|

来源于php中文网

原创

如何基于条件与分组在 Pandas DataFrame 每行中填充累加值

本文介绍如何在 pandas 中按 `cli_cd` 分组,识别每组内 `cura_t1` 首次出现 1 的位置,并从此处开始逐行累加 `100/6`(约 16.67),生成递增的 `cura_alt` 列;此前及后续的 0 区间则统一置为 0。

要实现该逻辑,核心在于精准界定“连续 1 的起始块”,而非简单按 CLI_CD 分组后全局查找首个 1——因为题目示例中所有行 CLI_CD == 3,但需求实际是:对每个 CLI_CD 子组,仅在其首次出现 1 的连续段内执行累加(即跳过后续再次出现的 0 后的 1 段)。观察目标输出可知:只有第 4–9 行(索引 4 至 9)的 CURA_T1 == 1 被赋值,而末尾两个 0 对应 CURA_ALT == 0,说明逻辑聚焦于首个连续 1 区间

但原始答案使用 df['CURA_T1'].eq(0).cumsum() 实现了更通用的“按 0/1 切割段”的策略:它将每个 0 视为新段起点,从而把数据划分为 [0,0,0,0], [1,1,1,1,1,1], [0,0] 三段。随后对每段内 cumcount() 得到序号(0,1,2,...),再乘以 100/6 并取整,恰好匹配预期行为(注意:因浮点精度和 astype(int) 截断,结果为 16,33,50,66,83,100,而非四舍五入的 17,33,50,67,83,100)。

✅ 正确且简洁的实现如下:

import pandas as pd

# 构造示例数据
df = pd.DataFrame({
    'CLI_CD': [3]*12,
    'CURA_T1': [0,0,0,0,1,1,1,1,1,1,0,0]
})

# 关键步骤:按 CURA_T1 是否为 0 累计求和,生成段标识
segment_id = df['CURA_T1'].eq(0).cumsum()
# 对每一段内计数(从 0 开始),乘以步长,转为整数
df['CURA_ALT'] = (df.groupby(segment_id).cumcount() * (100/6)).astype(int)

print(df)

输出:

采风问卷
采风问卷

采风问卷是一款全新体验的调查问卷、表单、投票、评测的调研平台,新奇的交互形式,漂亮的作品,让客户眼前一亮,让创作者获得更多的回复。

下载
    CLI_CD  CURA_T1  CURA_ALT
0        3        0         0
1        3        0         0
2        3        0         0
3        3        0         0
4        3        1        16
5        3        1        33
6        3        1        50
7        3        1        66
8        3        1        83
9        3        1       100
10       3        0         0
11       3        0         0

⚠️ 注意事项:

  • 若需严格匹配目标输出中的 17,33,50,67,83,100,应改用 round() 或 np.round() 而非 astype(int):
    df['CURA_ALT'] = (df.groupby(segment_id).cumcount() * (100/6)).round().astype(int)
  • 该方案天然支持多 CLI_CD:只要 CURA_T1 序列在各 ID 内独立变化,cumsum() 即按全局顺序分段;若需严格按 CLI_CD 分组后再找首个 1 段(例如不同 ID 有不同起始位置),则需嵌套 groupby('CLI_CD') + 自定义函数,但本例无需。
  • cumcount() 默认从 0 开始计数,完美契合“首项为 0 * 100/6 = 0”的需求(但因首 1 行期望为 17,故实际首累加项对应序号 1 → 需确认业务是否要求偏移;本例中索引 4 是首个 1,其 cumcount()==0,故结果为 0 —— 但目标输出为 17,说明应将该段内计数+1。修正方式:+1 后再乘:
    df['CURA_ALT'] = (df.groupby(segment_id).cumcount() + 1) * (100/6)

总结:本方法以 eq(0).cumsum() 构建逻辑段、groupby(...).cumcount() 实现段内累加,兼顾简洁性与可扩展性,是处理此类“条件区间内等差填充”任务的 Pandas 推荐范式。

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

51

2025.12.04

string转int
string转int

在编程中,我们经常会遇到需要将字符串(str)转换为整数(int)的情况。这可能是因为我们需要对字符串进行数值计算,或者需要将用户输入的字符串转换为整数进行处理。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

315

2023.08.02

int占多少字节
int占多少字节

int占4个字节,意味着一个int变量可以存储范围在-2,147,483,648到2,147,483,647之间的整数值,在某些情况下也可能是2个字节或8个字节,int是一种常用的数据类型,用于表示整数,需要根据具体情况选择合适的数据类型,以确保程序的正确性和性能。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

534

2024.08.29

c++怎么把double转成int
c++怎么把double转成int

本专题整合了 c++ double相关教程,阅读专题下面的文章了解更多详细内容。

51

2025.08.29

C++中int的含义
C++中int的含义

本专题整合了C++中int相关内容,阅读专题下面的文章了解更多详细内容。

194

2025.08.29

Java 项目构建与依赖管理(Maven / Gradle)
Java 项目构建与依赖管理(Maven / Gradle)

本专题系统讲解 Java 项目构建与依赖管理的完整体系,重点覆盖 Maven 与 Gradle 的核心概念、项目生命周期、依赖冲突解决、多模块项目管理、构建加速与版本发布规范。通过真实项目结构示例,帮助学习者掌握 从零搭建、维护到发布 Java 工程的标准化流程,提升在实际团队开发中的工程能力与协作效率。

9

2026.01.12

c++主流开发框架汇总
c++主流开发框架汇总

本专题整合了c++开发框架推荐,阅读专题下面的文章了解更多详细内容。

102

2026.01.09

c++框架学习教程汇总
c++框架学习教程汇总

本专题整合了c++框架学习教程汇总,阅读专题下面的文章了解更多详细内容。

59

2026.01.09

学python好用的网站推荐
学python好用的网站推荐

本专题整合了python学习教程汇总,阅读专题下面的文章了解更多详细内容。

139

2026.01.09

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号