0

0

使用 Pandas 根据多列和时间分配唯一 ID

心靈之曲

心靈之曲

发布时间:2025-07-10 18:38:13

|

594人浏览过

|

来源于php中文网

原创

使用 pandas 根据多列和时间分配唯一 id

本文旨在帮助你解决 Pandas DataFrame 中基于多列(日期、名称、产品)以及时间(经过时间)分配唯一 ID 的问题。在某些场景下,例如分析用户行为日志,需要对特定用户在特定日期对特定产品的操作进行分组,并根据操作时间间隔进行进一步的细分。如果同一用户在同一日期对同一产品的操作时间间隔超过一定阈值,则应将其视为不同的会话,并分配不同的 ID。本文将提供两种解决方案,分别针对数据是否已排序的情况。

解决方案一:数据已排序

如果你的 DataFrame 已经按照日期、名称和产品进行了排序,那么可以使用 groupby() 和 ngroup() 方法结合 cumsum() 方法来快速生成 ID。

import pandas as pd

# 示例数据
data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23'],
        'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John'],
        'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C'],
        'Elapsed_time': [30, 99, 10, 100, 1, 15, 45]}
df = pd.DataFrame(data)

# 根据日期、名称和产品进行分组,并计算组ID
df['id'] = (df.groupby(['Date', 'Name', 'Product']).ngroup()
              .add(1+df['Elapsed_time'].ge(100).cumsum())
           )

print(df)

代码解释:

  1. df.groupby(['Date', 'Name', 'Product']): 这部分代码按照指定的列('Date', 'Name', 'Product')对 DataFrame 进行分组。
  2. .ngroup(): 这部分代码为每个不同的组分配一个唯一的整数 ID,从 0 开始。
  3. df['Elapsed_time'].ge(100): 这部分代码创建一个布尔 Series,指示 'Elapsed_time' 列中的值是否大于或等于 100。
  4. .cumsum(): 这部分代码计算布尔 Series 的累积和。由于 True 被视为 1,False 被视为 0,因此累积和会随着每个大于或等于 100 的 'Elapsed_time' 值递增。
  5. add(1 + ...): 将分组 ID 加上 1 和经过时间大于等于 100 的累积和,从而生成最终的 ID。加 1 是为了使 ID 从 1 开始,而不是从 0 开始。

注意事项:

  • 此方法依赖于数据已经按照日期、名称和产品排序。如果数据未排序,结果将不正确。
  • ngroup() 方法从 0 开始分配组 ID,因此需要加 1 以使 ID 从 1 开始。

解决方案二:数据未排序

如果你的 DataFrame 没有按照日期、名称和产品排序,那么你需要一种更通用的方法来处理。以下代码使用 ne()、shift()、any() 和 cumsum() 方法来实现此目的。

医真AI+开放平台
医真AI+开放平台

医真AI+ 医学AI开放平台

下载
import pandas as pd

# 示例数据
data = {'Date': ['10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/25/23', '10/26/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23', '10/27/23'],
        'Name': ['Bill', 'Bill', 'John', 'John', 'John', 'John', 'John', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl', 'Carl'],
        'Product': ['A', 'A', 'B', 'B', 'B', 'B', 'C', 'A', 'A', 'A', 'A', 'B', 'A', 'A'],
        'Elapsed_time': [30, 99, 10, 100, 1, 15, 45, 120, 99, 80, 101, 300, 12, 37]}
df = pd.DataFrame(data)

# 定义需要比较的列
cols = ['Date', 'Name', 'Product']

# 计算 ID
df['id'] = (df[cols].ne(df[cols].shift())
     .assign(x=df['Elapsed_time'].ge(100))
     .any(axis=1).cumsum()
    )

print(df)

代码解释:

  1. cols = ['Date', 'Name', 'Product']: 定义需要进行比较的列的列表。
  2. df[cols].ne(df[cols].shift()): 将 DataFrame 中指定列的值与上一行进行比较,返回一个布尔 DataFrame,指示哪些值与上一行不同。shift() 函数将 DataFrame 的行向下移动一位。
  3. .assign(x=df['Elapsed_time'].ge(100)): 向布尔 DataFrame 添加一个新列 'x',该列指示 'Elapsed_time' 列中的值是否大于或等于 100。
  4. .any(axis=1): 对每一行应用 any() 函数,如果该行中至少有一个 True 值(即,日期、名称或产品与上一行不同,或者经过时间大于等于 100),则返回 True。
  5. .cumsum(): 计算布尔 Series 的累积和,从而生成最终的 ID。

注意事项:

  • 此方法不依赖于数据是否排序,因此更加通用。
  • 此方法使用了链式操作,使代码更加简洁易读。

总结

本文提供了两种使用 Pandas 为 DataFrame 分配唯一 ID 的解决方案,分别适用于数据已排序和未排序的情况。选择哪种方法取决于你的数据特点和性能要求。如果数据已经排序,可以使用 groupby() 和 ngroup() 方法来提高性能。如果数据未排序,则需要使用更通用的 ne()、shift()、any() 和 cumsum() 方法。希望本文能够帮助你解决实际问题。

相关标签:

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

51

2025.12.04

C++ 单元测试与代码质量保障
C++ 单元测试与代码质量保障

本专题系统讲解 C++ 在单元测试与代码质量保障方面的实战方法,包括测试驱动开发理念、Google Test/Google Mock 的使用、测试用例设计、边界条件验证、持续集成中的自动化测试流程,以及常见代码质量问题的发现与修复。通过工程化示例,帮助开发者建立 可测试、可维护、高质量的 C++ 项目体系。

9

2026.01.16

java数据库连接教程大全
java数据库连接教程大全

本专题整合了java数据库连接相关教程,阅读专题下面的文章了解更多详细内容。

32

2026.01.15

Java音频处理教程汇总
Java音频处理教程汇总

本专题整合了java音频处理教程大全,阅读专题下面的文章了解更多详细内容。

14

2026.01.15

windows查看wifi密码教程大全
windows查看wifi密码教程大全

本专题整合了windows查看wifi密码教程大全,阅读专题下面的文章了解更多详细内容。

42

2026.01.15

浏览器缓存清理方法汇总
浏览器缓存清理方法汇总

本专题整合了浏览器缓存清理教程汇总,阅读专题下面的文章了解更多详细内容。

6

2026.01.15

ps图片相关教程汇总
ps图片相关教程汇总

本专题整合了ps图片设置相关教程合集,阅读专题下面的文章了解更多详细内容。

9

2026.01.15

ppt一键生成相关合集
ppt一键生成相关合集

本专题整合了ppt一键生成相关教程汇总,阅读专题下面的的文章了解更多详细内容。

6

2026.01.15

php图片上传教程汇总
php图片上传教程汇总

本专题整合了php图片上传相关教程,阅读专题下面的文章了解更多详细教程。

2

2026.01.15

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号