在Pandas DataFrame中计算每个交易的交叉类别前一笔交易金额

霞舞
发布: 2025-11-30 13:58:47
原创
317人浏览过

在pandas dataframe中计算每个交易的交叉类别前一笔交易金额

本教程旨在解决如何在Pandas DataFrame中,为每个交易查找并记录同一客户之前发生的、但类型不同的最后一笔交易金额。文章将详细介绍一种高效的迭代分组方法,避免常见性能陷阱,并通过具体代码示例和步骤解析,帮助读者掌握在复杂时间序列数据中进行交叉类别历史数据查找的技术。

在数据分析中,我们经常需要根据历史数据来丰富当前记录。一个常见的需求是,为每一笔交易找出同一客户之前发生的某类交易的金额。然而,当需求进一步复杂化,例如需要查找的是“不同类别”的上一笔交易时,传统的shift()方法就不再适用,而直接使用apply()配合复杂筛选又可能导致性能瓶颈甚至程序崩溃。

本文将以一个具体的交易数据集为例,演示如何高效地在Pandas DataFrame中实现这一复杂的数据转换。我们的目标是为每笔交易添加一个新列PREV_AMOUNT,其中包含同一客户在当前交易日期之前,发生的“不同类型”的最后一笔交易的金额。

数据结构与目标

假设我们有一个包含客户交易记录的DataFrame,其结构如下:

  • KEY_ID: 客户ID
  • TYPE: 交易类型(例如,'Motor' 或 'Tool')
  • AMOUNT: 交易金额
  • DATE: 交易日期

原始数据示例:

   KEY_ID   TYPE  AMOUNT        DATE
0       1  Motor    5000  2020-01-01
1       1   Tool    3000  2020-02-01
2       1   Tool    7000  2020-03-01
3       2   Tool    2000  2020-01-15
4       2  Motor    6000  2020-02-15
5       2   Tool    4000  2020-03-15
登录后复制

期望的输出结果:

   KEY_ID   TYPE  AMOUNT        DATE  PREV_AMOUNT
0       1  Motor    5000  2020-01-01          NaN
1       1   Tool    3000  2020-02-01       5000.0
2       1   Tool    7000  2020-03-01       5000.0
3       2   Tool    2000  2020-01-15          NaN
4       2  Motor    6000  2020-02-15       2000.0
5       2   Tool    4000  2020-03-15       6000.0
登录后复制

常见误区与性能考量

在尝试解决这类问题时,开发者常会遇到以下两种低效或不适用的方法:

BibiGPT-哔哔终结者
BibiGPT-哔哔终结者

B站视频总结器-一键总结 音视频内容

BibiGPT-哔哔终结者 871
查看详情 BibiGPT-哔哔终结者
  1. 使用 df.apply() 进行行迭代和子集筛选: 这种方法虽然直观,但在DataFrame的每一行内部进行多次数据筛选和子集创建,会导致极高的计算开销。当DataFrame规模较大时,很容易造成内存溢出或程序崩溃,因为它本质上是在Python层面的循环,而非Pandas优化的向量化操作。

    import pandas as pd
    import numpy as np
    
    # 假设 df 是您的DataFrame
    def find_previous_request_inefficient(row, df_original):
        # 在每次函数调用中对整个df_original进行筛选,效率极低
        previous_requests = df_original[
            (df_original['KEY_ID'] == row['KEY_ID']) &
            (df_original['TYPE'] != row['TYPE']) &
            (df_original['DATE'] < row['DATE'])
        ]
        if not previous_requests.empty:
            return previous_requests.iloc[-1]['AMOUNT']
        return np.nan
    
    # df['PREV_AMOUNT'] = df.apply(lambda row: find_previous_request_inefficient(row, df), axis=1)
    # 上述代码在大型数据集上可能导致内核崩溃
    登录后复制
  2. 使用 groupby().shift():shift()函数可以方便地获取同一组内前一个或后一个值。然而,df.groupby(['KEY_ID', 'TYPE'])['AMOUNT'].shift()只会返回同一客户、同一交易类型的前一笔交易金额,无法满足“不同类型”的要求。

    # df['prev_amount'] = df.groupby(['KEY_ID', 'TYPE'])['AMOUNT'].shift()
    # 这种方法无法满足“不同类型”的查找需求
    登录后复制

高效解决方案:分组迭代与状态管理

为了解决上述问题,我们需要一种结合分组处理和状态管理的方法。核心思想是:

  1. 按客户分组: 确保我们只在同一客户的交易中进行查找。
  2. 按日期排序: 在每个客户组内,交易必须按时间顺序处理,以便正确识别“前一笔”交易。
  3. 状态变量: 在处理每个客户的交易时,维护一个或多个变量来记录当前已处理的各种类型交易的最新金额。

下面是实现这一逻辑的详细步骤和代码:

1. 导入必要的库并创建示例数据

首先,我们创建示例DataFrame并进行必要的数据预处理,包括将日期列转换为datetime类型,并按客户ID和日期进行排序。

import pandas as pd
import numpy as np

# 创建示例DataFrame
data = {
    'KEY_ID': [1, 1, 1, 2, 2, 2],
    'TYPE': ['Motor', 'Tool', 'Tool', 'Tool', 'Motor', 'Tool'],
    'AMOUNT': [5000, 3000, 7000, 2000, 6000, 4000],
    'DATE': ['2020-01-01', '2020-02-01', '2020-03-01', '2020-01-15', '2020-02-15', '2020-03-15']
}
df = pd.DataFrame(data)

# 确保日期列为datetime类型,并按客户ID和日期排序
df['DATE'] = pd.to_datetime(df['DATE'])
df = df.sort_values(by=['KEY_ID', 'DATE']).reset_index(drop=True) # reset_index是为了后续loc操作的索引一致性

print("初始DataFrame:")
print(df)
登录后复制

输出:

初始DataFrame:
   KEY_ID   TYPE  AMOUNT       DATE
0       1  Motor    5000 2020-01-01
1       1   Tool    3000 2020-02-01
2       1   Tool    7000 2020-03-01
3       2   Tool    2000 2020-01-15
4       2  Motor    6000 2020-02-15
5       2   Tool    4000 2020-03-15
登录后复制

2. 实现分组迭代与状态管理逻辑

我们将为DataFrame添加一个新列PREV_AMOUNT,并初始化为NaN。然后,按KEY_ID分组,并遍历每个客户组。在每个组内部,我们维护记录上一个不同类型交易金额的状态变量。

# 初始化PREV_AMOUNT列
df['PREV_AMOUNT'] = np.nan

# 按KEY_ID分组
grouped = df.groupby('KEY_ID')

# 遍历每个客户组
for key_id, group in grouped:
    # 为每个客户初始化记录不同类型交易金额的变量
    # 这里假设只有'Motor'和'Tool'两种类型。如果类型更多,可以使用字典来存储。
    last_motor_amount = np.nan
    last_tool_amount = np.nan

    # 遍历当前客户组内的每一行(已按日期排序)
    for ind, row in group.iterrows():
        current_type = row['TYPE']
        current_amount = row['AMOUNT']

        if current_type == 'Motor':
            # 如果当前交易是Motor,则PREV_AMOUNT是上一个Tool交易的金额
            df.loc[ind, 'PREV_AMOUNT'] = last_tool_amount
            # 更新上一个Motor交易金额,以便后续Tool交易使用
            last_motor_amount = current_amount
        elif current_type == 'Tool':
            # 如果当前交易是Tool,则PREV_AMOUNT是上一个Motor交易的金额
            df.loc[ind, 'PREV_AMOUNT'] = last_motor_
登录后复制

以上就是在Pandas DataFrame中计算每个交易的交叉类别前一笔交易金额的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号