在Pandas DataFrame中计算每个交易的交叉类别前一笔交易金额

霞舞

发布时间：2025-11-30 13:58:47

367人浏览过

来源于php中文网

原创

在pandas dataframe中计算每个交易的交叉类别前一笔交易金额

本教程旨在解决如何在Pandas DataFrame中，为每个交易查找并记录同一客户之前发生的、但类型不同的最后一笔交易金额。文章将详细介绍一种高效的迭代分组方法，避免常见性能陷阱，并通过具体代码示例和步骤解析，帮助读者掌握在复杂时间序列数据中进行交叉类别历史数据查找的技术。

在数据分析中，我们经常需要根据历史数据来丰富当前记录。一个常见的需求是，为每一笔交易找出同一客户之前发生的某类交易的金额。然而，当需求进一步复杂化，例如需要查找的是“不同类别”的上一笔交易时，传统的shift()方法就不再适用，而直接使用apply()配合复杂筛选又可能导致性能瓶颈甚至程序崩溃。

本文将以一个具体的交易数据集为例，演示如何高效地在Pandas DataFrame中实现这一复杂的数据转换。我们的目标是为每笔交易添加一个新列PREV_AMOUNT，其中包含同一客户在当前交易日期之前，发生的“不同类型”的最后一笔交易的金额。

数据结构与目标

假设我们有一个包含客户交易记录的DataFrame，其结构如下：

KEY_ID: 客户ID
TYPE: 交易类型（例如，'Motor' 或 'Tool'）
AMOUNT: 交易金额
DATE: 交易日期

原始数据示例：

   KEY_ID   TYPE  AMOUNT        DATE
0       1  Motor    5000  2020-01-01
1       1   Tool    3000  2020-02-01
2       1   Tool    7000  2020-03-01
3       2   Tool    2000  2020-01-15
4       2  Motor    6000  2020-02-15
5       2   Tool    4000  2020-03-15

期望的输出结果：

   KEY_ID   TYPE  AMOUNT        DATE  PREV_AMOUNT
0       1  Motor    5000  2020-01-01          NaN
1       1   Tool    3000  2020-02-01       5000.0
2       1   Tool    7000  2020-03-01       5000.0
3       2   Tool    2000  2020-01-15          NaN
4       2  Motor    6000  2020-02-15       2000.0
5       2   Tool    4000  2020-03-15       6000.0

常见误区与性能考量

在尝试解决这类问题时，开发者常会遇到以下两种低效或不适用的方法：

讯飞智作-虚拟主播

讯飞智作是一款集AI配音、虚拟人视频生成、PPT生成视频、虚拟人定制等多功能的AI音视频生产平台。已广泛应用于媒体、教育、短视频等领域。

下载

使用 df.apply() 进行行迭代和子集筛选： 这种方法虽然直观，但在DataFrame的每一行内部进行多次数据筛选和子集创建，会导致极高的计算开销。当DataFrame规模较大时，很容易造成内存溢出或程序崩溃，因为它本质上是在Python层面的循环，而非Pandas优化的向量化操作。

import pandas as pd
import numpy as np

# 假设 df 是您的DataFrame
def find_previous_request_inefficient(row, df_original):
    # 在每次函数调用中对整个df_original进行筛选，效率极低
    previous_requests = df_original[
        (df_original['KEY_ID'] == row['KEY_ID']) &
        (df_original['TYPE'] != row['TYPE']) &
        (df_original['DATE'] < row['DATE'])
    ]
    if not previous_requests.empty:
        return previous_requests.iloc[-1]['AMOUNT']
    return np.nan

# df['PREV_AMOUNT'] = df.apply(lambda row: find_previous_request_inefficient(row, df), axis=1)
# 上述代码在大型数据集上可能导致内核崩溃

使用 groupby().shift()：shift()函数可以方便地获取同一组内前一个或后一个值。然而，df.groupby(['KEY_ID', 'TYPE'])['AMOUNT'].shift()只会返回同一客户、同一交易类型的前一笔交易金额，无法满足“不同类型”的要求。
```
# df['prev_amount'] = df.groupby(['KEY_ID', 'TYPE'])['AMOUNT'].shift()
# 这种方法无法满足“不同类型”的查找需求
```

高效解决方案：分组迭代与状态管理

为了解决上述问题，我们需要一种结合分组处理和状态管理的方法。核心思想是：

按客户分组： 确保我们只在同一客户的交易中进行查找。
按日期排序： 在每个客户组内，交易必须按时间顺序处理，以便正确识别“前一笔”交易。
状态变量： 在处理每个客户的交易时，维护一个或多个变量来记录当前已处理的各种类型交易的最新金额。

下面是实现这一逻辑的详细步骤和代码：

1. 导入必要的库并创建示例数据

首先，我们创建示例DataFrame并进行必要的数据预处理，包括将日期列转换为datetime类型，并按客户ID和日期进行排序。

import pandas as pd
import numpy as np

# 创建示例DataFrame
data = {
    'KEY_ID': [1, 1, 1, 2, 2, 2],
    'TYPE': ['Motor', 'Tool', 'Tool', 'Tool', 'Motor', 'Tool'],
    'AMOUNT': [5000, 3000, 7000, 2000, 6000, 4000],
    'DATE': ['2020-01-01', '2020-02-01', '2020-03-01', '2020-01-15', '2020-02-15', '2020-03-15']
}
df = pd.DataFrame(data)

# 确保日期列为datetime类型，并按客户ID和日期排序
df['DATE'] = pd.to_datetime(df['DATE'])
df = df.sort_values(by=['KEY_ID', 'DATE']).reset_index(drop=True) # reset_index是为了后续loc操作的索引一致性

print("初始DataFrame:")
print(df)

输出：

初始DataFrame:
   KEY_ID   TYPE  AMOUNT       DATE
0       1  Motor    5000 2020-01-01
1       1   Tool    3000 2020-02-01
2       1   Tool    7000 2020-03-01
3       2   Tool    2000 2020-01-15
4       2  Motor    6000 2020-02-15
5       2   Tool    4000 2020-03-15

2. 实现分组迭代与状态管理逻辑

我们将为DataFrame添加一个新列PREV_AMOUNT，并初始化为NaN。然后，按KEY_ID分组，并遍历每个客户组。在每个组内部，我们维护记录上一个不同类型交易金额的状态变量。

# 初始化PREV_AMOUNT列
df['PREV_AMOUNT'] = np.nan

# 按KEY_ID分组
grouped = df.groupby('KEY_ID')

# 遍历每个客户组
for key_id, group in grouped:
    # 为每个客户初始化记录不同类型交易金额的变量
    # 这里假设只有'Motor'和'Tool'两种类型。如果类型更多，可以使用字典来存储。
    last_motor_amount = np.nan
    last_tool_amount = np.nan

    # 遍历当前客户组内的每一行（已按日期排序）
    for ind, row in group.iterrows():
        current_type = row['TYPE']
        current_amount = row['AMOUNT']

        if current_type == 'Motor':
            # 如果当前交易是Motor，则PREV_AMOUNT是上一个Tool交易的金额
            df.loc[ind, 'PREV_AMOUNT'] = last_tool_amount
            # 更新上一个Motor交易金额，以便后续Tool交易使用
            last_motor_amount = current_amount
        elif current_type == 'Tool':
            # 如果当前交易是Tool，则PREV_AMOUNT是上一个Motor交易的金额
            df.loc[ind, 'PREV_AMOUNT'] = last_motor_

如何从包含 Python 列表格式的文本文件中提取并逐行打印元素

Python Selenium 元素定位失败的常见原因与解决方案

Python 如何设计一个高可读性的函数签名？

Python Selenium 元素定位失败的常见原因与修复指南

如何安全解析并逐行打印文件中的 Python 列表元素

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

760

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

639

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

762

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

619

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1285

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

709

2023.08.11

PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践，涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例，帮助开发者掌握使用 PHP 构建实时通信与推送服务的完整开发流程，适用于即时消息与高互动性应用场景。

2026.01.19

热门下载

网站特效

网站源码

网站素材

前端模板