
本教程旨在解决如何在Pandas DataFrame中,为每个交易查找并记录同一客户之前发生的、但类型不同的最后一笔交易金额。文章将详细介绍一种高效的迭代分组方法,避免常见性能陷阱,并通过具体代码示例和步骤解析,帮助读者掌握在复杂时间序列数据中进行交叉类别历史数据查找的技术。
在数据分析中,我们经常需要根据历史数据来丰富当前记录。一个常见的需求是,为每一笔交易找出同一客户之前发生的某类交易的金额。然而,当需求进一步复杂化,例如需要查找的是“不同类别”的上一笔交易时,传统的shift()方法就不再适用,而直接使用apply()配合复杂筛选又可能导致性能瓶颈甚至程序崩溃。
本文将以一个具体的交易数据集为例,演示如何高效地在Pandas DataFrame中实现这一复杂的数据转换。我们的目标是为每笔交易添加一个新列PREV_AMOUNT,其中包含同一客户在当前交易日期之前,发生的“不同类型”的最后一笔交易的金额。
数据结构与目标
假设我们有一个包含客户交易记录的DataFrame,其结构如下:
- KEY_ID: 客户ID
- TYPE: 交易类型(例如,'Motor' 或 'Tool')
- AMOUNT: 交易金额
- DATE: 交易日期
原始数据示例:
KEY_ID TYPE AMOUNT DATE 0 1 Motor 5000 2020-01-01 1 1 Tool 3000 2020-02-01 2 1 Tool 7000 2020-03-01 3 2 Tool 2000 2020-01-15 4 2 Motor 6000 2020-02-15 5 2 Tool 4000 2020-03-15
期望的输出结果:
KEY_ID TYPE AMOUNT DATE PREV_AMOUNT 0 1 Motor 5000 2020-01-01 NaN 1 1 Tool 3000 2020-02-01 5000.0 2 1 Tool 7000 2020-03-01 5000.0 3 2 Tool 2000 2020-01-15 NaN 4 2 Motor 6000 2020-02-15 2000.0 5 2 Tool 4000 2020-03-15 6000.0
常见误区与性能考量
在尝试解决这类问题时,开发者常会遇到以下两种低效或不适用的方法:
-
使用 df.apply() 进行行迭代和子集筛选: 这种方法虽然直观,但在DataFrame的每一行内部进行多次数据筛选和子集创建,会导致极高的计算开销。当DataFrame规模较大时,很容易造成内存溢出或程序崩溃,因为它本质上是在Python层面的循环,而非Pandas优化的向量化操作。
import pandas as pd import numpy as np # 假设 df 是您的DataFrame def find_previous_request_inefficient(row, df_original): # 在每次函数调用中对整个df_original进行筛选,效率极低 previous_requests = df_original[ (df_original['KEY_ID'] == row['KEY_ID']) & (df_original['TYPE'] != row['TYPE']) & (df_original['DATE'] < row['DATE']) ] if not previous_requests.empty: return previous_requests.iloc[-1]['AMOUNT'] return np.nan # df['PREV_AMOUNT'] = df.apply(lambda row: find_previous_request_inefficient(row, df), axis=1) # 上述代码在大型数据集上可能导致内核崩溃 -
使用 groupby().shift():shift()函数可以方便地获取同一组内前一个或后一个值。然而,df.groupby(['KEY_ID', 'TYPE'])['AMOUNT'].shift()只会返回同一客户、同一交易类型的前一笔交易金额,无法满足“不同类型”的要求。
# df['prev_amount'] = df.groupby(['KEY_ID', 'TYPE'])['AMOUNT'].shift() # 这种方法无法满足“不同类型”的查找需求
高效解决方案:分组迭代与状态管理
为了解决上述问题,我们需要一种结合分组处理和状态管理的方法。核心思想是:
- 按客户分组: 确保我们只在同一客户的交易中进行查找。
- 按日期排序: 在每个客户组内,交易必须按时间顺序处理,以便正确识别“前一笔”交易。
- 状态变量: 在处理每个客户的交易时,维护一个或多个变量来记录当前已处理的各种类型交易的最新金额。
下面是实现这一逻辑的详细步骤和代码:
1. 导入必要的库并创建示例数据
首先,我们创建示例DataFrame并进行必要的数据预处理,包括将日期列转换为datetime类型,并按客户ID和日期进行排序。
import pandas as pd
import numpy as np
# 创建示例DataFrame
data = {
'KEY_ID': [1, 1, 1, 2, 2, 2],
'TYPE': ['Motor', 'Tool', 'Tool', 'Tool', 'Motor', 'Tool'],
'AMOUNT': [5000, 3000, 7000, 2000, 6000, 4000],
'DATE': ['2020-01-01', '2020-02-01', '2020-03-01', '2020-01-15', '2020-02-15', '2020-03-15']
}
df = pd.DataFrame(data)
# 确保日期列为datetime类型,并按客户ID和日期排序
df['DATE'] = pd.to_datetime(df['DATE'])
df = df.sort_values(by=['KEY_ID', 'DATE']).reset_index(drop=True) # reset_index是为了后续loc操作的索引一致性
print("初始DataFrame:")
print(df)输出:
初始DataFrame: KEY_ID TYPE AMOUNT DATE 0 1 Motor 5000 2020-01-01 1 1 Tool 3000 2020-02-01 2 1 Tool 7000 2020-03-01 3 2 Tool 2000 2020-01-15 4 2 Motor 6000 2020-02-15 5 2 Tool 4000 2020-03-15
2. 实现分组迭代与状态管理逻辑
我们将为DataFrame添加一个新列PREV_AMOUNT,并初始化为NaN。然后,按KEY_ID分组,并遍历每个客户组。在每个组内部,我们维护记录上一个不同类型交易金额的状态变量。
# 初始化PREV_AMOUNT列
df['PREV_AMOUNT'] = np.nan
# 按KEY_ID分组
grouped = df.groupby('KEY_ID')
# 遍历每个客户组
for key_id, group in grouped:
# 为每个客户初始化记录不同类型交易金额的变量
# 这里假设只有'Motor'和'Tool'两种类型。如果类型更多,可以使用字典来存储。
last_motor_amount = np.nan
last_tool_amount = np.nan
# 遍历当前客户组内的每一行(已按日期排序)
for ind, row in group.iterrows():
current_type = row['TYPE']
current_amount = row['AMOUNT']
if current_type == 'Motor':
# 如果当前交易是Motor,则PREV_AMOUNT是上一个Tool交易的金额
df.loc[ind, 'PREV_AMOUNT'] = last_tool_amount
# 更新上一个Motor交易金额,以便后续Tool交易使用
last_motor_amount = current_amount
elif current_type == 'Tool':
# 如果当前交易是Tool,则PREV_AMOUNT是上一个Motor交易的金额
df.loc[ind, 'PREV_AMOUNT'] = last_motor_










