
在数据清洗和预处理阶段,处理数据帧中的重复记录是一项常见任务。有时,我们不仅需要识别重复项,还需要根据特定业务逻辑进行筛选,例如,保留每组重复项中的最新或最旧的几条记录。当数据集规模庞大时,选择一个高效的处理方法至关重要,以避免不必要的计算资源消耗和漫长的等待时间。
考虑一个场景,您有一个包含用户活动记录的数据帧,其中可能存在基于用户姓名和性别等信息的多条记录。您的目标是针对每个唯一的姓名-性别组合,仅保留其最新的三条活动记录。
一种常见的思路是使用窗口函数(在PySpark等分布式计算框架中尤为常见,但在Pandas中也可以通过模拟实现)。其基本步骤包括:
以下是这种思路的示例代码(模仿Spark的Window函数概念):
# 假设df是一个Pandas DataFrame,且F是pandas的函数别名
# import pandas.api.extensions as F
# from pandas.core.window import RollingGroupby, ExpandingGroupby # 实际Pandas中没有直接的Window函数
# 这里的代码是用户尝试的Spark风格代码,在Pandas中实现会更复杂,且可能效率不高
# window_spec = Window.partitionBy('first_name', 'last_name', 'sex').orderBy(F.desc('id'))
# df_with_row_number = df.withColumn('row_number', F.row_number().over(window_spec))
# filtered_df = df_with_row_number.filter('row_number <= 3')
# result_df = filtered_df.drop('row_number')尽管这种方法逻辑清晰,但在处理大规模Pandas DataFrame时,手动实现复杂的窗口函数逻辑(如自定义排序和行号分配)可能涉及多次数据遍历和中间DataFrame的创建,从而导致性能开销较大,尤其是在内存使用方面。
Pandas库提供了一个更为简洁和高效的方法来解决这个问题:groupby().tail()。这个组合操作允许我们首先根据指定的列对数据帧进行分组,然后从每个组的末尾(或头部)选择指定数量的行。结合预排序,这可以非常高效地实现我们的目标。
让我们通过一个具体的例子来演示如何使用 groupby().tail(N) 来筛选并保留每组重复项的最后N条记录。
import pandas as pd
# 原始数据帧示例
data = {
'id': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
'first_name': ['John', 'John', 'John', 'Mark', 'John', 'Mark', 'John', 'Mark', 'Mark', 'John'],
'last_name': ['Doe', 'Doe', 'Doe', 'Kay', 'Doe', 'Kay', 'Doe', 'Kay', 'Kay', 'Doe'],
'sex': ['Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male', 'Male'],
'country': ['USA', 'Canada', 'Mexico', 'Italy', 'Spain', 'France', 'Peru', 'India', 'Laos', 'Benin']
}
df = pd.DataFrame(data)
print("原始数据帧:")
print(df)
print("-" * 30)
# 步骤1: 确保数据按 'id' 列(或其他代表顺序的列)排序
# 这一步至关重要,它定义了“最后N个”的含义。
# 如果id越大代表越新,则按id升序排列。
df_sorted = df.sort_values(by='id', ascending=True)
# 步骤2: 使用 groupby() 和 tail() 保留每组的最后3条记录
# 根据 'first_name', 'last_name', 'sex' 进行分组,并从每个组的末尾选择3条记录
result_df = df_sorted.groupby(['first_name', 'last_name', 'sex']).tail(3)
# 步骤3: 重置索引(可选)
# 如果需要一个干净的、从0开始的整数索引,可以执行此步骤。
result_df = result_df.reset_index(drop=True)
print("\n筛选后的数据帧 (保留每组最新3条):")
print(result_df)执行上述代码后,您将得到以下结果:
原始数据帧: id first_name last_name sex country 0 1 John Doe Male USA 1 2 John Doe Male Canada 2 3 John Doe Male Mexico 3 4 Mark Kay Male Italy 4 5 John Doe Male Spain 5 6 Mark Kay Male France 6 7 John Doe Male Peru 7 8 Mark Kay Male India 8 9 Mark Kay Male Laos 9 10 John Doe Male Benin ------------------------------ 筛选后的数据帧 (保留每组最新3条): id first_name last_name sex country 0 5 John Doe Male Spain 1 6 Mark Kay Male France 2 7 John Doe Male Peru 3 8 Mark Kay Male India 4 9 Mark Kay Male Laos 5 10 John Doe Male Benin
本教程详细介绍了如何利用Pandas的 groupby().tail() 方法高效地从数据帧中筛选出基于特定列的重复项,并仅保留每组的最新N条记录。通过结合 sort_values 进行预排序,这种方法不仅代码简洁,而且在性能上通常优于手动实现的窗口函数逻辑。理解并正确应用这些Pandas操作,将极大地提升您在数据清洗和预处理任务中的效率。
以上就是数据帧中高效筛选重复项并保留最新N条记录的教程的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号