
在数据分析中,识别用户行为的变化是一个常见的任务,例如,在特定时间段内,用户是否开始使用了新的服务或产品。本教程将聚焦于一个具体场景:给定用户在前期和后期使用的商家列表,如何高效地识别出在后期才首次出现的新商家,并将其标记出来。这需要我们对两个数据集中的(user_id, retailer)组合进行逐一比较,并在后期数据中添加一个表示“是否为新商家”的条件列。
首先,我们准备示例数据,模拟用户在前期(sample1)和后期(sample2)的商家使用记录:
import pandas as pd
# 前期商家使用数据
sample1 = pd.DataFrame(
{
'user_id': [45, 556, 556, 556, 556, 556, 556, 1344, 1588, 2063, 2063, 2063, 2673, 2982, 2982],
'retailer': ['retailer_1', 'retailer_1', 'retailer_2', 'retailer_3', 'retailer_4', 'retailer_5', 'retailer_6',
'retailer_3', 'retailer_2', 'retailer_2', 'retailer_3', 'retailer_7', 'retailer_1', 'retailer_1', 'retailer_2']
}
)
# 后期商家使用数据
sample2 = pd.DataFrame(
{
'user_id': [45, 45, 556, 556, 556, 556, 556, 556, 1344, 1588, 2063, 2063, 2063, 2673, 2673, 2982, 2982],
'retailer': ['retailer_1', 'retailer_6', 'retailer_1', 'retailer_2', 'retailer_3', 'retailer_4', 'retailer_5', 'retailer_6',
'retailer_3', 'retailer_2', 'retailer_2', 'retailer_3', 'retailer_7', 'retailer_1', 'retailer_2', 'retailer_1', 'retailer_2']
}
)
print("前期数据 (sample1):")
print(sample1)
print("\n后期数据 (sample2):")
print(sample2)pd.merge函数在执行合并操作时,可以接受一个indicator参数。当设置为True或提供一个列名时,它会在结果DataFrame中添加一个名为_merge(或指定名称)的列,指示每行记录的来源。这对于识别仅存在于其中一个DataFrame中的记录非常有用。
实现步骤:
# 使用merge的indicator参数进行合并
# how='left' 确保sample2中的所有行都被保留
# indicator='is_new_retailer' 会添加一个列,指示每行的来源
merged_df = sample2.merge(sample1, on=['user_id', 'retailer'], how='left', indicator='is_new_retailer')
# 将indicator列中的'left_only'转换为1(新商家),其他转换为0(非新商家)
# .eq('left_only') 返回布尔Series
# .astype(int) 将布尔值转换为整数0或1
merged_df['is_new_retailer'] = merged_df['is_new_retailer'].eq('left_only').astype(int)
print("\n方法一结果 (使用merge和indicator):")
print(merged_df)注意事项:
另一种更通用的集合比较方法是利用Pandas的MultiIndex。通过将user_id和retailer组合成一个复合索引,我们可以高效地检查一个复合键是否存在于另一个复合键集合中。
实现步骤:
# 从sample2和sample1创建MultiIndex
# MultiIndex将user_id和retailer组合成一个复合键
mux_sample2 = pd.MultiIndex.from_frame(sample2[['user_id', 'retailer']])
mux_sample1 = pd.MultiIndex.from_frame(sample1[['user_id', 'retailer']])
# 检查sample2的每个复合键是否在sample1中
# isin()返回一个布尔Series
# ~ 对布尔Series取反,找出不在sample1中的复合键(即新商家)
sample2['is_new_retailer'] = (~mux_sample2.isin(mux_sample1)).astype(int)
print("\n方法二结果 (使用MultiIndex和isin):")
print(sample2)注意事项:
本文介绍了两种在Pandas中识别用户新增商家的有效方法。
选择哪种方法取决于具体的业务需求和个人偏好。在大多数情况下,两种方法都能达到预期的效果。建议在实际应用中根据数据规模、性能要求以及代码可读性进行权衡。
以上就是Pandas高效识别用户新增商家:两种基于集合比较的实现的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号