
在物流和交付场景中,分析交付人员的客户访问顺序对于优化路线、提高效率具有重要意义。本教程将展示如何从包含交付明细的Pandas DataFrame中提取并统计重复出现的客户交付序列(简称“客户链”),即使同一客户在单次交付中被多次访问,也能准确识别其在链中的唯一位置。
假设我们有一个Pandas DataFrame,记录了交付人员的每次交付活动,包含以下核心列:
我们的目标是:
以下是一个示例数据集:
import pandas as pd
from io import StringIO
data = """DateTime,SortieNumber,CustomerName,ProductCode
01/01/2023 09:00:00,1,Josh,001
01/01/2023 09:10:00,1,Alice,002
01/01/2023 09:15:00,1,Robert,002
01/01/2023 12:00:00,2,Anna,001
01/01/2023 12:00:10,2,Anna,003
01/01/2023 12:15:00,2,Robert,003
01/01/2023 15:00:00,3,Josh,004
01/01/2023 15:05:10,3,Alice,003
01/01/2023 15:15:00,3,Robert,001
01/01/2023 15:30:10,3,Robert,002
01/01/2023 15:35:15,3,Robert,003
"""
df = pd.read_csv(StringIO(data))
# 确保DateTime列为日期时间类型,以便正确排序
df['DateTime'] = pd.to_datetime(df['DateTime'])
print("原始DataFrame:")
print(df)为了实现上述目标,我们将采用以下Pandas操作步骤:
首先,我们需要确保每个SortieNumber内部的记录是按照时间顺序排列的,这样才能正确捕获客户的访问序列。
df_sorted = df.sort_values(by=['SortieNumber', 'DateTime'])
print("\n排序后的DataFrame:")
print(df_sorted)在某些情况下,同一趟次内可能会对同一客户进行多次连续交付(例如,交付不同产品)。为了准确构建客户链,我们只关心客户被访问的“唯一”顺序,即如果客户A连续出现多次,我们只将其视为链中的一个节点。
这里我们使用一个技巧:检查当前行与上一行在SortieNumber和CustomerName上是否都相同。如果两者不同(即ne().any(axis=1)),则表示这是一个新的客户访问或新的趟次开始。
# 过滤掉同一趟次内连续重复的客户访问
# `ne(d.shift())` 比较当前行与上一行是否不同
# `.any(axis=1)` 检查'SortieNumber'或'CustomerName'任一列不同,则保留该行
df_unique_customers = df_sorted.loc[
df_sorted[['SortieNumber', 'CustomerName']]
.ne(df_sorted[['SortieNumber', 'CustomerName']].shift())
.any(axis=1)
]
print("\n过滤连续重复客户后的DataFrame:")
print(df_unique_customers)注意事项:
现在,对于每个SortieNumber,我们已经得到了去重后的客户访问序列。接下来,我们将这些客户名称连接成一个字符串,形成客户链。
# 按SortieNumber分组,并将CustomerName连接成字符串
customer_chains = df_unique_customers.groupby('SortieNumber')['CustomerName'].agg('-'.join)
print("\n每个趟次的客户链:")
print(customer_chains)最后一步是统计每个独特的客户链出现了多少次。
# 统计每个客户链的出现次数
chain_counts = customer_chains.value_counts()
print("\n客户链出现次数统计:")
print(chain_counts)如果需要获取每个客户链的出现比例,可以将 normalize=True 参数传递给 value_counts():
# 统计每个客户链的出现比例
chain_proportions = customer_chains.value_counts(normalize=True)
print("\n客户链出现比例统计:")
print(chain_proportions)将上述步骤整合,形成一个完整的解决方案:
import pandas as pd
from io import StringIO
data = """DateTime,SortieNumber,CustomerName,ProductCode
01/01/2023 09:00:00,1,Josh,001
01/01/2023 09:10:00,1,Alice,002
01/01/2023 09:15:00,1,Robert,002
01/01/2023 12:00:00,2,Anna,001
01/01/2023 12:00:10,2,Anna,003
01/01/2023 12:15:00,2,Robert,003
01/01/2023 15:00:00,3,Josh,004
01/01/2023 15:05:10,3,Alice,003
01/01/2023 15:15:00,3,Robert,001
01/01/2023 15:30:10,3,Robert,002
01/01/2023 15:35:15,3,Robert,003
"""
df = pd.read_csv(StringIO(data))
df['DateTime'] = pd.to_datetime(df['DateTime'])
# 核心处理逻辑
result_counts = (df.sort_values(by=['SortieNumber', 'DateTime'])
.loc[lambda d: d[['SortieNumber', 'CustomerName']]
.ne(d[['SortieNumber', 'CustomerName']].shift())
.any(axis=1)]
.groupby('SortieNumber')['CustomerName'].agg('-'.join)
.value_counts()
)
print("\n最终客户链出现次数统计:")
print(result_counts)
# 如果需要比例
result_proportions = (df.sort_values(by=['SortieNumber', 'DateTime'])
.loc[lambda d: d[['SortieNumber', 'CustomerName']]
.ne(d[['SortieNumber', 'CustomerName']].shift())
.any(axis=1)]
.groupby('SortieNumber')['CustomerName'].agg('-'.join)
.value_counts(normalize=True)
)
print("\n最终客户链出现比例统计:")
print(result_proportions)通过本教程,我们学习了如何利用Pandas的强大功能,从复杂的交付数据中提取有价值的客户访问序列模式。关键步骤包括:
这种分析方法不仅适用于物流和交付场景,也可以推广到任何需要分析序列模式的数据集,例如用户行为路径、生产线流程等。通过识别重复模式,企业可以优化操作流程、预测行为趋势,并最终提升效率和用户体验。
以上就是提取Pandas DataFrame中的客户交付序列模式分析的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号