
在配送和物流分析中,识别配送人员在每次送货行程(sortie)中访问客户的顺序模式,对于优化路线、理解客户行为或评估配送效率具有重要意义。本教程将详细介绍如何使用pandas dataframe处理此类数据,以提取并量化这些客户访问链。
假设我们有一个Pandas DataFrame,其中包含配送人员的送货记录,结构如下:
我们的目标是分析在每个SortieNumber中,客户的访问顺序是否一致。例如,如果一个送货行程的客户访问顺序是“Josh-Alice-Robert”,我们希望统计这种模式在所有行程中出现的次数。
首先,我们创建示例数据以进行演示:
import pandas as pd
from io import StringIO
data = """DateTime,SortieNumber,CustomerName,ProductCode
01/01/2023 09:00:00,1,Josh,001
01/01/2023 09:10:00,1,Alice,002
01/01/2023 09:15:00,1,Robert,002
01/01/2023 12:00:00,2,Anna,001
01/01/2023 12:00:10,2,Anna,003
01/01/2023 12:15:00,2,Robert,003
01/01/2023 15:00:00,3,Josh,004
01/01/2023 15:05:10,3,Alice,003
01/01/2023 15:15:00,3,Robert,001
01/01/2023 15:30:10,3,Robert,002
01/01/2023 15:35:15,3,Robert,003
"""
df = pd.read_csv(StringIO(data), sep=',')
df['DateTime'] = pd.to_datetime(df['DateTime'])
print("原始DataFrame:")
print(df)为了准确地提取客户访问链,我们需要执行以下几个关键步骤:
下面是实现这些步骤的Pandas代码:
# 1. 数据排序
df_sorted = df.sort_values(by=['SortieNumber', 'DateTime'])
# 2. 去除连续重复客户
# 使用shift()和ne()组合判断当前行与前一行在'SortieNumber'或'CustomerName'上是否不同
# 这样可以保留每个SortieNumber中首次出现的客户,以及当SortieNumber不变但CustomerName变化时的行
df_unique_customers_per_sortie = df_sorted.loc[
df_sorted[['SortieNumber', 'CustomerName']]
.ne(df_sorted[['SortieNumber', 'CustomerName']].shift())
.any(axis=1)
]
# 注意:如果确定在同一个SortieNumber内,同一个客户不会被“跳过”后又再次访问
# 也就是说,如果客户A连续出现多次,则只会记录一次;如果客户A出现,然后客户B出现,再客户A出现,则会记录A-B-A
# 如果业务逻辑允许更严格的去重(即同一SortieNumber内,只要客户名出现过一次,后续出现都算重复),
# 可以简化为:df_unique_customers_per_sortie = df_sorted.drop_duplicates(['SortieNumber', 'CustomerName'])
# 但上述.ne().any(axis=1)的方法更通用和精确地处理了“连续重复”问题。
# 3. 构建客户链
customer_chains = df_unique_customers_per_sortie.groupby('SortieNumber')['CustomerName'].agg('-'.join)
# 4. 统计链的出现频率
chain_counts = customer_chains.value_counts()
print("\n客户访问链及其出现次数:")
print(chain_counts)代码解析:
上述代码将输出每个独特客户访问链的出现次数:
客户访问链及其出现次数: CustomerName Josh-Alice-Robert 2 Anna-Robert 1 Name: count, dtype: int64
这意味着Josh-Alice-Robert这个链在我们的示例数据中出现了2次,而Anna-Robert出现了1次。
如果需要计算每个链的出现比例(相对于总的送货行程数),可以在value_counts()方法中传入normalize=True参数:
chain_proportions = customer_chains.value_counts(normalize=True)
print("\n客户访问链及其出现比例:")
print(chain_proportions)输出将是:
客户访问链及其出现比例: CustomerName Josh-Alice-Robert 0.666667 Anna-Robert 0.333333 Name: proportion, dtype: float64
这表示Josh-Alice-Robert链占总行程的约66.67%,Anna-Robert链占约33.33%。
通过上述方法,我们可以有效地从原始配送数据中提取并量化客户访问序列模式,为物流路径优化、客户行为分析和运营效率评估提供有价值的洞察。
以上就是如何使用Pandas提取并分析客户访问序列模式的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号