Python中如何分析用户行为？漏斗模型实现

絕刀狂花

发布时间：2025-07-03 16:10:07

223人浏览过

来源于php中文网

原创

漏斗模型是用户行为分析的基石，因为它提供结构化视角，将复杂的用户旅程拆解为可量化的阶段，帮助识别流失点并驱动产品优化。通过定义关键步骤、清洗数据、构建用户路径、计算转化率及可视化，我们能清晰追踪用户从初始接触到最终转化的全过程。它不仅揭示用户在哪个环节流失，还为进一步的定性分析和策略制定提供依据，是一种将用户体验流程化的思维框架。

Python中如何分析用户行为？漏斗模型实现

在Python中分析用户行为，尤其是实现漏斗模型，核心在于利用数据处理和可视化库来追踪用户在特定业务流程中的进展与流失。这通常涉及对用户事件日志进行清洗、排序、聚合，然后计算每个阶段的转化率，并最终以直观的方式展现出来。它不仅仅是统计数字，更是一种理解用户旅程、发现痛点、驱动产品优化的强大工具。

解决方案

要构建一个用户行为漏斗模型，我们通常需要以下步骤，并辅以Python代码实现：

数据准备： 确保你拥有包含用户ID、事件名称和事件时间戳的原始事件数据。这是所有分析的基础。
定义漏斗阶段： 根据业务目标，明确用户从开始到完成某个目标所需要经历的关键步骤。例如，对于电商网站，可能是“浏览商品” -> “加入购物车” -> “进入结算页” -> “完成支付”。
筛选与标记事件： 从原始数据中筛选出与漏斗阶段相关的事件，并为每个事件打上对应的阶段标签。
用户路径构建： 针对每个用户，按照时间顺序排列其在漏斗阶段中的事件，并识别他们是否成功进入了下一个阶段。
计算转化率： 统计每个阶段的用户数量，并计算相邻阶段之间的转化率。
可视化： 使用图表（如条形图、漏斗图）直观展示每个阶段的用户数和转化率。

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 模拟用户事件数据
# 实际工作中，这些数据可能来自数据库查询、日志文件等
data = {
    'user_id': [1, 1, 1, 1, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5],
    'event_time': pd.to_datetime([
        '2023-01-01 10:00:00', '2023-01-01 10:05:00', '2023-01-01 10:10:00', '2023-01-01 10:15:00',
        '2023-01-01 11:00:00', '2023-01-01 11:05:00', '2023-01-01 11:10:00',
        '2023-01-01 12:00:00', '2023-01-01 12:05:00',
        '2023-01-01 13:00:00', '2023-01-01 13:05:00', '2023-01-01 13:10:00', '2023-01-01 13:15:00',
        '2023-01-01 14:00:00', '2023-01-01 14:05:00', '2023-01-01 14:10:00'
    ]),
    'event_name': [
        'view_product', 'add_to_cart', 'checkout', 'purchase_complete',
        'view_product', 'add_to_cart', 'checkout',
        'view_product', 'add_to_cart',
        'view_product', 'add_to_cart', 'checkout', 'purchase_complete',
        'view_product', 'add_to_cart', 'checkout'
    ]
}
df_events = pd.DataFrame(data)

# 定义漏斗阶段及其顺序
funnel_stages = [
    'view_product',
    'add_to_cart',
    'checkout',
    'purchase_complete'
]

# 初始化一个DataFrame来存储每个用户在每个阶段的首次完成时间
user_funnel_progress = pd.DataFrame({'user_id': df_events['user_id'].unique()})

# 遍历漏斗阶段，找到每个用户首次完成该阶段的时间
for stage in funnel_stages:
    # 筛选出当前阶段的事件
    stage_events = df_events[df_events['event_name'] == stage].copy()
    # 找到每个用户首次完成该阶段的时间
    first_occurrence = stage_events.groupby('user_id')['event_time'].min().reset_index()
    first_occurrence.rename(columns={'event_time': f'{stage}_time'}, inplace=True)

    # 将结果合并到user_funnel_progress中
    user_funnel_progress = pd.merge(user_funnel_progress, first_occurrence, on='user_id', how='left')

# 确保用户按照漏斗阶段的顺序进行
# 如果用户跳过了某个阶段，或者阶段发生顺序错误，则认为该用户未通过该阶段
# 这里我们检查每个阶段的时间是否晚于或等于前一个阶段的时间
for i in range(1, len(funnel_stages)):
    prev_stage_time_col = f'{funnel_stages[i-1]}_time'
    curr_stage_time_col = f'{funnel_stages[i]}_time'

    # 如果当前阶段的时间为空，或者早于前一个阶段的时间，则将当前阶段时间设为NaN
    user_funnel_progress.loc[
        (user_funnel_progress[curr_stage_time_col].isnull()) | 
        (user_funnel_progress[curr_stage_time_col] < user_funnel_progress[prev_stage_time_col]), 
        curr_stage_time_col
    ] = pd.NaT # pd.NaT for datetime NaNs

# 计算每个阶段的用户数
stage_counts = {}
for i, stage in enumerate(funnel_stages):
    # 对于第一个阶段，计算所有有该事件的用户数
    if i == 0:
        stage_counts[stage] = user_funnel_progress[f'{stage}_time'].notna().sum()
    else:
        # 对于后续阶段，计算那些成功通过前一阶段且通过当前阶段的用户数
        prev_stage_col = f'{funnel_stages[i-1]}_time'
        curr_stage_col = f'{funnel_stages[i]}_time'
        stage_counts[stage] = user_funnel_progress[
            user_funnel_progress[prev_stage_col].notna() & 
            user_funnel_progress[curr_stage_col].notna()
        ].shape[0]

# 将结果转换为DataFrame以便计算和可视化
funnel_df = pd.DataFrame(list(stage_counts.items()), columns=['Stage', 'Users'])
funnel_df['Users_Prev_Stage'] = funnel_df['Users'].shift(1).fillna(funnel_df['Users'].iloc[0])
funnel_df['Conversion_Rate'] = (funnel_df['Users'] / funnel_df['Users_Prev_Stage'] * 100).round(2)
funnel_df['Cumulative_Conversion'] = (funnel_df['Users'] / funnel_df['Users'].iloc[0] * 100).round(2)

print("漏斗分析结果:")
print(funnel_df)

# 可视化漏斗
plt.figure(figsize=(10, 6))
sns.barplot(x='Stage', y='Users', data=funnel_df, palette='viridis')
plt.title('用户行为漏斗模型')
plt.xlabel('漏斗阶段')
plt.ylabel('用户数')

# 在柱状图上添加转化率标签
for index, row in funnel_df.iterrows():
    plt.text(index, row['Users'], f"{row['Users']} ({row['Cumulative_Conversion']}%)", color='black', ha="center", va='bottom')
    if index > 0:
        plt.text(index, row['Users'] / 2, f"{row['Conversion_Rate']}%", color='red', ha="center", va='center', weight='bold') # 阶段间转化率
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

为什么漏斗模型是用户行为分析的基石？

说实话，漏斗模型之所以成为用户行为分析的基石，在我看来，它最大的价值在于提供了一个“结构化透视镜”。我们每天面对海量的用户数据，如果只是看单个指标，比如“有多少人访问了页面”，或者“有多少人完成了购买”，这些数字固然重要，但它们无法告诉你用户在完成这个目标的过程中，到底经历了什么，又在哪里卡住了。

立即学习“Python免费学习笔记（深入）”；

漏斗模型就像是把用户的整个旅程拆解成一个个清晰的、逻辑关联的步骤。通过这种分解，我们能直观地看到每个阶段的用户留存情况和转化效率。一旦某个环节的转化率骤降，那几乎就是产品或运营出了问题的明确信号。它把复杂的用户行为路径，简化成了一条可量化、可追踪的“管道”，帮助我们迅速定位问题所在，而不是漫无目的地猜测。我个人觉得，它不仅仅是一个分析工具，更是一种思维框架，强迫你把用户体验视为一个连续的流程，而不是孤立的事件。

在Python中构建漏斗模型，数据清洗与预处理有哪些坑？

构建漏斗模型，尤其是用Python处理真实数据时，数据清洗和预处理才是真正的“硬骨头”，我甚至会说，80%的时间都花在了这里。那些看起来光鲜亮丽的漏斗图背后，往往隐藏着无数的数据陷阱。

一个常见的坑是事件定义的不一致性。比如，有时候“添加到购物车”事件可能被记录为add_to_cart，但某些客户端又可能记录为item_added_to_basket。如果你不仔细统一这些事件名称，你的漏斗数据就会严重失真，导致某些阶段的用户数被低估。

Smart Picture

Smart Picture 智能高效的图片处理工具

下载

其次是时间戳的准确性和时区问题。用户行为是时间序列数据，事件的先后顺序至关重要。如果时间戳有误差，或者不同系统记录的时间戳使用了不同的时区（比如一部分是UTC，一部分是本地时间），那么用户路径的逻辑就会完全被打乱。我曾经遇到过因为时区问题导致用户“先购买后加入购物车”的诡异数据，这直接让漏斗分析变得毫无意义。

再来就是用户识别的唯一性。确保user_id在整个用户旅程中是唯一的且持续的，这听起来简单，但实际操作中可能因为匿名用户、多设备登录、或用户ID重置等原因变得复杂。如果你无法准确识别同一个用户，那么你的漏斗就会把不同用户的行为混淆在一起。

最后，重复事件的处理也挺烦人。一个用户可能多次点击“加入购物车”，或者刷新页面导致“浏览商品”事件被多次记录。你需要决定是计算首次事件，还是最后一次事件，亦或是所有事件。不同的处理方式会影响你的漏斗阶段人数，进而影响转化率的计算。这些细节处理不当，可能让你的分析结果南辕北辙。

如何解读漏斗分析结果并制定优化策略？

解读漏斗分析结果，可不是简单地看看哪个阶段掉人最多。真正的价值在于，你要从数据中“读”出用户的心声，然后转化为可执行的优化方案。

首先，当然是识别最大的流失点。那些转化率骤降的阶段，就是你最需要关注的“出血点”。但仅仅知道“哪里掉人多”是不够的，你还得去探究“为什么掉人多”。这时候，你需要结合定性分析。比如，如果“加入购物车”到“结算页”的转化率很低，你可能需要回溯用户会话录像、进行用户访谈、查看热力图，看看用户在这个阶段遇到了什么障碍——是运费太高？支付方式不灵活？还是表单太复杂？

其次，进行用户分群分析能带来很多惊喜。把漏斗数据按用户来源（比如搜索引擎、社交媒体、广告）、设备类型（移动、桌面）、新老用户等维度进行细分，你可能会发现不同群体的行为模式差异巨大。例如，移动端用户在“结算页”的流失率可能远高于桌面端，这可能暗示你的移动端结算流程体验不佳。这种细分能帮助你制定更精准的优化策略。

最后，制定并验证优化策略是一个迭代过程。基于漏斗分析和定性研究得出的洞察，你可以提出具体的优化假设，比如“简化结算页表单可以提升转化率”。然后，通过A/B测试等方式来验证这些假设。如果测试结果积极，就推广实施；如果效果不明显，就继续分析，调整策略。记住，漏斗分析不是一次性的任务，它是一个持续的监控和优化循环。我个人觉得，最怕的就是看到漏斗数据后，没有后续的行动和验证，那这些分析就真的只是停留在数字层面了。

如何在 DVC 中通过常量文件统一管理依赖与输出路径

如何使用DBSCAN算法从出租车GPS数据中识别乘客热点区域

如何使用DBSCAN算法基于出租车GPS数据识别乘客热点区域

如何在 Python 中启动并持久化运行一个 GNU Screen 会话

如何为 DataFrame 补齐起始缺失时间戳并完成插值与重采样