
本教程详细介绍了如何利用python pandas库处理调查问卷中的多重响应问题,并生成与目标变量的交叉分析表。文章通过数据熔化(melt)和透视(pivot_table)等核心操作,将复杂的多重响应数据转换为易于分析的格式,并提供了实现绝对计数和列百分比计算的通用函数,帮助用户高效地进行数据分析。
在市场调研和用户反馈分析中,多重响应问题(Multiple Response Questions)是一种常见的数据类型,例如“您通过哪些渠道了解我们的产品?”(可多选)。这类问题的数据通常以“宽格式”存储,即每个选项对应一个独立的列。然而,传统的交叉分析(crosstab)函数通常假定每行只有一个响应,这使得直接对多重响应数据进行分析变得复杂。本教程将深入探讨如何使用Pandas库有效地处理这类数据,并生成清晰的交叉分析表。
假设我们有一个关于产品了解渠道(Q2)和购买意愿(Q3)的调查数据集。Q2是一个多重响应问题,包含Q2_1、Q2_2、Q2_3三个选项列,而Q3是一个单响应问题。原始数据集可能如下所示:
Q2_1 Q2_2 Q2_3 Q3
Na loja Email Folheto Sim
Na loja Não
Na loja Email Sim
Folheto Sim在这个数据集中,Q2_1、Q2_2、Q2_3列共同构成了“Q2”这个多重响应问题。如果某一行在Q2_1、Q2_2、Q2_3中都有值,则表示该受访者选择了多个选项。我们的目标是生成一个交叉表,显示每个Q2响应选项(例如“Na loja”、“Email”、“Folheto”)与Q3(“Sim”、“Não”)之间的关系。
处理多重响应数据的关键步骤是将“宽格式”数据转换为“长格式”。Pandas的melt函数是实现这一转换的强大工具。melt函数会将指定的列“熔化”成两列:一列包含原始列名(通常不再需要),另一列包含原始列中的值。
对于我们的示例数据,我们需要将Q2_1、Q2_2、Q2_3这三列熔化,而Q3列作为标识符(id_vars)保持不变。
import pandas as pd
import io
# 示例数据
data = '''Q2_1,Q2_2,Q2_3,Q3
Na loja,Email,Folheto,Sim
Na loja,,,Não
Na loja,Email,,Sim
,,Folheto,Sim'''
df = pd.read_csv(io.StringIO(data), sep=',')
# 熔化多重响应列
df_melted = df.melt(id_vars=['Q3'], value_vars=['Q2_1', 'Q2_2', 'Q2_3'],
var_name='mr_original_col', value_name='mr_response')
# 移除空响应(NaN值),因为未选择的选项会变成NaN
df_melted = df_melted.dropna(subset=['mr_response'])
print("熔化后的数据(部分):")
print(df_melted.head())熔化后的df_melted数据将大致如下:
Q3 mr_original_col mr_response 0 Sim Q2_1 Na loja 1 Não Q2_1 Na loja 2 Sim Q2_1 Na loja 3 Sim Q2_3 Folheto 4 Sim Q2_2 Email
通过melt操作,每个受访者的所有Q2响应都被放置在mr_response列中,并且每一行代表一个独立的响应,这使得后续的聚合操作变得简单。
在数据熔化为长格式后,我们可以使用groupby进行计数,然后通过pivot_table将数据重塑为所需的交叉表格式。
# 1. 按响应值和目标变量分组并计数
grouped_counts = df_melted.groupby(['mr_response', 'Q3']).size().reset_index(name='count')
print("\n分组计数后的数据:")
print(grouped_counts)
# 2. 转换为交叉表格式
crosstab_df = grouped_counts.pivot_table(index='mr_response', columns='Q3',
values='count', aggfunc='sum', fill_value=0)
# 清理索引和列名,使其更美观
crosstab_df.columns.name = None
crosstab_df = crosstab_df.rename_axis(index=None)
print("\n最终交叉表(绝对计数):")
print(crosstab_df)输出结果:
最终交叉表(绝对计数):
Não Sim
Email 0 2
Folheto 0 2
Na loja 1 2这个交叉表清晰地展示了每个多重响应选项在目标变量不同类别下的计数。
为了方便复用和处理不同数据集,我们可以将上述步骤封装成一个通用函数,并增加计算列百分比的功能。
def calculate_mr_crosstab(df, mr_set_columns, target_variable, calc_type='absolute'):
"""
计算多重响应问题与单个目标变量的交叉分析表。
参数:
df (pd.DataFrame): 包含多重响应数据和目标变量的DataFrame。
mr_set_columns (list): 组成多重响应集的所有列名列表,例如 ['Q2_1', 'Q2_2', 'Q2_3']。
target_variable (str): 用于交叉分析的目标变量列名,例如 'Q3'。
calc_type (str): 计算类型,'absolute' 为绝对计数,'percentage' 为列百分比。
返回:
pd.DataFrame: 生成的交叉分析表。
"""
# 1. 熔化多重响应列
df_melted = df.melt(id_vars=[target_variable], value_vars=mr_set_columns,
value_name='mr_response') # var_name在此处非必需,故省略
# 2. 移除空响应(NaN值)
df_melted = df_melted.dropna(subset=['mr_response'])
# 3. 按响应值和目标变量分组并计数
grouped_counts = df_melted.groupby(['mr_response', target_variable]).size().reset_index(name='count')
# 4. 转换为交叉表格式
crosstab_df = grouped_counts.pivot_table(index='mr_response', columns=target_variable,
values='count', aggfunc='sum', fill_value=0)
# 5. 根据 calc_type 计算百分比
if calc_type == 'percentage':
# 计算列百分比:每个单元格除以其所在列的总和
crosstab_df = crosstab_df.div(crosstab_df.sum(axis=0), axis=1) * 100
# 格式化百分比显示
crosstab_df = crosstab_df.round(2).astype(str) + '%'
# 清理索引和列名
crosstab_df.columns.name = None
crosstab_df = crosstab_df.rename_axis(index=None)
return crosstab_df
# 使用函数进行计算
mr_cols = ['Q2_1', 'Q2_2', 'Q2_3']
target_col = 'Q3'
# 绝对计数交叉表
absolute_crosstab = calculate_mr_crosstab(df, mr_cols, target_col, calc_type='absolute')
print("\n--- 绝对计数交叉表 ---")
print(absolute_crosstab)
# 列百分比交叉表
percentage_crosstab = calculate_mr_crosstab(df, mr_cols, target_col, calc_type='percentage')
print("\n--- 列百分比交叉表 ---")
print(percentage_crosstab)输出结果:
--- 绝对计数交叉表 ---
Não Sim
Email 0 2
Folheto 0 2
Na loja 1 2
--- 列百分比交叉表 ---
Não Sim
Email 0.0% 33.33%
Folheto 0.0% 33.33%
Na loja 100.0% 33.33%multiple_response_dict = {
'Q2': ['Q2_1', 'Q2_2', 'Q2_3'],
'Q4': ['Q4_1', 'Q4_2', 'Q4_3', 'Q4_4', 'Q4_5', 'Q4_6','Q4_Outro'],
}
# for mr_set_name, mr_cols_list in multiple_response_dict.items():
# crosstab = calculate_mr_crosstab(df, mr_cols_list, target_col)
# print(f"\n--- {mr_set_name} 与 {target_col} 的交叉表 ---")
# print(crosstab)通过本教程,我们学习了如何利用Pandas的melt、groupby和pivot_table函数有效地处理多重响应数据,并生成灵活的交叉分析表。这种方法将宽格式的多重响应数据转换为长格式,极大地简化了聚合和分析过程。所提供的calculate_mr_crosstab函数是一个强大的工具,可以帮助数据分析师快速生成所需的多重响应交叉表,无论是绝对计数还是列百分比,从而更深入地理解调查数据。掌握这些技术对于进行高质量的问卷数据分析至关重要。
以上就是使用Pandas处理多重响应问题并生成交叉分析表的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号