
本文介绍三种简洁高效的 pandas 方法,将含 yes/no 等分类响应的问卷数据按问题维度统计频次,并输出结构化汇总表(行=响应类型,列=问题编号),避免手动循环,兼顾可读性与扩展性。
在处理问卷类结构化数据时,常需将宽表格式的分类响应(如 Yes/No)按字段聚合统计,生成便于可视化或下游分析的交叉频次表。原始数据通常以 Client_Id 为主键、各问题为列;目标则是转换为以响应类别为行索引、问题列为列的二维汇总表。下面提供三种推荐方案,分别适用于不同场景:
✅ 方案一:布尔求和法(最简高效,仅限二元分类)
当响应值严格为两类(如 'Yes' 和 'No'),且逻辑清晰时,可直接构造布尔矩阵后求和:
import pandas as pd
# 假设 df 是原始 DataFrame
questions = df.filter(like='Question') # 提取所有 Question_* 列
yes_counts = questions.eq('Yes').sum() # 每列中 'Yes' 的数量
no_counts = len(df) - yes_counts # 自动推导 'No' 数量
# 构建结果 DataFrame
out = pd.DataFrame({'Yes': yes_counts, 'No': no_counts}).T
out.index.name = 'Response'✅ 优点:计算极快、代码极简、内存友好;
⚠️ 注意:仅适用于明确二元且互斥的分类(如无空值或其它取值),否则需先清洗。
✅ 方案二:melt + value_counts(通用稳健,推荐首选)
无需预设类别,自动识别所有唯一响应值,适合多分类或存在未知标签的场景:
questions = df.filter(like='Question')
out = (questions
.melt(var_name='Question', value_name='Response') # 变长格式:(Question, Response)
.value_counts(['Response', 'Question']) # 分组计数
.unstack('Question', fill_value=0) # 行=Response,列=Question
.rename_axis(index=None, columns=None) # 清除轴名称
)✅ 优点:完全自动化、兼容任意数量响应类别(如 'Yes', 'No', 'N/A')、抗脏数据;
? 提示:unstack() 默认按字典序排列列名,如需固定顺序(如 Question_1 → Question_4),可在 filter() 后显式指定列:
questions = df[['Question_1', 'Question_2', 'Question_3', 'Question_4']]
✅ 方案三:crosstab(语义清晰,专为交叉表设计)
Pandas 内置的交叉表函数,语义最贴近业务需求,代码意图一目了然:
questions = df.filter(like='Question') stacked = questions.stack() # Series: (client_idx, question) → response out = pd.crosstab(stacked, stacked.index.get_level_values(1)) out.index.name = 'Response' out.columns.name = None
✅ 优点:专为频次交叉设计,支持归一化(normalize=True)、加权统计等高级参数;
? 扩展:若需百分比形式,可追加 .apply(lambda x: x / x.sum(), axis=1).round(3)。
? 最终效果与注意事项
所有方法均输出统一结构:
Question_1 Question_2 Question_3 Question_4 Yes 1 2 3 2 No 2 1 0 1
- 务必先检查缺失值:df.isna().sum(),value_counts(dropna=False) 可保留 NaN 统计,但 crosstab 默认忽略 NaN;
- 列名一致性:确保 filter(like='Question') 匹配预期列;若列名不规范,建议先用 df.columns.str.contains('Q\d+', regex=True) 精准筛选;
- 性能提示:百万级数据优先选方案一(布尔向量化);中小规模数据推荐方案二,兼顾健壮性与可读性。
掌握这三种方法,你不仅能快速完成频次汇总,更能根据数据质量与业务需求灵活选择最优路径——告别 for 循环,拥抱向量化表达。










