Python中pivot_table做数据透视表的核心是理清“行、列、值、聚合方式”四个要素:index指定分组维度,columns指定横向展开字段,values指定统计数值列,aggfunc指定聚合函数,支持多维索引、多值列、自定义聚合及缺失值处理。

Python中用pivot_table做数据透视表,核心是理清“行、列、值、聚合方式”四个要素——不是堆函数,而是按业务逻辑组织数据。
数据透视本质是三维切片:把原始表格按某几列“分组”(index),再按另一列“展开”(columns),对目标数值列(values)做统计(aggfunc)。比如销售数据中:
'region'或['region', 'salesperson']
'product'(不同产品变成列)'revenue'或'quantity'
最简调用:df.pivot_table(values='revenue', index='region', columns='product', aggfunc='sum')。实际常用组合:
values=['revenue', 'quantity'] → 输出MultiIndex列index=['region', 'year'] → 行按区域+年份嵌套分组aggfunc={'revenue': 'mean', 'quantity': 'sum'} → 不同列用不同算法fill_value=0 把空单元格填0,避免NaN干扰展示pivot_table默认会自动聚合重复组合(比如同一region+product有多条记录),但若原始数据有缺失或异常,容易出错:
立即学习“Python免费学习笔记(深入)”;
index和columns组合存在完全重复且values非数值,会报错;先用df.drop_duplicates(subset=['region','product'])或明确aggfunc解决values字段是否真为数值型:df['revenue'] = pd.to_numeric(df['revenue'], errors='coerce')
columns取值是否太分散(如用用户ID作列),应改用更聚合的字段(如用户等级、月份)透视表不是终点,常需进一步加工:
margins=True,并用margins_name='Total'命名总计行result = result[sorted(result.columns, key=lambda x: result[x].sum(), reverse=True)]
result.to_excel('report.xlsx', merge_cells=False)(配合openpyxl可加粗标题、调整列宽)不复杂但容易忽略:pivot_table返回的是DataFrame,支持所有pandas操作——筛选、新增计算列、条件高亮,别只把它当静态报表用。
以上就是Python数据透视表怎么做_pivot_table实战解析【技巧】的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号