合并Pandas groupby聚合结果并进行分组条形图可视化

心靈之曲
发布: 2025-10-05 12:11:33
原创
900人浏览过

合并Pandas groupby聚合结果并进行分组条形图可视化

本教程详细介绍了如何将Pandas groupby操作生成的不同聚合结果(如平均值和总和)合并到同一张图表中进行可视化。通过先将聚合后的数据框合并,然后利用Matplotlib的bar或barh函数,可以实现对复杂分组数据的多指标对比分析,有效解决直接链式调用绘图函数无法实现分组对比的问题。

在数据分析过程中,我们经常需要对数据集进行分组聚合,并对比同一分组下不同聚合指标的表现。例如,我们可能需要同时比较某个类别群体的平均值和总和。虽然pandas提供了便捷的groupby().plot.barh()方法,但它通常用于绘制单个聚合指标的图表。当我们需要在同一图表中并排展示多个聚合指标时,就需要更灵活的绘图策略。

挑战:直接绘制多个聚合结果

考虑以下两种独立的聚合操作,它们分别计算了不同维度组合下的cnt(计数)的平均值和总和:

import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

# 假设 day_df 是您的原始DataFrame,包含 'yr', 'season', 'weathersit', 'cnt' 等列
# 为了示例,我们创建一个模拟的 day_df
data = {
    'yr': [0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1],
    'season': [1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2, 1, 1, 2, 2],
    'weathersit': [1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2, 1, 2],
    'cnt': [100, 150, 200, 250, 300, 350, 400, 450, 110, 160, 210, 260, 310, 360, 410, 460]
}
day_df = pd.DataFrame(data)

# 单独的聚合和绘图尝试
# day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "sum"}).plot.barh()
# day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "mean"}).plot.barh()
登录后复制

直接对这两个聚合结果分别调用.plot.barh()会生成两张独立的图表,无法进行直观的并排比较。尝试手动使用plt.bar函数,但如果数据准备不当,例如直接从多级索引的DataFrame中提取列,会导致索引错位或数据无法匹配的问题。

解决方案:合并聚合数据框并使用Matplotlib绘图

解决此问题的核心在于:首先将不同聚合指标的数据整合到一个统一的DataFrame中,然后利用Matplotlib的灵活性来绘制分组条形图。

1. 数据准备:聚合与合并

首先,我们需要对原始数据进行两次聚合,分别计算所需的指标(例如,总和和平均值),并将结果转换为普通的DataFrame,以便后续合并。reset_index()在此步骤中至关重要,它将多级索引转换为普通列,使得数据框可以基于这些列进行合并。

# 计算平均值并重置索引
day_mean_dataframe = day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "mean"}).reset_index()

# 计算总和并重置索引
day_sum_dataframe = day_df.groupby(by=["yr", "season", "weathersit"]).agg({"cnt": "sum"}).reset_index()

# 合并数据框
# 使用 `on` 参数指定合并键,`suffixes` 参数处理同名列的后缀
merged_df = pd.merge(day_mean_dataframe, day_sum_dataframe, on=["yr", "season", "weathersit"], suffixes=('_mean', '_sum'))

print("合并后的数据框 (merged_df):")
print(merged_df)
登录后复制

merged_df现在包含了每个分组的平均值(cnt_mean)和总和(cnt_sum),为后续的统一绘图奠定了基础。

行者AI
行者AI

行者AI绘图创作,唤醒新的灵感,创造更多可能

行者AI100
查看详情 行者AI

2. 绘制分组条形图(垂直方向)

使用Matplotlib的plt.subplots创建图表和坐标轴对象,然后利用ax.bar函数绘制分组条形图。关键在于为不同指标的条形图设置不同的x轴位置偏移量,使其并排显示。

# 创建图表和坐标轴对象
fig, ax = plt.subplots(figsize=(14, 7)) # 调整图表大小以适应更多标签

# 计算每个分组的条形图的基准位置
r1 = np.arange(len(merged_df))
width = 0.35 # 条形图的宽度

# 绘制平均值条形图
ax.bar(r1 - width/2, merged_df["cnt_mean"], width=width, label='平均值', color='skyblue')

# 绘制总和条形图,并向右偏移
ax.bar(r1 + width/2, merged_df["cnt_sum"], width=width, label='总和', color='lightcoral')

# 设置x轴刻度标签
# 将多级分组键组合成一个字符串作为标签
ax.set_xticks(r1)
ax.set_xticklabels([f'年:{row.yr}, 季:{row.season}, 天气:{row.weathersit}' for _, row in merged_df.iterrows()], rotation=45, ha='right')

# 添加图例和标题
ax.legend()
ax.set_xlabel('分组')
ax.set_ylabel('计数')
ax.set_title('各分组计数平均值与总和对比 (垂直条形图)')
plt.tight_layout() # 调整布局以避免标签重叠
plt.show()
登录后复制

3. 绘制分组条形图(水平方向)

对于分组标签较长或分组数量较多的情况,水平条形图(ax.barh)通常能提供更好的可读性。其原理与垂直条形图类似,只是交换了x轴和y轴的角色。

# 创建图表和坐标轴对象
fig, ax = plt.subplots(figsize=(14, 8)) # 调整图表大小

# 计算每个分组的条形图的基准位置
r1 = np.arange(len(merged_df))
height = 0.35 # 条形图的高度

# 绘制平均值条形图
ax.barh(r1 - height/2, merged_df["cnt_mean"], height=height, label='平均值', color='skyblue')

# 绘制总和条形图,并向上偏移
ax.barh(r1 + height/2, merged_df["cnt_sum"], height=height, label='总和', color='lightcoral')

# 设置y轴刻度标签
ax.set_yticks(r1)
ax.set_yticklabels([f'年:{row.yr}, 季:{row.season}, 天气:{row.weathersit}' for _, row in merged_df.iterrows()])

# 添加图例和标题
ax.legend()
ax.set_xlabel('计数')
ax.set_ylabel('分组')
ax.set_title('各分组计数平均值与总和对比 (水平条形图)')
plt.tight_layout() # 调整布局
plt.show()
登录后复制

注意事项与最佳实践

  1. reset_index() 的重要性:在groupby().agg()之后,结果通常是一个多级索引的Series或DataFrame。reset_index()将其转换为普通的DataFrame,并将索引级别转换为常规列,这对于后续的pd.merge()操作至关重要。
  2. suffixes 参数:在pd.merge()中,如果两个DataFrame有同名的非合并列,suffixes参数可以为这些列添加不同的后缀,避免列名冲突,例如cnt_mean和cnt_sum。
  3. 标签处理:当分组键包含多个维度时,如yr, season, weathersit,需要手动将它们组合成一个有意义的字符串作为刻度标签,以提高可读性。rotation和ha(horizontal alignment)参数可以帮助调整长标签的显示。
  4. 图表尺寸与布局:使用figsize调整图表大小,特别是当分组数量较多或标签较长时。plt.tight_layout()可以自动调整子图参数,使之填充整个图表区域,避免标签重叠。
  5. 颜色和图例:合理使用颜色区分不同的指标,并添加清晰的图例,有助于读者理解图表内容。
  6. 选择条形图方向
    • 垂直条形图 (ax.bar) 适用于分组数量较少、分组标签较短的情况。
    • 水平条形图 (ax.barh) 适用于分组数量较多、分组标签较长的情况,可以有效避免标签重叠,提高可读性。

总结

通过将Pandas的groupby聚合结果与pd.merge相结合,我们能够有效地整合来自不同聚合操作的数据。随后,利用Matplotlib提供的强大绘图功能,我们可以灵活地创建分组条形图,无论是垂直还是水平方向,都能清晰地展示多指标在同一分组下的对比情况。这种方法不仅解决了直接链式绘图的局限性,也为更复杂的数据可视化提供了坚实的基础。

以上就是合并Pandas groupby聚合结果并进行分组条形图可视化的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号