
本文将介绍如何使用 Pandas 库对 DataFrame 中多个列的组合进行分组,并计算每个组合的统计数据,包括中位数、平均值、计数、90% 分位数和 10% 分位数。通过 groupby() 和 agg() 函数的结合使用,可以高效地实现这一目标,并展示了如何遍历所有可能的组合以生成独立的统计 DataFrame。
假设我们有一个 DataFrame,包含多个变量(例如 Var1、Var2、Var3)和一个数值列 Value。我们的目标是针对 Var1、Var2 和 Var3 的所有可能组合,计算 Value 列的统计信息,并将结果以 DataFrame 的形式呈现。
以下代码演示了如何使用 Pandas 实现这一目标:
import pandas as pd
# 示例 DataFrame (您可以替换为您自己的数据)
data = {'Var1': [True, False, True, False, True, False, True, False, True],
'Var2': [1, 2, 3, 1, 2, 3, 1, 2, 3],
'Var3': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C'],
'Value': [12, 93, 28, 23, 94, 12, 85, 23, 2]}
df = pd.DataFrame(data)
# 使用 groupby() 和 agg() 函数计算统计数据
df = df.groupby(["Var1", "Var2", "Var3"]).agg(
Med=("Value", "median"),
Mean=("Value", "mean"),
Count=("Value", "count"),
q90=("Value", lambda x: x.quantile(q=0.9)),
q10=("Value", lambda x: x.quantile(q=0.1)),
)
# 确保所有可能的组合都存在
df = df.reindex(
pd.MultiIndex.from_product(
[[True, False], [1, 2, 3], ["A", "B", "C"]], names=["Var1", "Var2", "Var3"]
)
)
# 打印每个组合的 DataFrame
for _, g in df.groupby(level=[0, 1, 2]):
print(g)
print("-" * 80)代码解释:
通过结合使用 Pandas 的 groupby() 和 agg() 函数,可以轻松地计算 DataFrame 中多个列组合的统计数据。 reindex() 函数可以确保所有可能的组合都包含在结果中,即使某些组合在原始数据中不存在。 这种方法非常灵活,可以根据需要进行定制,以满足不同的数据分析需求。
以上就是使用 Pandas DataFrame 计算多列组合的统计数据的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号