
在数据分析和处理过程中,我们经常需要对dataframe进行复杂的聚合操作,例如基于多个条件筛选数据,然后进行计算并合并结果。当这些操作需要重复执行多次,仅仅是条件参数不同时,代码会变得冗长、难以维护且效率低下。本文将介绍一种更优雅、高效的pandas方法,利用pivot函数和广播机制来简化此类复杂的数据聚合任务。
考虑以下场景:我们有一个包含酶(enzyme)、区域类型(regions)、N值(N)和长度(length)的统计数据集。我们的目标是计算特定条件下长度值的差异,例如 captured 区域 N=50 的长度减去 all 区域 N=50 的长度,以及 captured 区域 N=90 的长度减去 all 区域 N=50 的长度。
以下是原始的、具有重复性的代码实现方式:
import io
import pandas as pd
TESTDATA="""
enzyme regions N length
AaaI all 10 238045
AaaI all 20 170393
AaaI all 30 131782
AaaI all 40 103790
AaaI all 50 81246
AaaI all 60 62469
AaaI all 70 46080
AaaI all 80 31340
AaaI all 90 17188
AaaI captured 10 292735
AaaI captured 20 229824
AaaI captured 30 193605
AaaI captured 40 163710
AaaI captured 50 138271
AaaI captured 60 116122
AaaI captured 70 95615
AaaI captured 80 73317
AaaI captured 90 50316
AagI all 10 88337
AagI all 20 19144
AagI all 30 11030
AagI all 40 8093
AagI all 50 6394
AagI all 60 4991
AagI all 70 3813
AagI all 80 2759
AagI all 90 1666
AagI captured 10 34463
AagI captured 20 19220
AagI captured 30 15389
AagI captured 40 12818
AagI captured 50 10923
AagI captured 60 9261
AagI captured 70 7753
AagI captured 80 6201
AagI captured 90 4495
"""
df_stats = pd.read_csv(io.StringIO(TESTDATA), sep='\s+')
# 筛选并准备数据
df_cap_N90 = df_stats[(df_stats['N'] == 90) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N'])
df_cap_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N'])
df_all_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'all') ].drop(columns=['regions', 'N'])
# 执行合并和计算
df_summ_cap_N50_all_N50 = pd.merge(df_cap_N50, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N50', '_all_N50'))
df_summ_cap_N50_all_N50['cap_N50_all_N50'] = (df_summ_cap_N50_all_N50['length_cap_N50'] -
df_summ_cap_N50_all_N50['length_all_N50'])
df_summ_cap_N90_all_N50 = pd.merge(df_cap_N90, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N90', '_all_N50'))
df_summ_cap_N90_all_N50['cap_N90_all_N50'] = df_summ_cap_N90_all_N50['length_cap_N90'] - df_summ_cap_N90_all_N50['length_all_N50']
# 最终合并结果
df_summ = pd.merge(df_summ_cap_N50_all_N50.drop(columns=['length_cap_N50', 'length_all_N50']),
df_summ_cap_N90_all_N50.drop(columns=['length_cap_N90', 'length_all_N50']),
on='enzyme', how='inner')
print(df_summ)这种方法的问题在于:
为了解决上述问题,我们可以利用Pandas的pivot函数将数据重塑为宽格式,然后利用其强大的广播机制进行高效的列间计算。
pivot函数可以将DataFrame从“长格式”转换为“宽格式”,这对于进行多维度的数据分析非常有用。它通过指定一个或多个列作为新的索引(index)、一个或多个列作为新的列标签(columns),以及一个列作为填充新单元格的值(values)来实现。
首先,我们筛选出所有需要参与计算的 N 值(这里是50和90),以避免不必要的计算量。
# 筛选出N为50或90的数据
filtered_df = df_stats.loc[df_stats["N"].isin([50, 90])]
# 使用pivot将数据重塑为宽格式
# enzyme 作为新DataFrame的索引
# regions 和 N 的组合作为新DataFrame的列
# length 列的值填充到新DataFrame的单元格中
pivoted_df = filtered_df.pivot(index="enzyme", columns=["regions", "N"], values="length")
print("重塑后的DataFrame (pivoted_df):")
print(pivoted_df)输出的 pivoted_df 将是一个具有多级列索引的DataFrame,其结构如下:
regions all captured N 50 90 50 90 enzyme AaaI 81246 17188 138271 50316 AagI 6394 1666 10923 4495
现在,我们所需的所有 length 值都以宽格式排列,并且可以通过多级列索引轻松访问。
Pandas的算术运算支持广播(broadcasting),这意味着当操作两个具有不同维度但兼容形状的Series或DataFrame时,Pandas会自动扩展较小的对象以匹配较大的对象。这使得我们能够非常简洁地执行列与列之间的计算。
在我们的案例中,我们需要计算 captured 区域的 N=50 和 N=90 的长度分别减去 all 区域 N=50 的长度。
# 提取 'captured' 区域的所有N值对应的长度
captured_lengths = pivoted_df["captured"]
# 提取 'all' 区域 N=50 对应的长度 (这是一个Series)
all_N50_length = pivoted_df[("all", 50)]
# 使用 .sub() 方法进行广播减法
# captured_lengths 是一个DataFrame,all_N50_length 是一个Series
# Pandas 会将 all_N50_length 广播到 captured_lengths 的每一列进行减法
# axis=0 表示按行对齐索引进行操作
result_diff = captured_lengths.sub(all_N50_length, axis=0)
print("\n计算差异后的DataFrame (result_diff):")
print(result_diff)输出的 result_diff 如下:
N 50 90 enzyme AaaI 57025 -30930 AagI 4529 -1899
可以看到,一步操作就完成了所有必要的减法,并且结果DataFrame的索引和列都已正确对齐。
最后一步是根据要求重命名结果列,并将索引转换为常规列。
# 重命名列:先添加前缀 'cap_N',再添加后缀 '_all_N50'
# N=50 -> cap_N50 -> cap_N50_all_N50
# N=90 -> cap_N90 -> cap_N90_all_N50
final_df = result_diff.add_prefix("cap_N").add_suffix("_all_N50")
# 将索引 'enzyme' 转换为常规列
final_df = final_df.reset_index()
print("\n最终聚合结果 (final_df):")
print(final_df)最终输出:
enzyme cap_N50_all_N50 cap_N90_all_N50 0 AaaI 57025 -30930 1 AagI 4529 -1899
这与原始方法得到的 df_summ 结果完全一致,但代码量大幅减少,逻辑更加清晰。
将上述步骤整合到一起,得到简洁高效的解决方案:
import io
import pandas as pd
TESTDATA="""
enzyme regions N length
AaaI all 10 238045
AaaI all 20 170393
AaaI all 30 131782
AaaI all 40 103790
AaaI all 50 81246
AaaI all 60 62469
AaaI all 70 46080
AaaI all 80 31340
AaaI all 90 17188
AaaI captured 10 292735
AaaI captured 20 229824
AaaI captured 30 193605
AaaI captured 40 163710
AaaI captured 50 138271
AaaI captured 60 116122
AaaI captured 70 95615
AaaI captured 80 73317
AaaI captured 90 50316
AagI all 10 88337
AagI all 20 19144
AagI all 30 11030
AagI all 40 8093
AagI all 50 6394
AagI all 60 4991
AagI all 70 3813
AagI all 80 2759
AagI all 90 1666
AagI captured 10 34463
AagI captured 20 19220
AagI captured 30 15389
AagI captured 40 12818
AagI captured 50 10923
AagI captured 60 9261
AagI captured 70 7753
AagI captured 80 6201
AagI captured 90 4495
"""
df_stats = pd.read_csv(io.StringIO(TESTDATA), sep='\s+')
# 链式操作实现高效聚合
df_summ_optimized = (
df_stats.loc[df_stats["N"].isin([50, 90])] # 筛选相关N值
.pivot(index="enzyme", columns=["regions", "N"], values="length") # 重塑数据
.pipe(lambda piv: piv["captured"].sub(piv[("all", 50)], axis=0)) # 执行广播减法
.add_prefix("cap_N") # 添加前缀
.add_suffix("_all_N50") # 添加后缀
.reset_index() # 将索引转换为列
)
print(df_summ_optimized)通过本教程,我们学习了如何利用Pandas的pivot
以上就是Pandas高效聚合:利用pivot和广播操作简化复杂数据转换的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号