
在数据分析工作中,我们经常需要从一个大型数据集中提取特定子集,然后对这些子集进行计算,并将结果合并到一起。当这类操作涉及多个条件筛选和多轮合并时,代码往往变得冗长、重复且难以维护。例如,在生物信息学领域,可能需要根据酶(enzyme)、区域(regions)和统计量(n)的不同组合来计算长度(length)的差异,最终生成一个汇总表。原始方法可能涉及大量的df_stats[(df_stats['n'] == x) & (df_stats['regions'] == 'y')]筛选,接着是多次pd.merge操作,这不仅降低了代码的可读性,也可能影响在大规模数据集上的性能。
考虑以下原始代码示例,它通过多次筛选和合并来计算不同条件下的长度差异:
import io
import pandas as pd
TESTDATA="""
enzyme regions N length
AaaI all 10 238045
AaaI all 20 170393
AaaI all 30 131782
AaaI all 40 103790
AaaI all 50 81246
AaaI all 60 62469
AaaI all 70 46080
AaaI all 80 31340
AaaI all 90 17188
AaaI captured 10 292735
AaaI captured 20 229824
AaaI captured 30 193605
AaaI captured 40 163710
AaaI captured 50 138271
AaaI captured 60 116122
AaaI captured 70 95615
AaaI captured 80 73317
AaaI captured 90 50316
AagI all 10 88337
AagI all 20 19144
AagI all 30 11030
AagI all 40 8093
AagI all 50 6394
AagI all 60 4991
AagI all 70 3813
AagI all 80 2759
AagI all 90 1666
AagI captured 10 34463
AagI captured 20 19220
AagI captured 30 15389
AagI captured 40 12818
AagI captured 50 10923
AagI captured 60 9261
AagI captured 70 7753
AagI captured 80 6201
AagI captured 90 4495
"""
df_stats = pd.read_csv(io.StringIO(TESTDATA), sep='\s+')
# 原始的重复性操作示例
df_cap_N90 = df_stats[(df_stats['N'] == 90) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N'])
df_cap_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'captured')].drop(columns=['regions', 'N'])
df_all_N50 = df_stats[(df_stats['N'] == 50) & (df_stats['regions'] == 'all') ].drop(columns=['regions', 'N'])
df_summ_cap_N50_all_N50 = pd.merge(df_cap_N50, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N50', '_all_N50'))
df_summ_cap_N50_all_N50['cap_N50_all_N50'] = (df_summ_cap_N50_all_N50['length_cap_N50'] -
df_summ_cap_N50_all_N50['length_all_N50'])
df_summ_cap_N90_all_N50 = pd.merge(df_cap_N90, df_all_N50, on='enzyme', how='inner', suffixes=('_cap_N90', '_all_N50'))
df_summ_cap_N90_all_N50['cap_N90_all_N50'] = df_summ_cap_N90_all_N50['length_cap_N90'] - df_summ_cap_N90_all_N50['length_all_N50']
df_summ = pd.merge(df_summ_cap_N50_all_N50.drop(columns=['length_cap_N50', 'length_all_N50']),
df_summ_cap_N90_all_N50.drop(columns=['length_cap_N90', 'length_all_N50']),
on='enzyme', how='inner')
print("原始方法结果:")
print(df_summ)输出结果:
原始方法结果: enzyme cap_N50_all_N50 cap_N90_all_N50 0 AaaI 57025 -30930 1 AagI 4529 -1899
解决上述问题的关键在于将数据从“长格式”(long format)转换为“宽格式”(wide format),使得不同条件下的length值并排显示在同一行,从而便于直接进行列与列之间的计算。Pandas的pivot函数正是为此而生。
pivot函数的基本用法是:df.pivot(index='index_column', columns='columns_column', values='values_column')。
在本例中,我们希望以enzyme为索引,以regions和N的组合作为列,length作为值。
步骤 1:筛选相关数据
在进行pivot操作之前,通常建议先筛选出所有相关的行,以避免创建不必要的宽列,提高效率。根据需求,我们只关心N值为50和90的数据。
# 筛选出N为50或90的行 filtered_df = df_stats.loc[df_stats["N"].isin([50, 90])]
步骤 2:执行 pivot 操作
我们将enzyme设置为索引,regions和N的组合作为多级列,length作为值。
pivoted_df = filtered_df.pivot(index="enzyme", columns=["regions", "N"], values="length")
print("Pivot操作后的DataFrame (pivoted_df):")
print(pivoted_df)输出结果:
Pivot操作后的DataFrame (pivoted_df): regions all captured N 50 90 50 90 enzyme AaaI 81246 17188 138271 50316 AagI 6394 1666 10923 4495
可以看到,pivoted_df现在是一个具有多级列索引的DataFrame,其中all和captured是第一级索引,50和90是第二级索引。enzyme作为行索引。
数据重塑后,原本需要多次合并才能完成的计算,现在可以通过直接对列进行向量化操作来完成,极大地简化了代码。
我们的目标是计算:
在pivoted_df中,这些对应于:
Pandas提供了sub(减法)、add(加法)、mul(乘法)、div(除法)等一系列向量化方法,它们可以非常高效地对DataFrame或Series进行元素级操作。
# 提取 'all' 区域 N=50 的长度,作为基准
all_N50_base = pivoted_df[("all", 50)]
# 对 'captured' 区域的 N=50 和 N=90 的长度分别减去基准值
# 使用 .sub() 方法进行减法操作,axis=0 表示按行进行对齐
result_df = pivoted_df["captured"].sub(all_N50_base, axis=0)
# 为结果列添加前缀和后缀以符合目标命名
# result_df 的列现在是 N=50 和 N=90
result_df = result_df.add_prefix("cap_N").add_suffix("_all_N50")
# 将 enzyme 索引重置为常规列
final_summary_df = result_df.reset_index()
print("\n优化后的最终汇总DataFrame (final_summary_df):")
print(final_summary_df)输出结果:
优化后的最终汇总DataFrame (final_summary_df): N enzyme cap_N50_all_N50 cap_N90_all_N50 0 AaaI 57025 -30930 1 AagI 4529 -1899
将上述步骤整合,可以得到一个非常简洁高效的解决方案:
import io
import pandas as pd
TESTDATA="""
enzyme regions N length
AaaI all 10 238045
AaaI all 20 170393
AaaI all 30 131782
AaaI all 40 103790
AaaI all 50 81246
AaaI all 60 62469
AaaI all 70 46080
AaaI all 80 31340
AaaI all 90 17188
AaaI captured 10 292735
AaaI captured 20 229824
AaaI captured 30 193605
AaaI captured 40 163710
AaaI captured 50 138271
AaaI captured 60 116122
AaaI captured 70 95615
AaaI captured 80 73317
AaaI captured 90 50316
AagI all 10 88337
AagI all 20 19144
AagI all 30 11030
AagI all 40 8093
AagI all 50 6394
AagI all 60 4991
AagI all 70 3813
AagI all 80 2759
AagI all 90 1666
AagI captured 10 34463
AagI captured 20 19220
AagI captured 30 15389
AagI captured 40 12818
AagI captured 50 10923
AagI captured 60 9261
AagI captured 70 7753
AagI captured 80 6201
AagI captured 90 4495
"""
df_stats = pd.read_csv(io.StringIO(TESTDATA), sep='\s+')
# 1. 筛选相关数据并进行透视(pivot)
# 确保只包含N=50和N=90的数据,然后以enzyme为索引,regions和N为列进行透视
pivoted_df = (df_stats.loc[df_stats["N"].isin([50, 90])]
.pivot(index="enzyme", columns=["regions", "N"], values="length"))
# 2. 执行向量化计算并重命名列
# 提取 'captured' 区域的数据列,并减去 'all' 区域 N=50 的数据列
# axis=0 确保按行(即按enzyme)对齐
# add_prefix 和 add_suffix 用于生成目标列名
final_summary_df = (pivoted_df["captured"]
.sub(pivoted_df[("all", 50)], axis=0)
.add_prefix("cap_N")
.add_suffix("_all_N50")
.reset_index())
print("最终优化结果:")
print(final_summary_df)通过本教程,我们学习了如何利用Pandas的pivot函数将数据从长格式转换为宽格式,并结合sub等向量化操作,以一种更简洁、高效和专业的方式进行复杂的数据聚合和计算。这种方法不仅大幅减少了代码量,提高了可读性,而且在处理大规模数据集时能够带来显著的性能提升。掌握pivot和向量化操作是成为一名高效Pandas数据分析师的关键技能之一。
以上就是使用Pandas pivot 和向量化操作优化重复性数据聚合的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号