创建堆叠DataFrame中分组变量比率的教程

霞舞

发布时间：2025-10-15 11:20:02

745人浏览过

来源于php中文网

原创

创建堆叠DataFrame中分组变量比率的教程

本文介绍如何在pandas中高效地对堆叠式dataframe进行分组，计算特定类型变量（如'ts'/'td'）的行间比率，并将其作为新行添加回原数据。文章通过`set_index`、`unstack`和`div`等pandas核心操作，展示了如何优雅地处理数据转换、比率计算以及缺失值（nan）的填充，同时保留原始数据结构，避免了低效的循环或`apply`方法。

数据结构与目标

在数据分析中，我们经常会遇到需要从“长格式”（或堆叠式）DataFrame中提取特定行值并进行计算的场景。例如，给定一个包含分组键（如G1, G2）、类型标识符（TPE，如'td'或'ts'）和数值（QC）的DataFrame，我们的目标是：

根据G1和G2进行分组。
在每个组内，计算TPE为'ts'的QC值与TPE为'td'的QC值的比率（ts/td）。
将这些比率作为新行添加到原始DataFrame中，新行的TPE列标记为'ratio'。
如果某个组缺少'td'或'ts'值，则对应的比率应为空（NaN）。

以下是输入DataFrame的示例：

import pandas as pd
import numpy as np

data = {
    'G1': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B', 'C', 'D'],
    'G2': ['S1', 'S1', 'S2', 'S2', 'S1', 'S1', 'S2', 'S2', 'S1', 'S2'],
    'TPE': ['td', 'ts', 'td', 'ts', 'td', 'ts', 'td', 'ts', 'td', 'ts'],
    'QC': [2, 4, 6, 3, 20, 40, 60, 30, 90, 7]
}
df_in = pd.DataFrame(data)

# 模拟缺失td或ts的情况
df_in.loc[8, 'TPE'] = 'td' # C S1只有td
df_in.loc[9, 'TPE'] = 'ts' # D S2只有ts

print("原始DataFrame (df_in):")
print(df_in)

输出的df_in如下：

   G1  G2 TPE  QC
0  A  S1  td   2
1  A  S1  ts   4
2  A  S2  td   6
3  A  S2  ts   3
4  B  S1  td  20
5  B  S1  ts  40
6  B  S2  td  60
7  B  S2  ts  30
8  C  S1  td  90
9  D  S2  ts   7

传统处理方法的挑战

一种直观但效率不高的做法是使用groupby().apply()结合自定义函数。例如：

def calculate_ratio_inefficient(group):
    td_row = group[group['TPE'] == 'td']
    ts_row = group[group['TPE'] == 'ts']
    if not td_row.empty and not ts_row.empty:
        ratio = ts_row['QC'].values[0] / td_row['QC'].values[0]
        return pd.DataFrame({'G1': [group['G1'].iloc[0]], 
                             'G2': [group['G2'].iloc[0]], 
                             'TPE': ['ratio'], 
                             'QC': [ratio]})
    # 如果缺少td或ts，返回一个空DataFrame，这会导致该组的比率行被忽略
    return pd.DataFrame()

# grouped = df_in.groupby(['G1', 'G2']).apply(calculate_ratio_inefficient).reset_index(drop=True)
# df_out_inefficient = pd.concat([df_in, grouped], ignore_index=True)
# print("\n使用apply的输出 (会丢失缺失比率的组):")
# print(df_out_inefficient)

这种方法虽然能实现比率计算，但存在几个问题：

效率低下：apply()操作通常比Pandas的矢量化操作慢，尤其是在大数据集上。
缺失值处理复杂：为了保留所有组（包括那些缺少'td'或'ts'的组）的比率行并填充NaN，自定义函数需要更复杂的逻辑，否则如上述代码所示，这些组的比率行会被直接丢弃。

利用Pandas实现高效比率计算

Pandas提供了更高效、更“Pythonic”的方式来解决这类问题，核心思想是利用set_index和unstack将不同类型的值转换为列，从而实现矢量化计算。

核心代码解析

# 步骤1: 设置多级索引并将'TPE'列unstack为新列
# 这会将G1, G2作为行索引，TPE的值（td, ts）作为列名，QC的值填充这些新列。
# 如果某个G1/G2组合缺少td或ts，unstack会自动填充NaN。
tmp = df_in.set_index(['G1', 'G2', 'TPE']).unstack()['QC']
print("\n中间结果 (tmp DataFrame):")
print(tmp)

tmp DataFrame的输出：

TPE    td    ts
G1 G2          
A  S1   2.0   4.0
   S2   6.0   3.0
B  S1  20.0  40.0
   S2  60.0  30.0
C  S1  90.0   NaN
D  S2   NaN   7.0

从tmp中可以看到，TPE列的值'td'和'ts'已经变成了新的列名，并且QC值填充了相应的位置。对于C S1，由于没有'ts'，ts列显示为NaN；同理，D S2的td列也显示为NaN。

# 步骤2: 计算比率
# 直接对unstacked后的列进行除法操作。Pandas会自动处理NaN。
# ts / td
ratio_series = tmp['ts'].div(tmp['td'])
print("\n计算出的比率Series:")
print(ratio_series)

ratio_series的输出：

ArrowMancer

手机上的宇宙动作RPG，游戏角色和元素均为AI生成

下载

G1  G2
A   S1    2.0
    S2    0.5
B   S1    2.0
    S2    0.5
C   S1    NaN
D   S2    NaN
dtype: float64

这里，C S1和D S2的比率因为存在NaN值而计算结果也为NaN，这正是我们期望的行为。

# 步骤3: 将比率Series转换回DataFrame并添加'TPE'列
# reset_index()将多级索引G1, G2变回普通列。
# name='QC'将比率Series的名称设为'QC'，使其成为DataFrame中的一列。
# assign(TPE='ratio')添加一个名为'TPE'的新列，并将其值设置为'ratio'。
ratio_df = ratio_series.reset_index(name='QC').assign(TPE='ratio')
print("\n比率DataFrame (ratio_df):")
print(ratio_df)

ratio_df的输出：

  G1  G2  QC    TPE
0  A  S1   2.0  ratio
1  A  S2   0.5  ratio
2  B  S1   2.0  ratio
3  B  S2   0.5  ratio
4  C  S1   NaN  ratio
5  D  S2   NaN  ratio

结果整合与最终输出

最后一步是将原始DataFrame df_in与新生成的比率DataFrame ratio_df合并。

# 步骤4: 合并原始DataFrame和比率DataFrame
df_out = pd.concat([df_in, ratio_df], ignore_index=True)
print("\n最终输出DataFrame (df_out):")
print(df_out)

最终的df_out如下：

   G1  G2    TPE   QC
0   A  S1     td  2.0
1   A  S1     ts  4.0
2   A  S2     td  6.0
3   A  S2     ts  3.0
4   B  S1     td  20.0
5   B  S1     ts  40.0
6   B  S2     td  60.0
7   B  S2     ts  30.0
8   C  S1     td  90.0
9   D  S2     ts  7.0
10  A  S1  ratio  2.0
11  A  S2  ratio  0.5
12  B  S1  ratio  2.0
13  B  S2  ratio  0.5
14  C  S1  ratio  NaN
15  D  S2  ratio  NaN

总结与最佳实践

这种利用set_index、unstack、矢量化操作（如div）和concat的组合方法是Pandas中处理此类数据转换的强大且高效的模式。

优点：

矢量化操作：充分利用Pandas底层C语言实现，性能远超基于Python循环或apply的方案。
简洁性：代码逻辑清晰，易于理解和维护。
健壮性：unstack操作能够自然地处理缺失值，自动引入NaN，避免了手动条件判断的复杂性。
灵活性：此模式可以轻松扩展到计算其他类型的比率或进行更复杂的列间运算。

在处理大型数据集时，优先考虑使用Pandas提供的矢量化函数和数据重塑工具，而不是编写自定义的apply函数，这将显著提升代码的性能和可读性。

Python I/O 阻塞如何影响性能？

Python 如何设计“可恢复”的异常？

Python C 扩展如何提升性能？

Python 异常驱动流程是否合理？

Python 文件句柄泄漏如何产生？

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

769

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

661

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

764

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

659

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1325

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

549

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

579

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

710

2023.08.11