Pandas数据重塑：将行级页面数据转换为列级格式-Python教程-PHP中文网

Pandas数据重塑：将行级页面数据转换为列级格式

DDD

发布： 2025-11-18 14:08:00

原创

263人浏览过

Pandas数据重塑：将行级页面数据转换为列级格式

本文详细介绍了如何使用pandas的`pivot`函数将行级别的数据（例如按页码分布的报告信息）高效地转换为列级别格式。通过一个具体的示例，文章演示了如何利用`index`、`columns`和`values`参数进行数据透视，并结合`add_prefix`、`reset_index`和`rename_axis`等方法，实现将特定行数据转换为带有描述性新列名的列，从而优化数据结构以满足分析需求。

在数据分析和处理中，我们经常会遇到需要将数据的行转换为列的场景，这种操作通常被称为数据透视（pivot）。当原始数据以“长格式”存储，即多个相关属性值分散在不同的行中时，为了便于比较和分析，我们可能需要将其转换为“宽格式”，使每个属性值成为一个独立的列。本文将以一个具体的示例，讲解如何使用Pandas库中的pivot函数实现这一转换，特别是针对具有层级结构（如年度报告中的页面信息）的数据。

场景描述与初始数据结构

假设我们有一份关于公司年度报告的数据，其中包含了公司（FIRM）、年份（YEAR）、报告页码（Report Page）以及对应页码的某个数值（Value1）。初始数据以行级别存储，即同一份报告的不同页面信息分别占据不同的行。

以下是示例数据及其DataFrame表示：

import pandas as pd

data = {
    'FIRM': ['A', 'A', 'B', 'B'],
    'YEAR': [2012, 2012, 2013, 2013],
    'Report Page': [1, 2, 1, 2],
    'Value1': [10, 15, 20, 25]
}

df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

登录后复制

输出的DataFrame结构如下：

原始DataFrame:
  FIRM  YEAR  Report Page  Value1
0    A  2012            1       10
1    A  2012            2       15
2    B  2013            1       20
3    B  2013            2       25

登录后复制

我们的目标是将每个报告（由FIRM和YEAR唯一标识）的页面信息（Value1）从行转换为列。具体来说，我们希望将Report Page列中的页码转换为新的列名的一部分，例如Value1_Page1、Value1_Page2，并将对应的Value1值填充到这些新列中。

期望的输出格式如下：

  FIRM  YEAR  Value1_Page1  Value1_Page2
0    A  2012            10            15
1    B  2013            20            25

登录后复制

使用 pandas.pivot 进行数据重塑

Pandas的pivot函数是实现这种数据重塑的核心工具。它允许我们指定哪些列作为新的索引（行）、哪些列作为新的列名，以及哪些列的值将填充到新的DataFrame中。

pivot函数的基本语法是：df.pivot(index=None, columns=None, values=None)。

index: 用于构建新DataFrame索引的列或列的列表。
columns: 用于构建新DataFrame列名的列。
values: 用于填充新DataFrame值的列。

根据我们的目标，我们需要：

千面数字人

千面 Avatar 系列：音频转换让静图随声动起来，动作模仿让动漫复刻真人动作，操作简单，满足多元创意需求。

156

查看详情

以FIRM和YEAR作为新的索引，因为它们共同定义了一个唯一的报告。
以Report Page作为新的列名，因为我们希望每个页码成为一个独立的列。
以Value1作为填充新列的值。

因此，我们可以这样使用pivot函数：

# 步骤1: 使用pivot函数进行透视
pivoted_df = df.pivot(index=['FIRM', 'YEAR'], columns='Report Page', values='Value1')
print("\n透视后的DataFrame (初步):")
print(pivoted_df)

登录后复制

执行上述代码后，pivoted_df的输出将是：

透视后的DataFrame (初步):
Report Page     1   2
FIRM YEAR            
A    2012      10  15
B    2013      20  25

登录后复制

可以看到，FIRM和YEAR已经成为新的复合索引，Report Page的值（1和2）成为了新的列名，并且Value1的值被正确地填充。

后续处理：重命名列和重置索引

虽然pivot函数完成了大部分工作，但为了达到最终期望的输出格式，我们还需要进行一些后处理：

添加列名前缀： 原始的列名是页码（1, 2），我们希望它们是Value1_Page1、Value1_Page2。
重置索引： FIRM和YEAR目前是索引，我们希望它们作为常规列。
清理列索引名称： pivot操作可能会在列索引上留下一个名称（例如Report Page），这通常是不需要的。

我们可以通过链式操作来完成这些步骤：

final_df = (
    df.pivot(index=['FIRM', 'YEAR'], columns='Report Page', values='Value1')
    .add_prefix('Value1_Page')  # 为新生成的列名添加前缀
    .reset_index()              # 将索引（FIRM, YEAR）转换为常规列
    .rename_axis(None, axis=1)  # 清除列索引的名称
)

print("\n最终转换后的DataFrame:")
print(final_df)

登录后复制

最终输出的DataFrame将完全符合我们的预期：

最终转换后的DataFrame:
  FIRM  YEAR  Value1_Page1  Value1_Page2
0    A  2012            10            15
1    B  2013            20            25

登录后复制

注意事项与扩展

pivot与pivot_table的区别：
- pivot要求index和columns的组合必须是唯一的。如果存在重复组合，pivot会抛出错误。
- pivot_table功能更强大，可以处理重复组合，并通过aggfunc参数指定聚合函数（如sum、mean等）来处理重复值。如果你的数据可能存在相同FIRM、YEAR和Report Page的行，并且需要对Value1进行聚合，那么pivot_table是更合适的选择。
处理页面数量不一致的情况： 本解决方案能够自然地处理不同报告具有不同页面数量的情况。如果某个报告缺少某一页的数据，相应的新列中将填充NaN（Not a Number）。例如，如果报告A只有Page1，而没有Page2，那么Value1_Page2列对于报告A的行将是NaN。
多值列的透视： 如果需要透视多个值列（例如除了Value1还有Value2），可以将values参数设置为一个列表，例如values=['Value1', 'Value2']。在这种情况下，add_prefix可能需要更精细的控制，或者在透视后手动重命名列。

总结

通过本文的详细讲解，我们学习了如何利用Pandas的pivot函数将行级别的页面数据转换为列级别格式。结合add_prefix、reset_index和rename_axis等辅助函数，我们可以灵活地重塑DataFrame，使其更符合数据分析和报告的需求。掌握pivot及其相关操作是Pandas数据处理中一项非常实用的技能，能够显著提高数据清洗和准备的效率。

以上就是Pandas数据重塑：将行级页面数据转换为列级格式的详细内容，更多请关注php中文网其它相关文章！