利用Pandas实现行数据转列：从多行报告页数据到单行汇总

DDD

发布时间：2025-11-18 13:16:16

375人浏览过

来源于php中文网

原创

利用pandas实现行数据转列：从多行报告页数据到单行汇总

本教程详细介绍了如何使用Pandas库将多行、页级的数据结构转换为单行、列级汇总的格式。通过`pivot`函数，结合`add_prefix`、`reset_index`和`rename_axis`等方法，可以高效地将特定标识符下的重复行数据（如报告的每一页）转置为以页码为后缀的新列，从而实现数据维度的转换和聚合，便于后续分析。

在数据处理和分析中，我们经常会遇到需要将“长格式”数据（即同一实体的信息分散在多行中）转换为“宽格式”数据（即同一实体的信息聚合在一行中，通过新列来区分不同属性）的场景。一个典型的例子是，当一份报告的详细信息按页存储在不同的行中时，我们可能希望将这些页级信息转置为以报告为单位的单行数据，其中每页的内容对应一个独立的列。Pandas库提供了强大的工具来高效地完成这种数据重塑任务。

1. 理解问题场景与原始数据结构

假设我们有一份关于公司年度报告的数据，其中包含了公司（FIRM）、年份（YEAR）、报告页码（Report Page）以及每页对应的某个值（Value1）。原始数据中，每份报告的每一页都占据独立的一行，如下所示：

import pandas as pd

data = {
    'FIRM': ['A', 'A', 'B', 'B'],
    'YEAR': [2012, 2012, 2013, 2013],
    'Report Page': [1, 2, 1, 2],
    'Value1': [10, 15, 20, 25]
}

df = pd.DataFrame(data)
print("原始DataFrame:")
print(df)

输出的DataFrame结构为：

原始DataFrame:
  FIRM  YEAR  Report Page  Value1
0    A  2012            1       10
1    A  2012            2       15
2    B  2013            1       20
3    B  2013            2       25

我们的目标是将同一公司、同一年份下的不同页码的Value1值转置为新的列，并以“Value1_PageX”的形式命名，其中X代表页码。期望的输出格式如下：

  FIRM  YEAR  Value1_Page1  Value1_Page2
0    A  2012            10            15
1    B  2013            20            25

2. 使用 pandas.pivot 进行数据重塑

Pandas的pivot函数是实现这种数据转置的核心工具。它根据指定的索引、列和值来重塑DataFrame。

pivot函数的主要参数包括：

index: 用于构建新DataFrame索引的列名或列名列表。
columns: 用于构建新DataFrame列名的列名。该列的唯一值将成为新的列标题。
values: 用于填充新DataFrame中的值的列名或列名列表。

在我们的案例中：

index 应该是 ['FIRM', 'YEAR']，因为我们希望以公司和年份作为唯一标识来汇总数据。
columns 应该是 'Report Page'，因为我们希望将不同的页码转换为不同的列。
values 应该是 'Value1'，因为这是我们想要在新的列中显示的值。

# 步骤1: 使用pivot函数进行基础重塑
pivoted_df = df.pivot(index=['FIRM', 'YEAR'], columns='Report Page', values='Value1')
print("\n经过pivot后的DataFrame:")
print(pivoted_df)

此时的输出会是：

经过pivot后的DataFrame:
Report Page    1   2
FIRM YEAR           
A    2012     10  15
B    2013     20  25

可以看到，FIRM和YEAR已经成为了新的索引，Report Page的唯一值（1和2）成为了新的列名，并且Value1的值填充到了相应的位置。

3. 后续处理：列名美化与索引重置

为了达到最终期望的输出格式，我们还需要进行以下几个步骤：

3.1 添加列名前缀

当前的列名只是页码（1, 2），我们希望它们是“Value1_Page1”、“Value1_Page2”。可以使用add_prefix()方法为所有列名添加前缀。

MetaVoice

AI实时变声工具

下载

# 步骤2: 为列名添加前缀
df_with_prefix = pivoted_df.add_prefix('Value1_Page')
print("\n添加前缀后的DataFrame:")
print(df_with_prefix)

输出结果：

添加前缀后的DataFrame:
             Value1_Page1  Value1_Page2
FIRM YEAR                            
A    2012            10            15
B    2013            20            25

3.2 重置索引

此时，FIRM和YEAR仍然是DataFrame的索引。为了将它们变回普通的列，我们需要使用reset_index()方法。

# 步骤3: 重置索引
df_reset_index = df_with_prefix.reset_index()
print("\n重置索引后的DataFrame:")
print(df_reset_index)

输出结果：

重置索引后的DataFrame:
Report Page FIRM  YEAR  Value1_Page1  Value1_Page2
0              A  2012            10            15
1              B  2013            20            25

注意，此时Report Page作为一个额外的列名级别出现在最上方，这是pivot函数在创建多级列名时的一个副作用。

3.3 清理列索引名称

最后一步是移除这个多余的列索引名称Report Page。可以使用rename_axis(None, axis=1)来实现。

# 步骤4: 清理列索引名称
final_df = df_reset_index.rename_axis(None, axis=1)
print("\n最终结果DataFrame:")
print(final_df)

最终输出结果：

最终结果DataFrame:
  FIRM  YEAR  Value1_Page1  Value1_Page2
0    A  2012            10            15
1    B  2013            20            25

这正是我们期望的输出。

4. 完整代码示例

将上述步骤整合到一起，完整的解决方案如下：

import pandas as pd

data = {
    'FIRM': ['A', 'A', 'B', 'B', 'A'],
    'YEAR': [2012, 2012, 2013, 2013, 2014],
    'Report Page': [1, 2, 1, 2, 1],
    'Value1': [10, 15, 20, 25, 30]
}

df = pd.DataFrame(data)

print("原始DataFrame:")
print(df)

# 使用pivot进行数据重塑，并链式调用后续操作
final_df = df.pivot(index=['FIRM', 'YEAR'], 
                    columns='Report Page', 
                    values='Value1') \
             .add_prefix('Value1_Page') \
             .reset_index() \
             .rename_axis(None, axis=1)

print("\n最终转换后的DataFrame:")
print(final_df)

输出：

原始DataFrame:
  FIRM  YEAR  Report Page  Value1
0    A  2012            1       10
1    A  2012            2       15
2    B  2013            1       20
3    B  2013            2       25
4    A  2014            1       30

最终转换后的DataFrame:
  FIRM  YEAR  Value1_Page1  Value1_Page2
0    A  2012          10.0          15.0
1    A  2014          30.0           NaN
2    B  2013          20.0          25.0

5. 注意事项与扩展

报告页数不一致的情况： 原始问题中提到“报告不总是有相同数量的页面”。pivot函数自然地处理了这种情况。如果某个报告没有特定的页码（例如，公司A在2014年只有第1页，没有第2页），那么对应的Value1_PageX列将填充 NaN（Not a Number），这在数据分析中是常见的缺失值表示。
pivot 与 pivot_table 的区别：
- pivot 要求 index 和 columns 参数的组合必须是唯一的，否则会报错。它本质上是一个重塑操作。
- pivot_table 更通用，可以处理非唯一组合，因为它在内部可以进行聚合操作（通过 aggfunc 参数，默认为 mean）。如果你的数据中可能存在多个值对应同一个 (index, columns) 组合的情况，或者需要对值进行聚合（如求和、计数等），那么 pivot_table 是更合适的选择。在当前案例中，每个 (FIRM, YEAR, Report Page) 组合只有一个 Value1，所以 pivot 是完全适用的。
多值列转置： 如果除了Value1，还有Value2等多个值需要转置，可以将values参数传入一个列表，例如 values=['Value1', 'Value2']。此时，pivot会生成多级列名，例如 (Value1, Page1)、(Value2, Page1)等。后续的add_prefix和rename_axis可能需要根据具体需求进行调整。

总结

通过本教程，我们学习了如何利用Pandas的pivot函数及其辅助方法（add_prefix、reset_index、rename_axis）将分散在多行中的页级数据高效地转置为列级数据。这种数据重塑技术在处理报告、日志或其他分层数据时非常有用，能够将数据转换为更易于分析和理解的宽格式。理解pivot的工作原理以及如何处理其输出，是Pandas数据处理能力的关键组成部分。

如何在 PyAutoGUI 中实时获取鼠标位置与屏幕坐标信息

详解python中的迭代

Python转深度学习工程师教程_学习重点解析

Python脚本：删除包含重复前缀的行，仅保留最长匹配行

PythonAI学习节奏教程_如何安排每日学习计划

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

mysql标识符无效错误怎么解决

mysql标识符无效错误的解决办法：1、检查标识符是否被其他表或数据库使用；2、检查标识符是否包含特殊字符；3、使用引号包裹标识符；4、使用反引号包裹标识符；5、检查MySQL的配置文件等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

179

2023.12.04

Python标识符有哪些

Python标识符有变量标识符、函数标识符、类标识符、模块标识符、下划线开头的标识符、双下划线开头、双下划线结尾的标识符、整型标识符、浮点型标识符等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

277

2024.02.23

java标识符合集

本专题整合了java标识符相关内容，想了解更多详细内容，请阅读下面的文章。

252

2025.06.11

c++标识符介绍

本专题整合了c++标识符相关内容，阅读专题下面的文章了解更多详细内容。

121

2025.08.07

treenode的用法

在计算机编程领域，TreeNode是一种常见的数据结构，通常用于构建树形结构。在不同的编程语言中，TreeNode可能有不同的实现方式和用法，通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

533

2023.12.01

C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化，涵盖排序算法（快速排序、归并排序）、查找算法、图算法、动态规划、贪心算法等，并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构（链表、树、堆、哈希表等），帮助开发者提升在复杂应用中的算法设计与性能优化能力。

2025.12.22

深入理解算法：高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念，适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用，如数组、链表、栈、队列、哈希表、树、图等；以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析，帮助开发者不仅能熟练运用这些基础知识，还能在实际编程中优化性能，提高代码的执行效率。本专题适合准备面试的开发者，也适合希望提高算法思维的编程爱好者。

2026.01.06