
本教程详细讲解如何利用pandas高效地将dataframe中的多列数据聚合为行级别的列表,并进一步通过透视操作将其重塑为更宽的格式。我们将使用`assign`和`pivot`等函数,避免传统循环,以简洁且高性能的方式实现复杂的数据转换需求,尤其适用于需要基于特定标识符合并列表数据的场景。
在数据分析和处理过程中,我们经常需要对DataFrame的结构进行调整,以适应不同的分析或合并需求。一种常见的场景是,原始数据中包含多个相关联的数值列(例如 value1, value2, value3),需要将这些列的数值在每行中聚合为一个列表,然后根据其他标识符列(如 name 和 Type)将DataFrame重塑为更宽的格式。传统的使用循环迭代行的方式效率低下,尤其对于大型数据集而言。Pandas提供了强大的向量化操作,能够以更高效、更简洁的方式完成这类任务。
假设我们有以下Pandas DataFrame,其中包含 id, name, value1, value2, value3 和 Type 列:
import pandas as pd
data = {
'id': [1, 2, 3],
'name': ['AAA', 'BBB', 'CCC'],
'value1': [1.0, 2.0, 3.0],
'value2': [1.5, 2.3, 3.6],
'value3': [1.8, 2.5, 3.7],
'Type': ['NEW', 'NEW', 'NEW']
}
df = pd.DataFrame(data)
print("原始 DataFrame:")
print(df)输出:
原始 DataFrame: id name value1 value2 value3 Type 0 1 AAA 1.0 1.5 1.8 NEW 1 2 BBB 2.0 2.3 2.5 NEW 2 3 CCC 3.0 3.6 3.7 NEW
我们的目标是将其转换为如下格式:Type 列作为索引(或普通列),name 列的值作为新的列名,而 value1、value2、value3 的值则聚合为对应单元格的列表。
Type AAA BBB CCC ================================================================ NEW [1.0, 1.5, 1.8] [2.0, 2.3, 2.5] [3.0, 3.6, 3.7]
实现这一转换主要分为两个核心步骤:首先将目标数值列聚合为行级别的列表,然后使用 pivot 函数进行透视重塑。
我们首先需要将 value1、value2 和 value3 这三列的数据在每一行中合并成一个列表。Pandas的 apply 函数结合 axis=1 可以高效地实现这一目标,并通过 assign 方法将新生成的列表列添加到DataFrame中。
# 步骤1: 将指定列聚合为列表
# df.loc[:, 'value1':'value3'] 选取从 'value1' 到 'value3' 的所有列
# .apply(list, axis=1) 对选取的每一行应用 list 构造函数,将其转换为列表
# .assign(value=...) 创建一个名为 'value' 的新列来存储这些列表
df_with_list = df.assign(value=df.loc[:, 'value1':'value3'].apply(list, axis=1))
print("\n添加列表列后的 DataFrame (仅展示相关列):")
print(df_with_list[['name', 'Type', 'value']])输出:
添加列表列后的 DataFrame (仅展示相关列): name Type value 0 AAA NEW [1.0, 1.5, 1.8] 1 BBB NEW [2.0, 2.3, 2.5] 2 CCC NEW [3.0, 3.6, 3.7]
通过 df.loc[:, 'value1':'value3'].apply(list, axis=1),我们选择了 value1 到 value3 之间的所有列,并沿着行方向(axis=1)将它们的值应用 list 函数,从而为每一行创建了一个包含这三列数值的列表。assign 方法则将这个新生成的Series作为名为 value 的新列添加到了DataFrame df_with_list 中。
在生成了包含列表的新列后,下一步是使用 pivot 函数将DataFrame重塑为所需的宽格式。pivot 函数需要三个关键参数:
在本例中,我们将 Type 作为索引,name 作为新列名,value 列(我们刚刚创建的列表列)作为填充单元格的值。
# 步骤2: 使用 pivot 进行透视操作
# index='Type' 将 'Type' 列作为新的行索引
# columns='name' 将 'name' 列的值作为新的列名
# values='value' 将 'value' 列(包含列表)作为单元格的值
pivoted_df = df_with_list.pivot(index='Type', columns='name', values='value')
print("\n透视后的 DataFrame (带有分层列名):")
print(pivoted_df)输出:
透视后的 DataFrame (带有分层列名): name AAA BBB CCC Type NEW [1.0, 1.5, 1.8] [2.0, 2.3, 2.5] [3.0, 3.6, 3.7]
此时,DataFrame已经接近目标格式,但列名 AAA, BBB, CCC 上方还有一个名为 name 的层级。这在某些情况下可能需要清理。
为了使DataFrame的结构更简洁,我们可以移除列名上方的层级,并将索引 Type 转换回普通列。
# 步骤3: 清理列名并重置索引
# .rename_axis(None, axis=1) 移除列轴的名称(即 'name')
# .reset_index() 将当前索引('Type')转换为普通列
final_df = pivoted_df.rename_axis(None, axis=1).reset_index()
print("\n最终重塑的 DataFrame:")
print(final_df)输出:
最终重塑的 DataFrame: Type AAA BBB CCC 0 NEW [1.0, 1.5, 1.8] [2.0, 2.3, 2.5] [3.0, 3.6, 3.7]
这正是我们期望的最终输出格式。
将上述步骤整合到一起,可以形成一个简洁的链式操作:
import pandas as pd
data = {
'id': [1, 2, 3],
'name': ['AAA', 'BBB', 'CCC'],
'value1': [1.0, 2.0, 3.0],
'value2': [1.5, 2.3, 3.6],
'value3': [1.8, 2.5, 3.7],
'Type': ['NEW', 'NEW', 'NEW']
}
df = pd.DataFrame(data)
# 完整解决方案:链式操作
result_df = (df.assign(value=df.loc[:, 'value1':'value3'].apply(list, axis=1))
.pivot(index='Type', columns='name', values='value')
.rename_axis(None, axis=1)
.reset_index())
print("使用链式操作的最终结果:")
print(result_df)pivot 与 pivot_table 的选择:
列选择的灵活性:
性能优势:
axis=1 的作用:
通过本教程,我们学习了如何利用Pandas的 assign 和 pivot 函数高效地将DataFrame中的多列数据聚合为行级别的列表,并将其重塑为更宽的格式。这种方法不仅代码简洁,而且在处理大规模数据时表现出卓越的性能。掌握这类DataFrame重塑技巧,对于任何需要进行复杂数据转换和分析的数据科学家或工程师来说都至关重要。
以上就是Pandas DataFrame高级重塑:将多列数据聚合为列表并进行透视的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号