Pandas教程：高效整合多维NumPy数组列表为带标签的DataFrame

霞舞

发布时间：2025-11-13 15:51:20

711人浏览过

来源于php中文网

原创

Pandas教程：高效整合多维NumPy数组列表为带标签的DataFrame

本教程详细介绍了如何将一个包含多个形状不一的numpy数组的列表，高效地转换为一个统一的pandas dataframe。核心方法是利用`pd.concat`结合字典推导式，为每个原始数组生成唯一的标识符，并将其作为新列添加到最终的dataframe中。文章涵盖了数据准备、分步实现、列重命名以及重要的注意事项，旨在提供一个清晰、专业的解决方案，便于数据整合与分析。

场景概述

在数据处理和分析中，我们经常会遇到需要整合来自不同来源或批次的数据的情况。这些数据可能以NumPy数组的形式存储在一个Python列表中，每个数组代表一个独立的数据集，但它们共享相同的结构（例如，每行代表一个观测值，每列代表一个特征）。为了便于后续的统一分析，我们希望将这些独立的NumPy数组合并成一个大型的Pandas DataFrame，并且关键是要保留每行数据最初来源于哪个NumPy数组的信息。

例如，给定一个如下所示的NumPy数组列表：

import numpy as np
import pandas as pd

data = [np.array([[1, 2, 3], [1, 3, 2], [1, 1, 2]]),
        np.array([[1, 3, 3], [2, 1, 2]]),
        np.array([[1, 3, 4], [2, 1, 2], [1, 3, 2], [1, 1, 2]])]

我们期望将其转换为一个Pandas DataFrame，其中包含原始数组的所有行，并新增一列（如array_name）来标识每行数据所属的原始数组（例如array1、array2等）。

解决方案详解

要实现上述目标，我们可以利用Pandas库中的pd.concat函数，结合Python的字典推导式以及DataFrame的索引和列重命名功能。

1. 构建带标签的DataFrame字典

首先，我们需要将列表中的每个NumPy数组转换为一个Pandas DataFrame，并为每个DataFrame分配一个唯一的名称。这个名称将作为最终DataFrame中的标识符。我们可以通过字典推导式和enumerate函数来高效地完成此操作。

enumerate(data, start=1)会为data列表中的每个数组生成一个从1开始的索引（x）和数组本身（a）。然后，我们使用f-string f'array{x}'来创建像'array1'、'array2'这样的键，并将每个np.array(a)转换为一个pd.DataFrame作为字典的值。

# 步骤1: 构建一个字典，键是数组名称，值是对应的DataFrame
df_dict = {f'array{x}': pd.DataFrame(a) for x, a in enumerate(data, start=1)}

# 打印字典内容以观察结构
# print(df_dict)
# 输出示例:
# {
#     'array1':    0  1  2
#                 0  1  2  3
#                 1  1  3  2
#                 2  1  1  2,
#     'array2':    0  1  2
#                 0  1  3  3
#                 1  2  1  2,
#     'array3':    0  1  2
#                 0  1  3  4
#                 1  2  1  2
#                 2  1  3  2
#                 3  1  1  2
# }

2. 合并DataFrame并提取标识符

接下来，我们使用pd.concat函数将字典中的所有DataFrame垂直堆叠起来。pd.concat的一个强大功能是，当它接收一个字典作为输入时，可以通过names参数将字典的键转换为一个新的索引级别。

Linfo.ai

Linfo AI 是一款AI驱动的 Chrome 扩展程序，可以将网页文章、行业报告、YouTube 视频和 PDF 文档转换为结构化摘要。

下载

names=['array_name']指示Pandas将字典的键（即'array1', 'array2'等）作为新创建的多级索引的第一个级别，并将其命名为'array_name'。

然后，reset_index(0)操作会将这个名为'array_name'的索引级别从索引中移除，并将其转换为DataFrame的一个常规列。这里的0表示操作多级索引的第一个级别。

# 步骤2: 合并DataFrame并处理索引
merged_df = pd.concat(df_dict, names=['array_name'])

# print(merged_df)
# 输出示例 (注意 'array_name' 此时是MultiIndex的一部分):
#               0  1  2
# array_name
# array1     0  1  2  3
#            1  1  3  2
#            2  1  1  2
# array2     0  1  3  3
#            1  2  1  2
# array3     0  1  3  4
#            1  2  1  2
#            2  1  3  2
#            3  1  1  2

final_df_with_index = merged_df.reset_index(0)

# print(final_df_with_index)
# 输出示例 (array_name 已经成为一列):
#   array_name  0  1  2
# 0     array1  1  2  3
# 1     array1  1  3  2
# 2     array1  1  1  2
# 0     array2  1  3  3
# 1     array2  2  1  2
# 0     array3  1  3  4
# 1     array3  2  1  2
# 2     array3  1  3  2
# 3     array3  1  1  2

3. 重命名列

默认情况下，从NumPy数组转换而来的DataFrame的列名是0, 1, 2...。为了提高可读性和专业性，我们通常需要将这些列重命名为更具描述性的名称，例如element1、element2、element3。

我们可以使用rename方法，并传入一个lambda函数来动态生成新的列名。lambda x: f'element{x+1}'会将原始列名（x）加1，然后与'element'字符串拼接。

# 步骤3: 重命名列
out = final_df_with_index.rename(columns=lambda x: f'element{x+1}')

# print(out)
# 最终输出:
#   array_name  element1  element2  element3
# 0     array1         1         2         3
# 1     array1         1         3         2
# 2     array1         1         1         2
# 0     array2         1         3         3
# 1     array2         2         1         2
# 0     array3         1         3         4
# 1     array3         2         1         2
# 2     array3         1         3         2
# 3     array3         1         1         2

完整代码示例

将上述所有步骤整合在一起，形成一个简洁高效的解决方案：

import numpy as np
import pandas as pd

# 原始数据：包含多个NumPy数组的列表
data = [np.array([[1, 2, 3], [1, 3, 2], [1, 1, 2]]),
        np.array([[1, 3, 3], [2, 1, 2]]),
        np.array([[1, 3, 4], [2, 1, 2], [1, 3, 2], [1, 1, 2]])]

# 核心处理逻辑
out = (pd.concat({f'array{x}': pd.DataFrame(a) for x, a
                  in enumerate(data, start=1)},
                 names=['array_name'])
         .rename(columns=lambda x: f'element{x+1}')
         .reset_index(0)
      )

print(out)

注意事项与进一步优化

列名自定义：如果您的NumPy数组的列有特定的语义，并且您希望直接指定这些列名，可以在创建pd.DataFrame时通过columns参数传入一个列表，或者在rename步骤中传入一个字典进行精确映射，例如：df.rename(columns={0: 'feature_A', 1: 'feature_B'})。
源数组命名策略：本教程使用f'array{x}'作为源数组的名称。在实际应用中，如果您的原始列表中的每个数组都有一个更具描述性的名称（例如，存储在另一个列表中），您可以将这些名称直接用于字典的键，而不是使用enumerate生成的索引。
性能考量：对于非常大的NumPy数组列表，pd.concat的性能通常很高。然而，如果数组数量极其庞大或单个数组非常巨大，仍需注意内存使用。在大多数常见场景下，此方法是高效且内存友好的。
索引重置的灵活性：reset_index()默认会将所有索引级别转换为列。通过指定参数（如level=0或level='array_name'），可以精确控制哪个索引级别被转换为列。这在处理更复杂的多级索引时非常有用。
数据类型：pd.DataFrame会根据NumPy数组的内容自动推断列的数据类型。如果需要，您可以使用astype()方法在创建DataFrame后调整数据类型。