在Pandas DataFrame中展开NumPy数组为独立列的教程-Python教程-PHP中文网

在pandas dataframe中展开numpy数组为独立列的教程

本教程详细介绍了如何在Pandas DataFrame中将包含NumPy数组的列（如键和值）高效地转换为独立的列。文章涵盖了两种主要场景：当所有行的键（keys）数组相同时，以及当键数组在不同行之间存在差异时。通过提供清晰的代码示例和步骤解释，旨在帮助用户将复杂的数据结构扁平化，提升数据分析的便利性和可读性。

引言

在数据处理和分析中，我们经常会遇到DataFrame的某一列或几列中存储着复杂的数据结构，例如NumPy数组或列表。当这些数组或列表包含需要作为独立特征进行分析的数据时，将其展开为DataFrame的新列就显得尤为重要。本文将以一个常见场景为例：DataFrame中包含keys和values两列，它们分别存储着NumPy数组，我们的目标是将values数组中的元素根据keys数组中的对应键值，展开为新的DataFrame列。

我们将探讨两种核心情况：

所有行的keys数组内容完全相同。
keys数组在不同行之间可能存在差异。

准备示例数据

为了更好地演示，我们首先创建一些示例数据框。

import pandas as pd
import numpy as np

# 场景一：keys数组在所有行中相同
source_df_identical_keys = pd.DataFrame(
    [
        ['data_A1', 'data_B1', np.array(['key1', 'key2', 'key3']), np.array(['value1a', 'value2a', 'value3a'])],
        ['data_A2', 'data_B2', np.array(['key1', 'key2', 'key3']), np.array(['value1b', 'value2b', 'value3b'])],
        ['data_A3', 'data_B3', np.array(['key1', 'key2', 'key3']), np.array(['value1c', 'value2c', 'value3c'])]
    ],
    columns=['Col A', 'Col B', 'keys', 'values']
)

print("原始数据框 (键相同):")
print(source_df_identical_keys)

# 场景二：keys数组在不同行中可能不同
source_df_non_identical_keys = pd.DataFrame(
    [
        ['data_A1', 'data_B1', np.array(['key1', 'key2', 'key3']), np.array(['value1a', 'value2a', 'value3a'])],
        ['data_A2', 'data_B2', np.array(['key3', 'key4', 'key1']), np.array(['value3b', 'value4b', 'value1b'])],
        ['data_A3', 'data_B3', np.array(['key5', 'key2']), np.array(['value5c', 'value2c'])]
    ],
    columns=['Col A', 'Col B', 'keys', 'values']
)

print("\n原始数据框 (键不同):")
print(source_df_non_identical_keys)

登录后复制

场景一：处理键（keys）数组在所有行中相同的情况

当DataFrame中的keys列在所有行中都包含相同的NumPy数组时，我们可以利用这一特性进行高效的转换。这种情况下，我们只需要从任何一行获取一次键列表作为新列的名称。

方法一：创建新DataFrame并连接

这种方法涉及创建一个新的DataFrame来承载展开后的值，然后将其与原始DataFrame中不需要展开的列进行连接。

# 假设 source_df_identical_keys 是我们处理的数据框
df = source_df_identical_keys.copy()

# 1. 提取所有行的 'values' 列并转换为列表的列表
# 2. 使用第一行的 'keys' 作为新DataFrame的列名
# 3. 将原始DataFrame中不需要的 'keys' 和 'values' 列删除
# 4. 使用 join 方法将新生成的 DataFrame 连接回原始 DataFrame
result_df_identical_keys = (
    df.drop(columns=['keys', 'values'])
    .join(pd.DataFrame(df['values'].tolist(), columns=df['keys'].iloc[0]))
)

print("\n展开后的数据框 (键相同 - 方法一):")
print(result_df_identical_keys)

登录后复制

代码解析：

df.drop(columns=['keys', 'values']): 首先从原始DataFrame中删除keys和values这两列，因为它们将被展开成新的列。
df['values'].tolist(): 将values列中的NumPy数组转换为Python列表，然后将整个Series转换为一个包含列表的列表。这是pd.DataFrame构造函数接受的常见输入格式。
df['keys'].iloc[0]: 由于所有行的keys数组都相同，我们只需取第一行的keys数组作为新DataFrame的列名。
pd.DataFrame(...): 使用提取出的值列表和列名构造一个新的DataFrame。
.join(...): 将这个新生成的DataFrame连接回之前删除了keys和values列的DataFrame。join方法默认根据索引进行连接。

方法二：原地修改DataFrame

如果你希望直接修改现有的DataFrame而不是创建一个新的，可以使用pop方法结合赋值操作。

j2me3D游戏开发简单教程中文WORD版

本文档主要讲述的是j2me3D游戏开发简单教程；　如今，3D图形几乎是任何一部游戏的关键部分，甚至一些应用程序也通过用3D形式来描述信息而获得了成功。如前文中所述，以立即模式和手工编码建立所有的3D对象的方式进行开发速度很慢且很复杂。应用程序中多边形的所有角点必须在数组中独立编码。在JSR 184中，这称为立即模式。希望本文档会给有需要的朋友带来帮助；感兴趣的朋友可以过来看看

查看详情

# 假设 source_df_identical_keys 是我们处理的数据框
df_in_place = source_df_identical_keys.copy()

# 1. 使用 pop 方法移除 'keys' 列，并获取其第一行的值作为新列名
# 2. 使用 pop 方法移除 'values' 列，并将其转换为列表的列表，再用 pd.DataFrame 构造
# 3. 将新生成的 DataFrame 直接赋值给原始 DataFrame 的新列
df_in_place[df_in_place.pop('keys').iloc[0]] = pd.DataFrame(df_in_place.pop('values').tolist())

print("\n展开后的数据框 (键相同 - 方法二，原地修改):")
print(df_in_place)

登录后复制

代码解析：

df_in_place.pop('keys').iloc[0]: pop方法会从DataFrame中移除指定的列并返回该列的Series。我们立即获取其第一行的值（即keys数组）作为后续赋值操作的列名。
df_in_place.pop('values').tolist(): 同样，pop移除values列并返回其Series，然后将其转换为列表的列表。
pd.DataFrame(...): 将values列表转换为一个临时的DataFrame。
df_in_place[...] = ...: 通过将这个临时DataFrame赋值给由keys数组定义的列，实现原地添加新列。Pandas会智能地将临时DataFrame的列名与keys数组中的元素匹配，并将值填充到对应的位置。

场景二：处理键（keys）数组在不同行中可能不同的情况

当keys数组在不同行中不一致时，我们需要更灵活的方法来处理。在这种情况下，简单地使用第一行的keys作为所有列名将不再适用，因为某些行可能不包含这些键，或者包含额外的键。

方法：使用字典列表创建DataFrame并连接

这种方法的核心思想是为每一行创建一个字典，将该行的keys映射到对应的values，然后将这些字典的列表转换为一个新的DataFrame。

# 假设 source_df_non_identical_keys 是我们处理的数据框
df = source_df_non_identical_keys.copy()

# 1. 遍历 'keys' 和 'values' 列，为每一行创建一个字典，将键映射到值
# 2. 将这些字典的列表传递给 pd.DataFrame 构造函数
# 3. 将原始DataFrame中不需要的 'keys' 和 'values' 列删除
# 4. 使用 join 方法将新生成的 DataFrame 连接回原始 DataFrame
result_df_non_identical_keys = (
    df.drop(columns=['keys', 'values'])
    .join(pd.DataFrame([dict(zip(k, v)) for k, v in zip(df['keys'], df['values'])]))
)

print("\n展开后的数据框 (键不同):")
print(result_df_non_identical_keys)

登录后复制

代码解析：

zip(df['keys'], df['values']): 这会并行迭代keys列和values列，每次迭代返回一个keys数组和一个values数组。
dict(zip(k, v)): 对于每一对k (keys数组) 和 v (values数组)，zip(k, v)会创建一个键值对的迭代器，dict()将其转换为一个字典。例如，如果k=['key1', 'key2']和v=['val1', 'val2']，则会生成{'key1': 'val1', 'key2': 'val2'}。
[... for k, v in ...]: 这是一个列表推导式，它为DataFrame的每一行生成一个字典。
pd.DataFrame(...): 使用这个字典列表构造一个新的DataFrame。Pandas会自动识别所有唯一的键作为列名，并在特定行中如果某个键不存在，则填充NaN。
df.drop(...) 和 .join(...): 与第一种方法类似，删除原始列并连接新生成的DataFrame。

输出示例分析 (键不同):

  Col A Col B     key1     key2     key3     key4     key5
0  data_A1  data_B1  value1a  value2a  value3a      NaN      NaN
1  data_A2  data_B2  value1b      NaN  value3b  value4b      NaN
2  data_A3  data_B3      NaN  value2c      NaN      NaN  value5c

登录后复制

可以看到，key1、key2、key3、key4、key5成为了新的列。对于第二行，由于其原始keys数组中没有key2，因此key2列在第二行显示为NaN。同样，对于第三行，key1、key3、key4显示为NaN。这种处理方式能够灵活地适应键不一致的场景。

注意事项与总结

性能考量： 对于非常大的DataFrame，涉及apply或列表推导式的方法（如处理非相同键的情况）可能会比直接的NumPy数组操作（如处理相同键的情况）慢。在性能敏感的场景下，应优先考虑向量化操作。
数据类型： 展开后的新列的数据类型会根据values数组中元素的类型自动推断。如果values中包含混合类型，Pandas可能会将其转换为object类型。
NaN值处理： 当键不一致时，未匹配到的新列位置将填充NaN。在后续分析中，可能需要对这些NaN值进行填充（例如fillna(0)）或删除。
列名冲突： 确保keys数组中的键不会与原始DataFrame中已有的列名发生冲突。如果发生冲突，join或赋值操作可能会覆盖现有列或引发错误。
选择合适的方法： 根据keys列的特性（是否在所有行中都相同）选择最适合且最高效的方法。如果keys始终相同，使用第一种方法更简洁高效；如果keys可能不同，则第二种方法提供了必要的灵活性。