在Pandas DataFrame中展开NumPy数组为独立列的教程

霞舞
发布: 2025-11-03 12:01:00
原创
562人浏览过

在pandas dataframe中展开numpy数组为独立列的教程

本教程详细介绍了如何在Pandas DataFrame中将包含NumPy数组的列(如键和值)高效地转换为独立的列。文章涵盖了两种主要场景:当所有行的键(keys)数组相同时,以及当键数组在不同行之间存在差异时。通过提供清晰的代码示例和步骤解释,旨在帮助用户将复杂的数据结构扁平化,提升数据分析的便利性和可读性。

引言

在数据处理和分析中,我们经常会遇到DataFrame的某一列或几列中存储着复杂的数据结构,例如NumPy数组或列表。当这些数组或列表包含需要作为独立特征进行分析的数据时,将其展开为DataFrame的新列就显得尤为重要。本文将以一个常见场景为例:DataFrame中包含keys和values两列,它们分别存储着NumPy数组,我们的目标是将values数组中的元素根据keys数组中的对应键值,展开为新的DataFrame列。

我们将探讨两种核心情况:

  1. 所有行的keys数组内容完全相同。
  2. keys数组在不同行之间可能存在差异。

准备示例数据

为了更好地演示,我们首先创建一些示例数据框。

import pandas as pd
import numpy as np

# 场景一:keys数组在所有行中相同
source_df_identical_keys = pd.DataFrame(
    [
        ['data_A1', 'data_B1', np.array(['key1', 'key2', 'key3']), np.array(['value1a', 'value2a', 'value3a'])],
        ['data_A2', 'data_B2', np.array(['key1', 'key2', 'key3']), np.array(['value1b', 'value2b', 'value3b'])],
        ['data_A3', 'data_B3', np.array(['key1', 'key2', 'key3']), np.array(['value1c', 'value2c', 'value3c'])]
    ],
    columns=['Col A', 'Col B', 'keys', 'values']
)

print("原始数据框 (键相同):")
print(source_df_identical_keys)

# 场景二:keys数组在不同行中可能不同
source_df_non_identical_keys = pd.DataFrame(
    [
        ['data_A1', 'data_B1', np.array(['key1', 'key2', 'key3']), np.array(['value1a', 'value2a', 'value3a'])],
        ['data_A2', 'data_B2', np.array(['key3', 'key4', 'key1']), np.array(['value3b', 'value4b', 'value1b'])],
        ['data_A3', 'data_B3', np.array(['key5', 'key2']), np.array(['value5c', 'value2c'])]
    ],
    columns=['Col A', 'Col B', 'keys', 'values']
)

print("\n原始数据框 (键不同):")
print(source_df_non_identical_keys)
登录后复制

场景一:处理键(keys)数组在所有行中相同的情况

当DataFrame中的keys列在所有行中都包含相同的NumPy数组时,我们可以利用这一特性进行高效的转换。这种情况下,我们只需要从任何一行获取一次键列表作为新列的名称。

方法一:创建新DataFrame并连接

这种方法涉及创建一个新的DataFrame来承载展开后的值,然后将其与原始DataFrame中不需要展开的列进行连接。

# 假设 source_df_identical_keys 是我们处理的数据框
df = source_df_identical_keys.copy()

# 1. 提取所有行的 'values' 列并转换为列表的列表
# 2. 使用第一行的 'keys' 作为新DataFrame的列名
# 3. 将原始DataFrame中不需要的 'keys' 和 'values' 列删除
# 4. 使用 join 方法将新生成的 DataFrame 连接回原始 DataFrame
result_df_identical_keys = (
    df.drop(columns=['keys', 'values'])
    .join(pd.DataFrame(df['values'].tolist(), columns=df['keys'].iloc[0]))
)

print("\n展开后的数据框 (键相同 - 方法一):")
print(result_df_identical_keys)
登录后复制

代码解析:

  • df.drop(columns=['keys', 'values']): 首先从原始DataFrame中删除keys和values这两列,因为它们将被展开成新的列。
  • df['values'].tolist(): 将values列中的NumPy数组转换为Python列表,然后将整个Series转换为一个包含列表的列表。这是pd.DataFrame构造函数接受的常见输入格式。
  • df['keys'].iloc[0]: 由于所有行的keys数组都相同,我们只需取第一行的keys数组作为新DataFrame的列名。
  • pd.DataFrame(...): 使用提取出的值列表和列名构造一个新的DataFrame。
  • .join(...): 将这个新生成的DataFrame连接回之前删除了keys和values列的DataFrame。join方法默认根据索引进行连接。

方法二:原地修改DataFrame

如果你希望直接修改现有的DataFrame而不是创建一个新的,可以使用pop方法结合赋值操作。

序列猴子开放平台
序列猴子开放平台

具有长序列、多模态、单模型、大数据等特点的超大规模语言模型

序列猴子开放平台 0
查看详情 序列猴子开放平台
# 假设 source_df_identical_keys 是我们处理的数据框
df_in_place = source_df_identical_keys.copy()

# 1. 使用 pop 方法移除 'keys' 列,并获取其第一行的值作为新列名
# 2. 使用 pop 方法移除 'values' 列,并将其转换为列表的列表,再用 pd.DataFrame 构造
# 3. 将新生成的 DataFrame 直接赋值给原始 DataFrame 的新列
df_in_place[df_in_place.pop('keys').iloc[0]] = pd.DataFrame(df_in_place.pop('values').tolist())

print("\n展开后的数据框 (键相同 - 方法二,原地修改):")
print(df_in_place)
登录后复制

代码解析:

  • df_in_place.pop('keys').iloc[0]: pop方法会从DataFrame中移除指定的列并返回该列的Series。我们立即获取其第一行的值(即keys数组)作为后续赋值操作的列名。
  • df_in_place.pop('values').tolist(): 同样,pop移除values列并返回其Series,然后将其转换为列表的列表。
  • pd.DataFrame(...): 将values列表转换为一个临时的DataFrame。
  • df_in_place[...] = ...: 通过将这个临时DataFrame赋值给由keys数组定义的列,实现原地添加新列。Pandas会智能地将临时DataFrame的列名与keys数组中的元素匹配,并将值填充到对应的位置。

场景二:处理键(keys)数组在不同行中可能不同的情况

当keys数组在不同行中不一致时,我们需要更灵活的方法来处理。在这种情况下,简单地使用第一行的keys作为所有列名将不再适用,因为某些行可能不包含这些键,或者包含额外的键。

方法:使用字典列表创建DataFrame并连接

这种方法的核心思想是为每一行创建一个字典,将该行的keys映射到对应的values,然后将这些字典的列表转换为一个新的DataFrame。

# 假设 source_df_non_identical_keys 是我们处理的数据框
df = source_df_non_identical_keys.copy()

# 1. 遍历 'keys' 和 'values' 列,为每一行创建一个字典,将键映射到值
# 2. 将这些字典的列表传递给 pd.DataFrame 构造函数
# 3. 将原始DataFrame中不需要的 'keys' 和 'values' 列删除
# 4. 使用 join 方法将新生成的 DataFrame 连接回原始 DataFrame
result_df_non_identical_keys = (
    df.drop(columns=['keys', 'values'])
    .join(pd.DataFrame([dict(zip(k, v)) for k, v in zip(df['keys'], df['values'])]))
)

print("\n展开后的数据框 (键不同):")
print(result_df_non_identical_keys)
登录后复制

代码解析:

  • zip(df['keys'], df['values']): 这会并行迭代keys列和values列,每次迭代返回一个keys数组和一个values数组。
  • dict(zip(k, v)): 对于每一对k (keys数组) 和 v (values数组),zip(k, v)会创建一个键值对的迭代器,dict()将其转换为一个字典。例如,如果k=['key1', 'key2']和v=['val1', 'val2'],则会生成{'key1': 'val1', 'key2': 'val2'}。
  • [... for k, v in ...]: 这是一个列表推导式,它为DataFrame的每一行生成一个字典。
  • pd.DataFrame(...): 使用这个字典列表构造一个新的DataFrame。Pandas会自动识别所有唯一的键作为列名,并在特定行中如果某个键不存在,则填充NaN。
  • df.drop(...) 和 .join(...): 与第一种方法类似,删除原始列并连接新生成的DataFrame。

输出示例分析 (键不同):

  Col A Col B     key1     key2     key3     key4     key5
0  data_A1  data_B1  value1a  value2a  value3a      NaN      NaN
1  data_A2  data_B2  value1b      NaN  value3b  value4b      NaN
2  data_A3  data_B3      NaN  value2c      NaN      NaN  value5c
登录后复制

可以看到,key1、key2、key3、key4、key5成为了新的列。对于第二行,由于其原始keys数组中没有key2,因此key2列在第二行显示为NaN。同样,对于第三行,key1、key3、key4显示为NaN。这种处理方式能够灵活地适应键不一致的场景。

注意事项与总结

  • 性能考量: 对于非常大的DataFrame,涉及apply或列表推导式的方法(如处理非相同键的情况)可能会比直接的NumPy数组操作(如处理相同键的情况)慢。在性能敏感的场景下,应优先考虑向量化操作。
  • 数据类型: 展开后的新列的数据类型会根据values数组中元素的类型自动推断。如果values中包含混合类型,Pandas可能会将其转换为object类型。
  • NaN值处理: 当键不一致时,未匹配到的新列位置将填充NaN。在后续分析中,可能需要对这些NaN值进行填充(例如fillna(0))或删除。
  • 列名冲突: 确保keys数组中的键不会与原始DataFrame中已有的列名发生冲突。如果发生冲突,join或赋值操作可能会覆盖现有列或引发错误。
  • 选择合适的方法: 根据keys列的特性(是否在所有行中都相同)选择最适合且最高效的方法。如果keys始终相同,使用第一种方法更简洁高效;如果keys可能不同,则第二种方法提供了必要的灵活性。

通过掌握这些技术,您可以有效地将DataFrame中嵌套的NumPy数组结构扁平化,使其更易于进行数据探索、清洗和模型构建。

以上就是在Pandas DataFrame中展开NumPy数组为独立列的教程的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号