0

0

从包含字典列表的DataFrame列创建新DataFrame教程

霞舞

霞舞

发布时间:2025-11-24 11:56:15

|

995人浏览过

|

来源于php中文网

原创

从包含字典列表的dataframe列创建新dataframe教程

本教程详细介绍了如何将Pandas DataFrame中包含字典列表的复杂列解包并转换为结构化的新列。文章提供了两种主要方法:一种是利用`str[0]`和`apply(pd.Series)`进行直接转换,另一种则通过`where`和默认字典结构更健壮地处理缺失数据。通过具体代码示例,帮助读者高效地将嵌套数据扁平化,提升数据处理能力。

1. 引言与问题描述

在数据分析和处理过程中,我们经常会遇到数据以嵌套结构存储的情况。例如,一个DataFrame的某一列可能包含列表,而列表中的元素又是字典。这种结构虽然在某些场景下便于存储,但在需要对字典内部的键值进行分析时,就需要将其“扁平化”为独立的列。

考虑以下一个典型的输入DataFrame df:

import pandas as pd
import numpy as np

df = pd.DataFrame(
    {
        "stats": [
            [{"city": None, "last_time": 1234567}],
            [],
            [{"city": "Seattle", "last_time": 45678999876}]]
    }
)

print("原始DataFrame:")
print(df)

输出:

原始DataFrame:
                               stats
0  [{'city': None, 'last_time': 1234567}]
1                                   []
2  [{'city': 'Seattle', 'last_time': 45678999876}]

我们的目标是将 stats 列中的字典内容提取出来,创建新的 city 和 last_time 列,并正确处理缺失或空列表的情况,使其达到以下期望输出:

      city      last_time
0      NaN     1234567.00
1      NaN            NaN
2  Seattle 45678999876.00

(注意:None在Pandas中通常会被转换为NaN,NA通常也指代NaN。)

直接尝试 pd.DataFrame(df["stats"]) 无法达到预期,因为它只是将 Series 转换回 DataFrame,结构并未改变。我们需要更精细的方法来解包嵌套数据。

2. 解决方案一:使用 str[0] 和 apply(pd.Series) 进行直接解包

这种方法适用于列表中只包含一个字典,并且我们希望将空列表或列表中的None值自动转换为NaN的情况。

核心思路:

  1. 使用 .str[0] 访问 stats 列中每个列表的第一个元素(即字典)。如果列表为空,str[0] 会返回 NaN。
  2. 对得到的 Series 使用 .apply(pd.Series)。Pandas 会自动将 Series 中的字典转换为新的列,以字典的键作为列名。如果遇到 NaN,则对应的行在新列中也会是 NaN。

示例代码:

Autoppt
Autoppt

Autoppt:打造高效与精美PPT的AI工具

下载
# 解决方案一:直接解包
output_df_method1 = df["stats"].str[0].apply(pd.Series)

print("\n解决方案一的输出:")
print(output_df_method1)

输出:

解决方案一的输出:
      city      last_time
0      NaN     1234567.00
1      NaN            NaN
2  Seattle 45678999876.00

解释:

  • df["stats"].str[0]:
    • 对于第一行 [{'city': None, 'last_time': 1234567}],它提取出 {'city': None, 'last_time': 1234567}。
    • 对于第二行 [],它返回 NaN。
    • 对于第三行 [{'city': 'Seattle', 'last_time': 45678999876}],它提取出 {'city': 'Seattle', 'last_time': 45678999876}。
  • .apply(pd.Series):
    • 将字典 {'city': None, 'last_time': 1234567} 转换为 city 和 last_time 两列,None 自动映射为 NaN。
    • 将 NaN 转换为 city 和 last_time 两列的 NaN。
    • 将字典 {'city': 'Seattle', 'last_time': 45678999876} 转换为对应的 city 和 last_time 值。

这种方法简洁高效,特别适合当空列表应被视为完全缺失数据的情况。

3. 解决方案二:使用 where 和默认字典结构进行更健壮的解包

在某些情况下,我们可能希望对空列表或缺失数据进行更精细的控制,例如,将空列表对应的字典填充为具有特定默认值的字典,而不是简单的 NaN。

核心思路:

  1. 同样使用 df["stats"].str[0] 获取列表中的第一个字典或 NaN。
  2. 创建一个默认字典模板,包含所有预期的键(如 city 和 last_time),并设置它们的默认值(例如 None)。
  3. 使用 .where() 方法,将 NaN 值替换为我们定义的默认字典模板。
  4. 最后,对处理后的 Series 使用 .apply(pd.Series) 进行转换。

示例代码:

# 解决方案二:使用 where 和默认字典进行填充
stats_series = df["stats"].str[0]
# 定义一个默认字典模板,用于填充缺失的字典结构
template_dict = dict.fromkeys(["city", "last_time"]) # 结果为 {'city': None, 'last_time': None}

# 使用 where 方法,当 stats_series 中的值为 NaN 时,替换为 template_dict
filled_stats_series = stats_series.where(stats_series.notnull(), template_dict)

output_df_method2 = filled_stats_series.apply(pd.Series)

print("\n解决方案二的输出:")
print(output_df_method2)

输出:

解决方案二的输出:
      city      last_time
0      NaN     1234567.00
1     None            NaN
2  Seattle 45678999876.00

解释:

  • stats_series = df["stats"].str[0]:与方法一相同,提取字典或 NaN。
  • template_dict = dict.fromkeys(["city", "last_time"]):创建一个 { 'city': None, 'last_time': None } 的字典。
  • stats_series.where(stats_series.notnull(), template_dict):
    • 对于非 NaN 的行(即包含字典的行),保持原样。
    • 对于 NaN 的行(即原始列表为空的行),将其替换为 template_dict。
    • 这样,第二行的 NaN 被替换为 {'city': None, 'last_time': None}。
  • .apply(pd.Series):将处理后的 Series 中的字典(包括被替换的默认字典)转换为新的列。
    • 第二行现在由 {'city': None, 'last_time': None} 转换为 city 为 None,last_time 为 NaN(因为 None 在数值列中通常变为 NaN)。

4. 两种方法的对比与选择

  • 简洁性: 解决方案一 (.str[0].apply(pd.Series)) 更简洁,代码量更少。
  • 灵活性与健壮性: 解决方案二 (.where() 结合默认字典) 提供了更高的灵活性。当你希望对空列表或缺失的字典结构提供特定的默认值(而不是简单的 NaN)时,此方法更为适用。例如,如果 city 列是字符串类型,你可能希望空列表对应的 city 是一个空字符串 '' 而不是 None 或 NaN,这时就可以修改 template_dict。
  • 输出差异: 在本例中,对于原始输入中的空列表 [],方法一会生成 city 和 last_time 都为 NaN 的结果。而方法二会生成 city 为 None,last_time 为 NaN 的结果(假设 last_time 是数值类型)。选择哪种取决于你对“缺失”的定义和后续数据处理的需求。

5. 注意事项与进一步优化

  • 列表包含多个字典: 本教程假设 stats 列中的列表最多只包含一个字典。如果列表可能包含多个字典,且你需要将它们全部解包,则需要更复杂的逻辑,例如使用 explode() 方法结合 apply(pd.Series)。
  • 数据类型转换: 解包后,新生成的列的数据类型可能不是你期望的。例如,last_time 可能被推断为浮点数类型(因为 NaN 的存在)。你可能需要使用 .astype() 进行显式的数据类型转换。
    output_df_method1['last_time'] = output_df_method1['last_time'].astype('Int64') # 使用Pandas的整数类型,支持NaN
    # 或者
    # output_df_method1['last_time'] = pd.to_numeric(output_df_method1['last_time'], errors='coerce')
  • 性能: 对于非常大的DataFrame,apply() 方法虽然灵活,但在性能上可能不如Pandas内置的矢量化操作。但对于字典列表解包这种复杂场景,apply(pd.Series) 通常是效率和可读性之间的良好折衷。
  • 列名冲突: 如果字典中的键与DataFrame中现有列名冲突,apply(pd.Series) 会创建同名新列,并覆盖原有列(如果直接赋值给原始DataFrame)。在实际操作中,最好先生成新的DataFrame,再进行合并或重命名。

6. 总结

将DataFrame中包含字典列表的复杂列扁平化是Pandas数据处理中的常见需求。通过掌握 .str[0] 和 .apply(pd.Series) 的组合,以及 .where() 结合默认字典的技巧,你可以高效且灵活地处理这类嵌套数据,将其转换为结构清晰、便于分析的表格形式。选择哪种方法取决于你对缺失数据的具体处理策略和对代码简洁性的偏好。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

51

2025.12.04

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

303

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

258

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

208

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1465

2023.10.24

字符串介绍
字符串介绍

字符串是一种数据类型,它可以是任何文本,包括字母、数字、符号等。字符串可以由不同的字符组成,例如空格、标点符号、数字等。在编程中,字符串通常用引号括起来,如单引号、双引号或反引号。想了解更多字符串的相关内容,可以阅读本专题下面的文章。

619

2023.11.24

java读取文件转成字符串的方法
java读取文件转成字符串的方法

Java8引入了新的文件I/O API,使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java,可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中,你需要将文件路径替换为你的实际文件路径,并且可能需要处理可能的IOException异常。想了解更多java的相关内容,可以阅读本专题下面的文章。

550

2024.03.22

高德地图升级方法汇总
高德地图升级方法汇总

本专题整合了高德地图升级相关教程,阅读专题下面的文章了解更多详细内容。

72

2026.01.16

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Java 教程
Java 教程

共578课时 | 47.5万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号