从包含字典列表的DataFrame列创建新DataFrame

碧海醫心

发布时间：2025-11-25 11:15:16

396人浏览过

来源于php中文网

原创

从包含字典列表的DataFrame列创建新DataFrame

本文详细介绍了如何将pandas dataframe中包含字典列表的复杂列展开为多个独立的列。通过两种主要方法，包括使用`.str[0]`结合`.apply(pd.series)`进行直接转换，以及通过模板字典和`.where()`方法更精细地处理空列表和缺失值，帮助读者高效地从嵌套数据结构中提取并重构数据。

在数据分析和处理中，我们经常会遇到DataFrame的某一列中存储着复杂的数据结构，例如列表、字典，甚至是字典的列表。当需要将这些嵌套数据展开为独立的列时，Pandas提供了一些强大的工具。本文将专注于如何将一列包含字典列表的数据，转换为一个新的DataFrame，其中字典的键成为新的列名。

初始数据结构与挑战

假设我们有一个DataFrame，其中一列名为stats，它的每个元素可能是一个包含一个或多个字典的列表，或者是一个空列表。

import pandas as pd
import numpy as np

# 构造示例DataFrame
df = pd.DataFrame(
    {
        "stats": [
            [{"city": None, "last_time": 1234567}],
            [],  # 空列表
            [{"city": "Seattle", "last_time": 45678999876}]
        ]
    }
)

print("原始DataFrame:")
print(df)

原始DataFrame:

                           stats
0  [{'city': None, 'last_time': 1234567}]
1                                     []
2  [{'city': 'Seattle', 'last_time': 45678999876}]

我们的目标是将其转换为以下形式：

      city      last_time
0      NaN     1234567.00
1     None            NaN  # 或 'NA'
2  Seattle 45678999876.00

直接尝试使用pd.DataFrame(df["stats"])或类似的构造会失败，因为它无法自动解析嵌套的列表和字典结构，特别是当存在空列表时，会导致数据类型不一致或错误。

方法一：使用 .str[0] 和 .apply(pd.Series)

这种方法适用于列表中只包含一个字典，并且我们希望提取这个字典的内容的情况。

df["stats"].str[0]:
- str 访问器允许我们对Series中的字符串或类列表元素执行字符串或列表操作。
- [0] 操作符会尝试获取每个列表的第一个元素。
- 如果列表为空，str[0] 会返回 NaN。
- 如果列表包含字典，它会返回该字典。
.apply(pd.Series):
- 当对一个包含字典的Series应用 pd.Series 时，Pandas会自动将每个字典的键转换为新的列名，并将对应的值填充到这些列中。
- 对于 NaN 值，apply(pd.Series) 会将其转换为一个全为 NaN 的行。

# 方法一实现
out1 = df["stats"].str[0].apply(pd.Series)

print("\n方法一输出:")
print(out1)

输出结果:

      city      last_time
0      NaN     1234567.00
1      NaN            NaN
2  Seattle 45678999876.00

注意事项:

这种方法简洁高效。
对于原始列中的空列表，结果DataFrame中对应的行将全部是 NaN。
原始字典中值为 None 的字段，在结果DataFrame中也会显示为 NaN（Pandas默认将 None 视为 NaN）。

方法二：使用 where() 和模板字典进行更精细的控制

有时，我们可能希望对空列表的处理有更明确的控制，例如，将空列表对应的行填充为 None 或特定的默认值，而不是 NaN。这种方法通过引入一个模板字典来解决这个问题。

PHPWind 9.0 模板开发

PHPWind（简称：PW，中国国家版权局著作权登记号为:2004SR06082）的使命是让网站更具价值，让更多人从网络中享受便利，以提升生活品质。 PHPWind的两位创始人王学集、林耀纳于2003年发布了PHPWind的前身版本ofstar，并发展成为包含BBS、CMS、博客、SNS等一系列程序的通用型建站软件。至今累计已有超过120万网站使用phpwind，每天还有1000个新增网站，这些

下载

stats = df["stats"].str[0]: 这一步与方法一相同，提取每个列表的第一个元素。结果中空列表的位置会是 NaN。
templ = dict.fromkeys(["city", "last_time"]): 创建一个模板字典，包含我们期望的所有列名，值为默认的 None。这个模板将用于填充那些由空列表导致的 NaN 行。
stats.where(stats.notnull(), templ):
- stats.notnull() 生成一个布尔Series，指示哪些元素不是 NaN。
- where(condition, other) 方法会根据 condition 来选择元素：如果 condition 为 True，则保留原值；如果为 False（即 stats 为 NaN），则替换为 other (templ 字典)。
- 这样，原来是 NaN 的位置（来自空列表）现在被替换成了 {'city': None, 'last_time': None} 这个模板字典。
.apply(pd.Series): 最后，对处理过的Series应用 pd.Series，将其中的字典展开为新的列。

# 方法二实现
stats_extracted = df["stats"].str[0]
# 创建一个模板字典，用于填充因空列表而产生的NaN
templ = dict.fromkeys(["city", "last_time"])

# 使用where方法替换NaN值，然后应用pd.Series
out2 = stats_extracted.where(stats_extracted.notnull(), templ).apply(pd.Series)

print("\n方法二输出:")
print(out2)

输出结果:

      city      last_time
0      NaN     1234567.00
1     None            NaN
2  Seattle 45678999876.00

注意事项:

这种方法提供了更灵活的缺失值处理。
通过 templ 字典，你可以自定义空列表对应的行应该显示为什么样的默认值。例如，可以将 templ 设置为 {'city': 'N/A', 'last_time': 0}。
原始字典中值为 None 的字段，在结果DataFrame中仍然会显示为 NaN。这是Pandas的默认行为，可以通过后续的 fillna() 操作进行处理。

总结与选择

两种方法都能有效地将包含字典列表的列展开为新的DataFrame。

方法一 (.str[0].apply(pd.Series))：
- 优点: 代码简洁，易于理解。
- 缺点: 对空列表统一处理为全 NaN 行，缺乏灵活性。
- 适用场景: 当你对空列表的处理方式没有特殊要求，或者希望它们统一显示为 NaN 时。
方法二 (.str[0].where(stats.notnull(), templ).apply(pd.Series))：
- 优点: 允许通过模板字典更精细地控制空列表（或由它们产生的 NaN）的填充值。
- 缺点: 代码相对复杂一些。
- 适用场景: 当你需要为空列表对应的行提供特定的默认值，而不是简单的 NaN 时。

在实际应用中，你可以根据具体的数据清洗需求和对缺失值的处理策略来选择最合适的方法。无论选择哪种方法，理解其背后的原理和对不同数据情况（如空列表、None 值）的处理方式都至关重要。

Flask模板中正确使用url_for生成路由链接的教程

PythonFlask系统学习路线第266讲_核心原理与实战案例详解【技巧】

Python FastAPI依赖注入_Python FastAPI依赖注入系统如何简化代码

python如何处理掉12306的验证码

Python爬虫实现APP接口抓取与反调试对抗的关键技术【技巧】

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

303

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

222

2025.10.31

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

258

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

208

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1465

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

619

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

550

2024.03.22