从DataFrame中包含字典列表的列创建新列的教程

心靈之曲

发布时间：2025-11-29 11:58:18

518人浏览过

来源于php中文网

原创

从DataFrame中包含字典列表的列创建新列的教程

本教程旨在指导用户如何将pandas dataframe中包含字典列表的复杂列解构，并将其内部的键值对转换为独立的dataframe列。文章将介绍两种主要方法：利用`str`访问器结合`apply(pd.series)`进行高效转换，以及通过显式处理空列表或缺失值来确保数据完整性和结构一致性的更健壮方案。通过具体代码示例，帮助读者理解并掌握在数据预处理阶段处理此类复杂数据结构的关键技术。

从包含字典列表的DataFrame列中提取数据

在数据分析和处理中，我们经常会遇到DataFrame的某一列存储着复杂的数据结构，例如列表、字典或它们的组合。本教程将重点解决一个常见场景：当DataFrame的一列包含一系列字典的列表时，如何有效地将这些字典中的键提取为新的列。

场景描述与初始数据

假设我们有一个DataFrame，其中一个名为stats的列存储着列表，而每个列表可能包含一个或多个字典。我们的目标是将这些字典中的特定键（例如city和last_time）提取出来，形成DataFrame的新列。

以下是我们的示例输入数据结构：

stats
[{'city':None, 'last_time': 1234567}]
[]
[{'city':'Seattle', 'last_time': 45678999876}]

期望的输出DataFrame结构如下：

city       last_time
None       1234567
NA         NA
Seattle    45678999876

为了复现这个问题，我们可以构造如下的Pandas DataFrame：

import pandas as pd
import numpy as np

# 构造示例DataFrame
df = pd.DataFrame(
    {
        "stats": [
            [{"city": None, "last_time": 1234567}],
            [],  # 空列表
            [{"city": "Seattle", "last_time": 45678999876}]
        ]
    }
)

print("原始DataFrame:")
print(df)

输出:

原始DataFrame:
                                   stats
0    [{'city': None, 'last_time': 1234567}]
1                                       []
2  [{'city': 'Seattle', 'last_time': 45678999876}]

方法一：使用 str 访问器和 apply(pd.Series)

这是处理此类问题的常见且简洁的方法。它利用了Pandas Series的str访问器来处理字符串或类似列表的元素，并结合apply(pd.Series)将字典转换为新的列。

核心思路：

crmeb电商系统

CRMEB 是基于Thinkphp5基础开发的以会员为中心的电商系统，开源版微信公众号商城和小程序商城数据同步，带积分、优惠券、秒杀、砍价、分销等功能，更是一套方便二次开发的商城框架（后台封装了独有快速创建表单功能，无需写表单页面、快速创建数据搜索和数据列表页、导出表格、系统权限配置控制每一个控制器方法、系统参数配置、数据字典、组合数据等）

下载

使用 df["stats"].str[0] 访问 stats 列中每个列表的第一个元素。如果列表为空，此操作将返回 NaN。
对得到的 Series 使用 .apply(pd.Series)。Pandas 会自动识别 Series 中的字典，并将其键转换为新的列，值填充到相应位置。

# 方法一：使用 str 访问器和 apply(pd.Series)
# 步骤1: 提取每个列表的第一个元素。空列表会变成 NaN。
extracted_stats = df["stats"].str[0]

# 步骤2: 将包含字典的Series转换为DataFrame
output_df_method1 = extracted_stats.apply(pd.Series)

print("\n方法一输出:")
print(output_df_method1)

输出:

方法一输出:
      city      last_time
0      NaN     1234567.00
1     None            NaN
2  Seattle 45678999876.00

说明:

df["stats"].str[0] 会尝试从每个列表（或类似列表的对象）中取出索引为0的元素。对于 [{'city':None, 'last_time': 1234567}]，它会取出 {'city':None, 'last_time': 1234567}。
对于空列表 []，str[0] 会导致该位置的值变为 NaN。
apply(pd.Series) 能够智能地将 Series 中的字典展开为多列。对于 NaN 值，它会相应地填充 None 或 NaN。

方法二：显式处理 NaN 值以确保结构一致性

在某些情况下，当 str[0] 产生 NaN 时（例如，原始列表中为空），直接 apply(pd.Series) 可能导致某些行完全为空，或者在后续处理中引发类型问题。为了更健壮地处理这种情况，我们可以先用一个默认的字典来替换 NaN 值，确保 apply(pd.Series) 总是接收到一个字典结构。

核心思路：

同样使用 df["stats"].str[0] 提取第一个元素。
创建一个模板字典，包含所有期望的键，并设置默认值（例如 None）。
使用 Series.where() 方法，将 extracted_stats 中为 NaN 的位置替换为模板字典。
对处理后的 Series 应用 pd.Series。

# 方法二：显式处理 NaN 值
# 步骤1: 提取每个列表的第一个元素，空列表会变成 NaN
extracted_stats_series = df["stats"].str[0]

# 步骤2: 创建一个模板字典，用于填充缺失的字典结构
# 例如，{'city': None, 'last_time': None}
template_dict = dict.fromkeys(["city", "last_time"])

# 步骤3: 使用 .where() 替换 NaN 值。
# 如果 extracted_stats_series 的元素不是 NaN (即 notnull())，则保留原值；
# 否则，替换为 template_dict。
filled_stats_series = extracted_stats_series.where(
    extracted_stats_series.notnull(), template_dict
)

# 步骤4: 将包含字典的Series转换为DataFrame
output_df_method2 = filled_stats_series.apply(pd.Series)

print("\n方法二输出:")
print(output_df_method2)

输出:

方法二输出:
      city      last_time
0      NaN     1234567.00
1     None            NaN
2  Seattle 45678999876.00

说明:

template_dict = dict.fromkeys(["city", "last_time"]) 会创建一个 {'city': None, 'last_time': None} 的字典。
extracted_stats_series.where(extracted_stats_series.notnull(), template_dict) 会在 extracted_stats_series 中遇到 NaN 的地方，用 template_dict 替换。这确保了 apply(pd.Series) 总是处理一个字典或一个 template_dict，从而保持输出DataFrame的列结构一致。
尽管在这个特定示例中，两种方法的最终输出看起来相似，但方法二在处理更复杂的数据缺失场景时，能提供更强的控制力，例如，你可以自定义 template_dict 中的默认值。

注意事项与进阶思考

数据类型转换: last_time 列在输出中可能变为浮点类型（float64），这是因为Pandas在包含 NaN（代表缺失值）的数值列中通常会使用浮点类型来存储。如果需要整数类型，可能需要在使用 astype() 之前处理 NaN 值（例如填充0或使用 Int64 类型，它支持 NaN）。
多个字典的情况: 上述两种方法都默认每个列表只包含一个需要提取的字典，并通过 str[0] 仅提取第一个字典。如果列表可能包含多个字典，并且你需要提取所有字典的信息，则需要更复杂的处理，例如：
- 使用 df['stats'].explode() 将列表中的每个字典展开为单独的行。
- 然后对展开后的 Series 应用 pd.json_normalize() 或 apply(pd.Series)。
性能: 对于非常大的数据集，apply() 方法虽然灵活，但可能不如向量化操作高效。然而，对于字典解包这种复杂操作，apply(pd.Series) 通常是性能和代码简洁性之间的良好折衷。
键不存在: 如果某些字典中缺少预期的键（例如，某个字典没有 city 键），apply(pd.Series) 会自动为该缺失键对应的列填充 NaN。

总结

本教程介绍了两种有效的方法，用于将Pandas DataFrame中包含字典列表的复杂列解构为独立的列。第一种方法简洁高效，适用于数据结构相对规整的场景。第二种方法通过显式处理缺失值，提供了更强的健壮性和控制力，适用于数据可能存在不一致或缺失的情况。根据您的具体数据特性和对缺失值的处理需求，可以选择最适合的方法来完成数据清洗和转换任务。掌握这些技术对于有效利用Pandas处理复杂数据结构至关重要。

PythonWeb爬虫反爬策略教程_IP代理与验证码识别案例

Python反爬识别原理_行为分析解析【教程】

Python反爬策略应对_请求模拟解析【教程】

Python大型爬虫项目教程_Scrapy分布式与反爬处理实践

Python实现实时WebSocket通信_FastAPI与客户端协同

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

303

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

222

2025.10.31

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

258

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

208

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1467

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

620

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

550

2024.03.22

PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践，涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例，帮助开发者掌握使用 PHP 构建实时通信与推送服务的完整开发流程，适用于即时消息与高互动性应用场景。

2026.01.19

热门下载

网站特效

网站源码

网站素材

前端模板