
本教程旨在指导用户如何将pandas dataframe中包含字典列表的复杂列解构,并将其内部的键值对转换为独立的dataframe列。文章将介绍两种主要方法:利用`str`访问器结合`apply(pd.series)`进行高效转换,以及通过显式处理空列表或缺失值来确保数据完整性和结构一致性的更健壮方案。通过具体代码示例,帮助读者理解并掌握在数据预处理阶段处理此类复杂数据结构的关键技术。
在数据分析和处理中,我们经常会遇到DataFrame的某一列存储着复杂的数据结构,例如列表、字典或它们的组合。本教程将重点解决一个常见场景:当DataFrame的一列包含一系列字典的列表时,如何有效地将这些字典中的键提取为新的列。
假设我们有一个DataFrame,其中一个名为stats的列存储着列表,而每个列表可能包含一个或多个字典。我们的目标是将这些字典中的特定键(例如city和last_time)提取出来,形成DataFrame的新列。
以下是我们的示例输入数据结构:
stats
[{'city':None, 'last_time': 1234567}]
[]
[{'city':'Seattle', 'last_time': 45678999876}]期望的输出DataFrame结构如下:
city last_time None 1234567 NA NA Seattle 45678999876
为了复现这个问题,我们可以构造如下的Pandas DataFrame:
import pandas as pd
import numpy as np
# 构造示例DataFrame
df = pd.DataFrame(
{
"stats": [
[{"city": None, "last_time": 1234567}],
[], # 空列表
[{"city": "Seattle", "last_time": 45678999876}]
]
}
)
print("原始DataFrame:")
print(df)输出:
原始DataFrame:
stats
0 [{'city': None, 'last_time': 1234567}]
1 []
2 [{'city': 'Seattle', 'last_time': 45678999876}]这是处理此类问题的常见且简洁的方法。它利用了Pandas Series的str访问器来处理字符串或类似列表的元素,并结合apply(pd.Series)将字典转换为新的列。
核心思路:
PHPWind(简称:PW,中国国家版权局著作权登记号为:2004SR06082)的使命是让网站更具价值,让更多人从网络中享受便利,以提升生活品质。 PHPWind的两位创始人王学集、林耀纳于2003年发布了PHPWind的前身版本ofstar,并发展成为包含BBS、CMS、博客、SNS等一系列程序的通用型建站软件。至今累计已有超过120万网站使用phpwind,每天还有1000个新增网站,这些
271
# 方法一:使用 str 访问器和 apply(pd.Series)
# 步骤1: 提取每个列表的第一个元素。空列表会变成 NaN。
extracted_stats = df["stats"].str[0]
# 步骤2: 将包含字典的Series转换为DataFrame
output_df_method1 = extracted_stats.apply(pd.Series)
print("\n方法一输出:")
print(output_df_method1)输出:
方法一输出:
city last_time
0 NaN 1234567.00
1 None NaN
2 Seattle 45678999876.00说明:
在某些情况下,当 str[0] 产生 NaN 时(例如,原始列表中为空),直接 apply(pd.Series) 可能导致某些行完全为空,或者在后续处理中引发类型问题。为了更健壮地处理这种情况,我们可以先用一个默认的字典来替换 NaN 值,确保 apply(pd.Series) 总是接收到一个字典结构。
核心思路:
# 方法二:显式处理 NaN 值
# 步骤1: 提取每个列表的第一个元素,空列表会变成 NaN
extracted_stats_series = df["stats"].str[0]
# 步骤2: 创建一个模板字典,用于填充缺失的字典结构
# 例如,{'city': None, 'last_time': None}
template_dict = dict.fromkeys(["city", "last_time"])
# 步骤3: 使用 .where() 替换 NaN 值。
# 如果 extracted_stats_series 的元素不是 NaN (即 notnull()),则保留原值;
# 否则,替换为 template_dict。
filled_stats_series = extracted_stats_series.where(
extracted_stats_series.notnull(), template_dict
)
# 步骤4: 将包含字典的Series转换为DataFrame
output_df_method2 = filled_stats_series.apply(pd.Series)
print("\n方法二输出:")
print(output_df_method2)输出:
方法二输出:
city last_time
0 NaN 1234567.00
1 None NaN
2 Seattle 45678999876.00说明:
本教程介绍了两种有效的方法,用于将Pandas DataFrame中包含字典列表的复杂列解构为独立的列。第一种方法简洁高效,适用于数据结构相对规整的场景。第二种方法通过显式处理缺失值,提供了更强的健壮性和控制力,适用于数据可能存在不一致或缺失的情况。根据您的具体数据特性和对缺失值的处理需求,可以选择最适合的方法来完成数据清洗和转换任务。掌握这些技术对于有效利用Pandas处理复杂数据结构至关重要。
以上就是从DataFrame中包含字典列表的列创建新列的教程的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号