
在数据处理中,我们经常需要将结构化的表格数据(如pandas dataframe)转换为更灵活的嵌套字典格式,以便于后续的数据查询或业务逻辑处理。一个常见的需求是,将dataframe中的两列作为嵌套字典的键,而其余列的值则聚合为一个列表作为最内层字典的值。
考虑一个包含公司(Company)、产品(Product)以及相关生产数据(Production Cost, Development Time, Launch Year)的DataFrame。我们的目标是创建一个字典,其中外层键是公司名,内层键是产品名,对应的值是生产数据的列表。
以下是使用df.iterrows()方法实现这一目标的常见代码:
import pandas as pd
# 示例DataFrame,通常从Excel文件读取
df = pd.DataFrame({
"Company": ["TechCorp", "Innovate Inc", "Green Solutions", "Future Dynamics"],
"Product": ["TC100", "IN200", "GS300", "FD400"],
"Production Cost": [10000, 15000, 12000, 18000],
"Development Time": [6, 9, 8, 12],
"Launch Year": [2023, 2024, 2023, 2025]
})
nested_dict = {}
for index, row in df.iterrows():
company = row['Company']
product = row['Product']
# 提取其他列的值并转换为列表
values = row[['Production Cost', 'Development Time', 'Launch Year']].tolist()
if company not in nested_dict:
nested_dict[company] = {}
nested_dict[company][product] = values
print(nested_dict)这段代码能够正确生成所需的嵌套字典结构:
{'TechCorp': {'TC100': [10000, 6, 2023]}, 'Innovate Inc': {'IN200': [15000, 9, 2024]}, 'Green Solutions': {'GS300': [12000, 8, 2023]}, 'Future Dynamics': {'FD400': [18000, 12, 2025]}}然而,df.iterrows()在处理大型DataFrame时效率相对较低。每次迭代都会返回一个Series对象,这涉及到额外的开销。同时,手动检查字典中是否存在外层键 (if company not in nested_dict:) 增加了代码的冗余。
为了提高效率并简化代码,我们可以利用Python标准库collections中的defaultdict和Pandas DataFrame的底层NumPy数组表示df.values。
以下是优化后的代码实现:
from collections import defaultdict
import pandas as pd
# 示例DataFrame
df = pd.DataFrame({
"Company": ["TechCorp", "Innovate Inc", "Green Solutions", "Future Dynamics"],
"Product": ["TC100", "IN200", "GS300", "FD400"],
"Production Cost": [10000, 15000, 12000, 18000],
"Development Time": [6, 9, 8, 12],
"Launch Year": [2023, 2024, 2023, 2025]
})
# 为了演示defaultdict的优势,我们添加一个TechCorp的新产品
df.loc[len(df)] = ['TechCorp', 'TC200', 20000, 12, 2025]
nested_dict = defaultdict(dict)
# 遍历df.values,使用扩展解包
for company, product, *values in df.values:
nested_dict[company][product] = values
print(dict(nested_dict)) # 将defaultdict转换为普通dict以便输出代码解析:
优化后的输出(包含新增数据):
{
'TechCorp': {'TC100': [10000, 6, 2023], 'TC200': [20000, 12, 2025]},
'Innovate Inc': {'IN200': [15000, 9, 2024]},
'Green Solutions': {'GS300': [12000, 8, 2023]},
'Future Dynamics': {'FD400': [18000, 12, 2025]}
}可以看到,TechCorp下的两个产品及其数据都被正确地聚合到了同一个外层字典中,证明了defaultdict的有效性。
通过巧妙地结合collections.defaultdict和df.values的扩展解包功能,我们可以显著优化从Pandas DataFrame构建复杂嵌套字典的过程。这种方法不仅提升了代码的执行效率,尤其是在处理大规模数据时,还增强了代码的简洁性和可读性,是Python数据处理中值得推荐的实践。
以上就是高效将Pandas DataFrame转换为嵌套字典的技巧的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号