Python数据处理：利用字典高效合并重复条目并整合相关信息

花韻仙語

发布时间：2025-11-16 12:46:19

802人浏览过

来源于php中文网

原创

Python数据处理：利用字典高效合并重复条目并整合相关信息

在处理结构化数据时，我们经常会遇到需要根据某个关键字段合并重复条目的情况。例如，当一个数据集包含多个列表，每个列表的首个元素代表一个唯一的标识符（或应被视为唯一），而后续元素是与该标识符相关联的属性时，我们可能需要将所有相同标识符的属性聚合到同一个列表中。这种操作有助于消除数据冗余，并为后续的数据分析和处理提供更清晰、更整合的视图。

问题场景描述

假设我们有一个包含词语及其词性、计数等信息的列表集合，如下所示：

new_mainArr = [
    ['the', 'at', 2],
    ['fulton', 'np-tl', 1],
    ['county', 'nn-tl', 1],
    ['grand', 'jj-tl', 1],
    ['jury', 'nn-tl', 1],
    ['said', 'vbd', 2],
    ['friday', 'nr', 1],
    ['an', 'at', 1],
    ['investigation', 'nn', 1],
    ['of', 'in', 1],
    ["atlanta's", 'np$', 1],
    ['recent', 'jj', 1],
    ['primary', 'nn', 1],
    ['election', 'nn', 1],
    ['produced', 'vbd', 1],
    ['.', '.', 2],
    ['the', 'nn', 1], # 'the' 再次出现
    ['jury', 'nn', 1], # 'jury' 再次出现
    ['further', 'rbr', 1],
    ['in', 'in', 1],
    ['term-end', 'nn', 1],
    ['presentments', 'nns', 1],
    ['that', 'cs', 1],
    ['city', 'nn-tl', 1]
]

我们的目标是，如果列表中的第一个元素（例如 'the' 或 'jury'）出现多次，我们希望将所有与该元素相关的后续信息（如词性 'at', 2, 'nn', 1）整合到同一个列表中，同时删除重复的原始行。最终输出应为：

['the', 'at', 2, 'nn', 1]
['jury', 'nn-tl', 1, 'nn', 1]
# ... 其他非重复项 ...

传统方法的局限性

一种常见的直觉是使用嵌套循环遍历列表，并在发现重复项时手动追加元素。然而，这种方法往往效率低下，且难以正确处理删除原始重复行的问题。在内部循环中修改正在迭代的列表（或其副本）会导致索引错乱和逻辑复杂化，容易引入错误。

高效的字典合并策略

Python的字典（dict）提供了一种极其高效且优雅的方式来解决这类数据合并问题。字典的键是唯一的，这使得它天然适合作为我们合并操作中的“标识符”。我们可以将每个列表的首个元素作为字典的键，而将其余元素作为值存储在一个列表中。当遇到重复的键时，我们只需将新的相关信息追加到现有键对应的值列表中即可。

Shakespeare

一款人工智能文案软件，能够创建几乎任何类型的文案。

下载

立即学习“Python免费学习笔记（深入）”；

核心思想

初始化字典： 创建一个空字典，用于存储合并后的数据。
遍历输入数据： 逐一处理原始列表中的每个子列表。
解包元素： 对于每个子列表，将其第一个元素作为键，其余所有元素打包成一个列表作为值。
使用 setdefault() 和 extend()：
- dict.setdefault(key, default_value) 方法非常关键。如果 key 不在字典中，它会插入 key 并将其值设置为 default_value（这里是一个空列表 []），然后返回 default_value。如果 key 已经存在，它会返回 key 对应的值。
- list.extend(iterable) 方法用于将一个可迭代对象中的所有元素添加到列表的末尾。
重构输出： 一旦所有数据都已合并到字典中，我们再遍历字典的键值对，将它们重新组合成所需的列表格式。

示例代码

data = [
    ["the", "at", 2],
    ["fulton", "np-tl", 1],
    ["county", "nn-tl", 1],
    ["grand", "jj-tl", 1],
    ["jury", "nn-tl", 1],
    ["said", "vbd", 2],
    ["friday", "nr", 1],
    ["an", "at", 1],
    ["investigation", "nn", 1],
    ["of", "in", 1],
    ["atlanta's", "np$", 1],
    ["recent", "jj", 1],
    ["primary", "nn", 1],
    ["election", "nn", 1],
    ["produced", "vbd", 1],
    [".", ".", 2],
    ["the", "nn", 1],
    ["jury", "nn", 1],
    ["further", "rbr", 1],
    ["in", "in", 1],
    ["term-end", "nn", 1],
    ["presentments", "nns", 1],
    ["that", "cs", 1],
    ["city", "nn-tl", 1],
]

# 1. 初始化一个空字典
d = dict()

# 2. 遍历输入数据并进行合并
for key_element, *rest_elements in data:
    # 使用 setdefault 获取或创建一个空列表，然后使用 extend 添加其余元素
    d.setdefault(key_element, []).extend(rest_elements)

# 3. 将字典中的数据重构为最终的列表格式
output = [[key, *values] for key, values in d.items()]

print(output)

代码解析

for key_element, *rest_elements in data:：这是Python中非常强大的解包（unpacking）语法。
- key_element 会接收每个子列表的第一个元素（例如 'the'）。
- *rest_elements 会将子列表中剩余的所有元素收集到一个新的列表中（例如 ['at', 2] 或 ['nn', 1]）。
d.setdefault(key_element, []).extend(rest_elements)：
- d.setdefault(key_element, [])：尝试从字典 d 中获取 key_element 对应的值。如果 key_element 不存在，它会先将 d[key_element] 设置为一个空列表 []，然后返回这个空列表。如果 key_element 已经存在，它会直接返回 d[key_element] 对应的列表。
- .extend(rest_elements)：无论 setdefault 返回的是新创建的空列表还是已存在的列表，我们都调用其 extend 方法，将 rest_elements 中的所有元素添加到该列表的末尾。这样，所有与 key_element 相关的属性都会被收集到同一个列表中。
output = [[key, *values] for key, values in d.items()]：这是一个列表推导式，用于将字典 d 转换回我们期望的列表形式。
- for key, values in d.items()：遍历字典 d 中的每一个键值对。key 是合并后的标识符（例如 'the'），values 是一个包含所有相关属性的列表（例如 ['at', 2, 'nn', 1]）。
- [key, *values]：再次使用解包语法。key 作为新列表的第一个元素，*values 将 values 列表中的所有元素逐个添加到新列表中，从而形成 ['the', 'at', 2, 'nn', 1] 这样的结构。

运行结果

[['the', 'at', 2, 'nn', 1], ['fulton', 'np-tl', 1], ['county', 'nn-tl', 1], ['grand', 'jj-tl', 1], ['jury', 'nn-tl', 1, 'nn', 1], ['said', 'vbd', 2], ['friday', 'nr', 1], ['an', 'at', 1], ['investigation', 'nn', 1], ['of', 'in', 1], ["atlanta's", 'np$', 1], ['recent', 'jj', 1], ['primary', 'nn', 1], ['election', 'nn', 1], ['produced', 'vbd', 1], ['.', '.', 2], ['further', 'rbr', 1], ['in', 'in', 1], ['term-end', 'nn', 1], ['presentments', 'nns', 1], ['that', 'cs', 1], ['city', 'nn-tl', 1]]

从输出可以看出，原始数据中重复的 'the' 和 'jury' 条目已被成功合并，其相关信息也整合到了各自的第一个出现位置。

注意事项与总结

效率： 字典查找操作的平均时间复杂度为O(1)，这使得字典方法在处理大量数据时比嵌套循环等O(N^2)的方法效率高得多。
可读性： 这种基于字典的解决方案代码简洁，逻辑清晰，易于理解和维护。
灵活性： 这种模式不仅适用于列表中的第一个元素作为键的情况，也可以扩展到使用元组作为键（如果需要基于多个字段进行合并），或者通过自定义函数来生成键。
数据类型： 作为字典键的元素必须是可哈希的（immutable），例如字符串、数字、元组等。列表本身不能作为字典键。
顺序： 字典在Python 3.7+中保持插入顺序，这意味着最终输出中合并后的条目顺序将与它们在原始数据中首次出现的顺序一致。

通过利用Python字典的强大功能，我们可以优雅而高效地解决复杂的数据去重和合并问题，从而优化数据处理流程，提升代码质量。

如何判断列表中是否不存在空字符串（Python 教程）

如何高效检测列表中是否不存在空字符串（Python 教程）

如何判断列表中是否不存在空字符串并正确触发平局逻辑

Python对象ID复用是否会影响Pickle序列化结果？

如何在 Windows 上正确使用 pip 安装 Python 模块

相关专题

python开发工具

php中文网为大家提供各种python开发工具，好的开发工具，可帮助开发者攻克编程学习中的基础障碍，理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容，供大家免费下载使用。

754

2023.06.15

python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章，大家可以免费的下载体验。

636

2023.07.20

python能做什么

python能做的有：可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

758

2023.07.25

format在python中的用法

Python中的format是一种字符串格式化方法，用于将变量或值插入到字符串中的占位符位置。通过format方法，我们可以动态地构建字符串，使其包含不同值。php中文网给大家带来了相关的教程以及文章，欢迎大家前来阅读学习。

618

2023.07.31

python教程

Python已成为一门网红语言，即使是在非编程开发者当中，也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章，大家可以免费体验学习。

1262

2023.08.03

python环境变量的配置

Python是一种流行的编程语言，被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后，我们需要配置环境变量，以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

547

2023.08.04

python eval

eval函数是Python中一个非常强大的函数，它可以将字符串作为Python代码进行执行，实现动态编程的效果。然而，由于其潜在的安全风险和性能问题，需要谨慎使用。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

577

2023.08.04

scratch和python区别

scratch和python的区别：1、scratch是一种专为初学者设计的图形化编程语言，python是一种文本编程语言；2、scratch使用的是基于积木的编程语法，python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容，供大家免费下载体验。

707

2023.08.11

Golang gRPC 服务开发与Protobuf实战

本专题系统讲解 Golang 在 gRPC 服务开发中的完整实践，涵盖 Protobuf 定义与代码生成、gRPC 服务端与客户端实现、流式 RPC（Unary/Server/Client/Bidirectional）、错误处理、拦截器、中间件以及与 HTTP/REST 的对接方案。通过实际案例，帮助学习者掌握使用 Go 构建高性能、强类型、可扩展的 RPC 服务体系，适用于微服务与内部系统通信场景。

2026.01.15

热门下载

网站特效

网站源码

网站素材

前端模板