
在处理结构化数据时,我们经常会遇到需要根据某个关键字段合并重复条目的情况。例如,当一个数据集包含多个列表,每个列表的首个元素代表一个唯一的标识符(或应被视为唯一),而后续元素是与该标识符相关联的属性时,我们可能需要将所有相同标识符的属性聚合到同一个列表中。这种操作有助于消除数据冗余,并为后续的数据分析和处理提供更清晰、更整合的视图。
问题场景描述
假设我们有一个包含词语及其词性、计数等信息的列表集合,如下所示:
new_mainArr = [
['the', 'at', 2],
['fulton', 'np-tl', 1],
['county', 'nn-tl', 1],
['grand', 'jj-tl', 1],
['jury', 'nn-tl', 1],
['said', 'vbd', 2],
['friday', 'nr', 1],
['an', 'at', 1],
['investigation', 'nn', 1],
['of', 'in', 1],
["atlanta's", 'np$', 1],
['recent', 'jj', 1],
['primary', 'nn', 1],
['election', 'nn', 1],
['produced', 'vbd', 1],
['.', '.', 2],
['the', 'nn', 1], # 'the' 再次出现
['jury', 'nn', 1], # 'jury' 再次出现
['further', 'rbr', 1],
['in', 'in', 1],
['term-end', 'nn', 1],
['presentments', 'nns', 1],
['that', 'cs', 1],
['city', 'nn-tl', 1]
]我们的目标是,如果列表中的第一个元素(例如 'the' 或 'jury')出现多次,我们希望将所有与该元素相关的后续信息(如词性 'at', 2, 'nn', 1)整合到同一个列表中,同时删除重复的原始行。最终输出应为:
['the', 'at', 2, 'nn', 1] ['jury', 'nn-tl', 1, 'nn', 1] # ... 其他非重复项 ...
传统方法的局限性
一种常见的直觉是使用嵌套循环遍历列表,并在发现重复项时手动追加元素。然而,这种方法往往效率低下,且难以正确处理删除原始重复行的问题。在内部循环中修改正在迭代的列表(或其副本)会导致索引错乱和逻辑复杂化,容易引入错误。
高效的字典合并策略
Python的字典(dict)提供了一种极其高效且优雅的方式来解决这类数据合并问题。字典的键是唯一的,这使得它天然适合作为我们合并操作中的“标识符”。我们可以将每个列表的首个元素作为字典的键,而将其余元素作为值存储在一个列表中。当遇到重复的键时,我们只需将新的相关信息追加到现有键对应的值列表中即可。
立即学习“Python免费学习笔记(深入)”;
核心思想
- 初始化字典: 创建一个空字典,用于存储合并后的数据。
- 遍历输入数据: 逐一处理原始列表中的每个子列表。
- 解包元素: 对于每个子列表,将其第一个元素作为键,其余所有元素打包成一个列表作为值。
-
使用 setdefault() 和 extend():
- dict.setdefault(key, default_value) 方法非常关键。如果 key 不在字典中,它会插入 key 并将其值设置为 default_value(这里是一个空列表 []),然后返回 default_value。如果 key 已经存在,它会返回 key 对应的值。
- list.extend(iterable) 方法用于将一个可迭代对象中的所有元素添加到列表的末尾。
- 重构输出: 一旦所有数据都已合并到字典中,我们再遍历字典的键值对,将它们重新组合成所需的列表格式。
示例代码
data = [
["the", "at", 2],
["fulton", "np-tl", 1],
["county", "nn-tl", 1],
["grand", "jj-tl", 1],
["jury", "nn-tl", 1],
["said", "vbd", 2],
["friday", "nr", 1],
["an", "at", 1],
["investigation", "nn", 1],
["of", "in", 1],
["atlanta's", "np$", 1],
["recent", "jj", 1],
["primary", "nn", 1],
["election", "nn", 1],
["produced", "vbd", 1],
[".", ".", 2],
["the", "nn", 1],
["jury", "nn", 1],
["further", "rbr", 1],
["in", "in", 1],
["term-end", "nn", 1],
["presentments", "nns", 1],
["that", "cs", 1],
["city", "nn-tl", 1],
]
# 1. 初始化一个空字典
d = dict()
# 2. 遍历输入数据并进行合并
for key_element, *rest_elements in data:
# 使用 setdefault 获取或创建一个空列表,然后使用 extend 添加其余元素
d.setdefault(key_element, []).extend(rest_elements)
# 3. 将字典中的数据重构为最终的列表格式
output = [[key, *values] for key, values in d.items()]
print(output)代码解析
- for key_element, *rest_elements in data::这是Python中非常强大的解包(unpacking)语法。
- key_element 会接收每个子列表的第一个元素(例如 'the')。
- *rest_elements 会将子列表中剩余的所有元素收集到一个新的列表中(例如 ['at', 2] 或 ['nn', 1])。
- d.setdefault(key_element, []).extend(rest_elements):
- d.setdefault(key_element, []):尝试从字典 d 中获取 key_element 对应的值。如果 key_element 不存在,它会先将 d[key_element] 设置为一个空列表 [],然后返回这个空列表。如果 key_element 已经存在,它会直接返回 d[key_element] 对应的列表。
- .extend(rest_elements):无论 setdefault 返回的是新创建的空列表还是已存在的列表,我们都调用其 extend 方法,将 rest_elements 中的所有元素添加到该列表的末尾。这样,所有与 key_element 相关的属性都会被收集到同一个列表中。
- output = [[key, *values] for key, values in d.items()]:这是一个列表推导式,用于将字典 d 转换回我们期望的列表形式。
- for key, values in d.items():遍历字典 d 中的每一个键值对。key 是合并后的标识符(例如 'the'),values 是一个包含所有相关属性的列表(例如 ['at', 2, 'nn', 1])。
- [key, *values]:再次使用解包语法。key 作为新列表的第一个元素,*values 将 values 列表中的所有元素逐个添加到新列表中,从而形成 ['the', 'at', 2, 'nn', 1] 这样的结构。
运行结果
[['the', 'at', 2, 'nn', 1], ['fulton', 'np-tl', 1], ['county', 'nn-tl', 1], ['grand', 'jj-tl', 1], ['jury', 'nn-tl', 1, 'nn', 1], ['said', 'vbd', 2], ['friday', 'nr', 1], ['an', 'at', 1], ['investigation', 'nn', 1], ['of', 'in', 1], ["atlanta's", 'np$', 1], ['recent', 'jj', 1], ['primary', 'nn', 1], ['election', 'nn', 1], ['produced', 'vbd', 1], ['.', '.', 2], ['further', 'rbr', 1], ['in', 'in', 1], ['term-end', 'nn', 1], ['presentments', 'nns', 1], ['that', 'cs', 1], ['city', 'nn-tl', 1]]
从输出可以看出,原始数据中重复的 'the' 和 'jury' 条目已被成功合并,其相关信息也整合到了各自的第一个出现位置。
注意事项与总结
- 效率: 字典查找操作的平均时间复杂度为O(1),这使得字典方法在处理大量数据时比嵌套循环等O(N^2)的方法效率高得多。
- 可读性: 这种基于字典的解决方案代码简洁,逻辑清晰,易于理解和维护。
- 灵活性: 这种模式不仅适用于列表中的第一个元素作为键的情况,也可以扩展到使用元组作为键(如果需要基于多个字段进行合并),或者通过自定义函数来生成键。
- 数据类型: 作为字典键的元素必须是可哈希的(immutable),例如字符串、数字、元组等。列表本身不能作为字典键。
- 顺序: 字典在Python 3.7+中保持插入顺序,这意味着最终输出中合并后的条目顺序将与它们在原始数据中首次出现的顺序一致。
通过利用Python字典的强大功能,我们可以优雅而高效地解决复杂的数据去重和合并问题,从而优化数据处理流程,提升代码质量。










