
在处理结构化数据时,我们经常会遇到需要根据某个关键字段合并重复条目的情况。例如,当一个数据集包含多个列表,每个列表的首个元素代表一个唯一的标识符(或应被视为唯一),而后续元素是与该标识符相关联的属性时,我们可能需要将所有相同标识符的属性聚合到同一个列表中。这种操作有助于消除数据冗余,并为后续的数据分析和处理提供更清晰、更整合的视图。
假设我们有一个包含词语及其词性、计数等信息的列表集合,如下所示:
new_mainArr = [
['the', 'at', 2],
['fulton', 'np-tl', 1],
['county', 'nn-tl', 1],
['grand', 'jj-tl', 1],
['jury', 'nn-tl', 1],
['said', 'vbd', 2],
['friday', 'nr', 1],
['an', 'at', 1],
['investigation', 'nn', 1],
['of', 'in', 1],
["atlanta's", 'np$', 1],
['recent', 'jj', 1],
['primary', 'nn', 1],
['election', 'nn', 1],
['produced', 'vbd', 1],
['.', '.', 2],
['the', 'nn', 1], # 'the' 再次出现
['jury', 'nn', 1], # 'jury' 再次出现
['further', 'rbr', 1],
['in', 'in', 1],
['term-end', 'nn', 1],
['presentments', 'nns', 1],
['that', 'cs', 1],
['city', 'nn-tl', 1]
]我们的目标是,如果列表中的第一个元素(例如 'the' 或 'jury')出现多次,我们希望将所有与该元素相关的后续信息(如词性 'at', 2, 'nn', 1)整合到同一个列表中,同时删除重复的原始行。最终输出应为:
['the', 'at', 2, 'nn', 1] ['jury', 'nn-tl', 1, 'nn', 1] # ... 其他非重复项 ...
一种常见的直觉是使用嵌套循环遍历列表,并在发现重复项时手动追加元素。然而,这种方法往往效率低下,且难以正确处理删除原始重复行的问题。在内部循环中修改正在迭代的列表(或其副本)会导致索引错乱和逻辑复杂化,容易引入错误。
Python的字典(dict)提供了一种极其高效且优雅的方式来解决这类数据合并问题。字典的键是唯一的,这使得它天然适合作为我们合并操作中的“标识符”。我们可以将每个列表的首个元素作为字典的键,而将其余元素作为值存储在一个列表中。当遇到重复的键时,我们只需将新的相关信息追加到现有键对应的值列表中即可。
立即学习“Python免费学习笔记(深入)”;
data = [
["the", "at", 2],
["fulton", "np-tl", 1],
["county", "nn-tl", 1],
["grand", "jj-tl", 1],
["jury", "nn-tl", 1],
["said", "vbd", 2],
["friday", "nr", 1],
["an", "at", 1],
["investigation", "nn", 1],
["of", "in", 1],
["atlanta's", "np$", 1],
["recent", "jj", 1],
["primary", "nn", 1],
["election", "nn", 1],
["produced", "vbd", 1],
[".", ".", 2],
["the", "nn", 1],
["jury", "nn", 1],
["further", "rbr", 1],
["in", "in", 1],
["term-end", "nn", 1],
["presentments", "nns", 1],
["that", "cs", 1],
["city", "nn-tl", 1],
]
# 1. 初始化一个空字典
d = dict()
# 2. 遍历输入数据并进行合并
for key_element, *rest_elements in data:
# 使用 setdefault 获取或创建一个空列表,然后使用 extend 添加其余元素
d.setdefault(key_element, []).extend(rest_elements)
# 3. 将字典中的数据重构为最终的列表格式
output = [[key, *values] for key, values in d.items()]
print(output)[['the', 'at', 2, 'nn', 1], ['fulton', 'np-tl', 1], ['county', 'nn-tl', 1], ['grand', 'jj-tl', 1], ['jury', 'nn-tl', 1, 'nn', 1], ['said', 'vbd', 2], ['friday', 'nr', 1], ['an', 'at', 1], ['investigation', 'nn', 1], ['of', 'in', 1], ["atlanta's", 'np$', 1], ['recent', 'jj', 1], ['primary', 'nn', 1], ['election', 'nn', 1], ['produced', 'vbd', 1], ['.', '.', 2], ['further', 'rbr', 1], ['in', 'in', 1], ['term-end', 'nn', 1], ['presentments', 'nns', 1], ['that', 'cs', 1], ['city', 'nn-tl', 1]]
从输出可以看出,原始数据中重复的 'the' 和 'jury' 条目已被成功合并,其相关信息也整合到了各自的第一个出现位置。
通过利用Python字典的强大功能,我们可以优雅而高效地解决复杂的数据去重和合并问题,从而优化数据处理流程,提升代码质量。
以上就是Python数据处理:利用字典高效合并重复条目并整合相关信息的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号