
本文探讨了如何在处理嵌套列表数据时,根据相邻上下文条件进行数据聚合。针对传统方法将所有相同描述的数据合并的问题,我们提出了一种利用`defaultdict`和索引跟踪的策略,仅合并在相邻“井”(或上下文单元)中出现相同描述的数据。这种方法有效解决了需要区分连续性聚合与全局聚合的场景,生成更符合业务逻辑的分割结果。
在数据处理和分析中,我们经常需要对数据进行分组和聚合。然而,有时业务逻辑要求我们不仅仅是简单地按某个键值进行全局聚合,而是要考虑数据在序列中的“相邻”或“连续”性。例如,在一个包含多个“井”数据(每个井又包含多个地层描述及其深度范围)的场景中,我们可能需要将相同地层描述的深度范围合并起来,但前提是这些地层描述在“相邻”的井中也保持连续性,或者在同一个井内是连续的。
考虑以下数据结构,它表示了多个井的地层信息:
wells = [
[
[0, 4, 'earth'],
[4, 8, 'suglinok'],
[8, 20, 'gravel'],
],
[
[0, 4, 'earth'],
[4, 8, 'suglinok'],
[8, 20, 'sand'],
],
[
[0, 4, 'earth'],
[4, 16, 'suglinok'],
[16, 24, 'gravel'],
]
]如果采用传统的全局聚合方法,例如遍历所有地层描述,然后将所有相同描述的深度范围([start, end])收集起来,我们会得到类似这样的结果:
earth: [0, 4], [0, 4], [0, 4] suglinok: [4, 8], [4, 8], [4, 16] gravel: [8, 20], [16, 24] sand: [8, 20]
这种方法将所有earth的深度范围都聚合到一起,所有suglinok的深度范围也聚合到一起。然而,如果业务需求是只合并那些在“相邻”上下文中出现的相同描述,那么这种全局聚合方式就无法满足要求。例如,gravel在第一个井中是[8, 20],在第三个井中是[16, 24]。虽然它们描述相同,但它们分别属于不同的井,且中间隔了一个井(第二个井没有gravel),因此它们不应被视为一个连续的聚合块。我们期望的输出应能区分这些非连续的块。
立即学习“Python免费学习笔记(深入)”;
为了实现基于相邻上下文的聚合,我们需要引入一个机制来判断当前处理的地层描述是否与前一个上下文单元(即前一个井)中的相同描述是连续的。如果不是连续的,那么就应该为当前的地层描述开启一个新的聚合段。
具体到wells这个例子,我们的“上下文单元”就是单个的“井”。因此,我们需要:
我们可以使用collections.defaultdict来高效地实现这个逻辑。defaultdict在访问不存在的键时会自动创建一个默认值,这在收集数据时非常方便。
from collections import defaultdict
# 用于存储最终按描述和连续性分组的深度范围
points_by_description = defaultdict(list)
# 用于跟踪每个描述在哪些井中出现过,以判断连续性
descriptionInWell = defaultdict(set)
# 遍历每个井及其索引
for wellIdx, well in enumerate(wells):
# 遍历当前井中的每个地层点
for start, end, description in well:
# 记录当前描述出现在当前井中
descriptionInWell[description].add(wellIdx)
# 判断当前描述是否与前一个井中的相同描述连续
# 如果 wellIdx-1 不在 descriptionInWell[description] 中,
# 意味着当前描述在紧邻的前一个井中没有出现,因此这是一个新的连续段。
# 对于第一个井 (wellIdx=0),wellIdx-1 = -1,-1 不可能在任何 wellIdx 集合中,
# 所以第一个井的每个描述都会自然地开始一个新的段。
if not (wellIdx - 1 in descriptionInWell[description]):
points_by_description[description].append([]) # 开启一个新的列表来存储这个连续段的深度范围
# 将当前的 [start, end] 深度范围添加到当前描述的最后一个(即最新开启的)连续段中
points_by_description[description][-1].extend([start, end])
# 输出结果
for description, pointLists in points_by_description.items():
print(f"Description: {description}")
for points in pointLists:
# 遍历每个连续段中的深度范围,并按 [start, end] 格式打印
for i in range(0, len(points), 2):
print([points[i], points[i + 1]], end=" ")
print()代码解析:
期望输出:
运行上述代码,将得到以下输出,这符合了基于相邻上下文的聚合要求:
Description: earth [0, 4] [0, 4] [0, 4] Description: suglinok [4, 8] [4, 8] [4, 16] Description: gravel [8, 20] [16, 24] Description: sand [8, 20]
我们可以看到,gravel被分成了两个独立的连续段:[8, 20](来自第一个井)和[16, 24](来自第三个井),因为第二个井中没有gravel,从而打破了其连续性。
在处理复杂的数据聚合需求时,仅仅依靠简单的分组往往不够。通过引入对数据序列中“相邻上下文”的判断,我们可以实现更精细、更符合业务逻辑的数据聚合。本文展示了一种利用defaultdict和索引跟踪的有效方法,它能够识别并分离非连续的聚合块,从而提供更准确的数据洞察。这种模式在处理时间序列、日志分析或任何需要考虑元素之间连续性的场景中都具有广泛的应用价值。
以上就是Python中基于相邻上下文的列表数据聚合技巧的详细内容,更多请关注php中文网其它相关文章!
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号