Python中基于相邻上下文的列表数据聚合技巧

DDD

发布时间：2025-10-12 09:07:12

580人浏览过

来源于php中文网

原创

Python中基于相邻上下文的列表数据聚合技巧

本文探讨了如何在处理嵌套列表数据时，根据相邻上下文条件进行数据聚合。针对传统方法将所有相同描述的数据合并的问题，我们提出了一种利用`defaultdict`和索引跟踪的策略，仅合并在相邻“井”（或上下文单元）中出现相同描述的数据。这种方法有效解决了需要区分连续性聚合与全局聚合的场景，生成更符合业务逻辑的分割结果。

在数据处理和分析中，我们经常需要对数据进行分组和聚合。然而，有时业务逻辑要求我们不仅仅是简单地按某个键值进行全局聚合，而是要考虑数据在序列中的“相邻”或“连续”性。例如，在一个包含多个“井”数据（每个井又包含多个地层描述及其深度范围）的场景中，我们可能需要将相同地层描述的深度范围合并起来，但前提是这些地层描述在“相邻”的井中也保持连续性，或者在同一个井内是连续的。

传统聚合方法的局限性

考虑以下数据结构，它表示了多个井的地层信息：

wells = [
    [
        [0, 4, 'earth'],
        [4, 8, 'suglinok'],
        [8, 20, 'gravel'],
    ],
    [
        [0, 4, 'earth'],
        [4, 8, 'suglinok'],
        [8, 20, 'sand'],
    ],
    [
        [0, 4, 'earth'],
        [4, 16, 'suglinok'],
        [16, 24, 'gravel'],
    ]
]

如果采用传统的全局聚合方法，例如遍历所有地层描述，然后将所有相同描述的深度范围（[start, end]）收集起来，我们会得到类似这样的结果：

earth: [0, 4], [0, 4], [0, 4]
suglinok: [4, 8], [4, 8], [4, 16]
gravel: [8, 20], [16, 24]
sand: [8, 20]

这种方法将所有earth的深度范围都聚合到一起，所有suglinok的深度范围也聚合到一起。然而，如果业务需求是只合并那些在“相邻”上下文中出现的相同描述，那么这种全局聚合方式就无法满足要求。例如，gravel在第一个井中是[8, 20]，在第三个井中是[16, 24]。虽然它们描述相同，但它们分别属于不同的井，且中间隔了一个井（第二个井没有gravel），因此它们不应被视为一个连续的聚合块。我们期望的输出应能区分这些非连续的块。

立即学习“Python免费学习笔记（深入）”；

核心思路：基于上下文的连续性判断

为了实现基于相邻上下文的聚合，我们需要引入一个机制来判断当前处理的地层描述是否与前一个上下文单元（即前一个井）中的相同描述是连续的。如果不是连续的，那么就应该为当前的地层描述开启一个新的聚合段。

具体到wells这个例子，我们的“上下文单元”就是单个的“井”。因此，我们需要：

Action Figure AI

借助Action Figure AI的先进技术，瞬间将照片转化为定制动作人偶。

下载

记录每个地层描述在哪些井中出现过。
当处理某个井中的地层描述时，检查该描述是否在“前一个井”中也出现过。
如果该描述没有在“前一个井”中出现，则认为这是一个新的连续块的开始。

解决方案实现

我们可以使用collections.defaultdict来高效地实现这个逻辑。defaultdict在访问不存在的键时会自动创建一个默认值，这在收集数据时非常方便。

from collections import defaultdict

# 用于存储最终按描述和连续性分组的深度范围
points_by_description = defaultdict(list)
# 用于跟踪每个描述在哪些井中出现过，以判断连续性
descriptionInWell = defaultdict(set)

# 遍历每个井及其索引
for wellIdx, well in enumerate(wells):
    # 遍历当前井中的每个地层点
    for start, end, description in well:
        # 记录当前描述出现在当前井中
        descriptionInWell[description].add(wellIdx)

        # 判断当前描述是否与前一个井中的相同描述连续
        # 如果 wellIdx-1 不在 descriptionInWell[description] 中，
        # 意味着当前描述在紧邻的前一个井中没有出现，因此这是一个新的连续段。
        # 对于第一个井 (wellIdx=0)，wellIdx-1 = -1，-1 不可能在任何 wellIdx 集合中，
        # 所以第一个井的每个描述都会自然地开始一个新的段。
        if not (wellIdx - 1 in descriptionInWell[description]):
            points_by_description[description].append([]) # 开启一个新的列表来存储这个连续段的深度范围

        # 将当前的 [start, end] 深度范围添加到当前描述的最后一个（即最新开启的）连续段中
        points_by_description[description][-1].extend([start, end])

# 输出结果
for description, pointLists in points_by_description.items():
    print(f"Description: {description}")
    for points in pointLists:
        # 遍历每个连续段中的深度范围，并按 [start, end] 格式打印
        for i in range(0, len(points), 2):
            print([points[i], points[i + 1]], end=" ")
        print()

代码解析：

points_by_description = defaultdict(list): 这是一个字典，键是地层描述（如'earth'），值是一个列表。这个列表的每个元素又是一个列表，代表一个连续的深度范围聚合段。例如，points_by_description['gravel'] 可能像 [[8, 20], [16, 24]] 这样，其中 [8, 20] 是第一个连续段，[16, 24] 是第二个。
descriptionInWell = defaultdict(set): 这是一个字典，键是地层描述，值是一个集合。这个集合存储了该描述出现过的所有井的索引（wellIdx）。例如，descriptionInWell['earth'] 会是 {0, 1, 2}，表示'earth'在所有三个井中都出现了。
for wellIdx, well in enumerate(wells):: 使用enumerate可以同时获取井的索引和井的数据，这对于判断相邻性至关重要。
descriptionInWell[description].add(wellIdx): 每次遇到一个描述，就将其所在的井的索引添加到对应的集合中。
if not (wellIdx - 1 in descriptionInWell[description]):: 这是核心的连续性判断逻辑。
- wellIdx - 1 代表前一个井的索引。
- descriptionInWell[description] 包含了所有出现过当前description的井的索引。
- 如果wellIdx - 1不在这个集合中，说明当前description并没有在紧邻的前一个井中出现。这意味着当前的description开始了新的一个连续块。
- 对于第一个井（wellIdx = 0），wellIdx - 1 是 -1。由于-1永远不会是有效的井索引，所以(-1 in descriptionInWell[description]) 永远为 False，这使得第一个井中的所有描述都会自然地开启一个新的聚合段，符合逻辑。
points_by_description[description].append([]): 当检测到新的连续块时，就在points_by_description中为该描述添加一个新的空列表，作为新的聚合段。
points_by_description[description][-1].extend([start, end]): 将当前的[start, end]添加到该描述的最后一个（即最新开启的）聚合段中。[-1] 语法可以方便地访问列表中的最后一个元素。

期望输出：

运行上述代码，将得到以下输出，这符合了基于相邻上下文的聚合要求：

Description: earth
[0, 4] [0, 4] [0, 4] 
Description: suglinok
[4, 8] [4, 8] [4, 16] 
Description: gravel
[8, 20] 
[16, 24] 
Description: sand
[8, 20]

我们可以看到，gravel被分成了两个独立的连续段：[8, 20]（来自第一个井）和[16, 24]（来自第三个井），因为第二个井中没有gravel，从而打破了其连续性。

注意事项

通用性： 这种基于索引和前一个上下文单元状态判断的模式可以推广到其他需要“连续性”或“相邻性”聚合的场景。只需将“井”替换为您的上下文单元，并调整判断条件。
数据结构选择： defaultdict(list) 和 defaultdict(set) 的组合非常适合这种动态收集和判断的场景。set用于快速判断元素是否存在，list用于有序地存储聚合结果。
边界条件： 对于序列的第一个元素（wellIdx=0），wellIdx-1会是负数。由于负数索引不会出现在descriptionInWell的集合中，因此第一个元素总会被视为一个新连续段的开始，这正是我们期望的行为。

总结

在处理复杂的数据聚合需求时，仅仅依靠简单的分组往往不够。通过引入对数据序列中“相邻上下文”的判断，我们可以实现更精细、更符合业务逻辑的数据聚合。本文展示了一种利用defaultdict和索引跟踪的有效方法，它能够识别并分离非连续的聚合块，从而提供更准确的数据洞察。这种模式在处理时间序列、日志分析或任何需要考虑元素之间连续性的场景中都具有广泛的应用价值。

Python调试时断点导致行为差异的真相揭秘

如何从 JSON 字符串数组中安全提取 cancellationDate 字段

Python调试中“设断点正常、不设断点报错”的真相揭秘

如何让自定义 Python 类无缝兼容 NumPy 运算

如何用正则表达式精准分割含嵌套逗号的结构化产品数据