Python中基于键值匹配的多列表字典数据合并与扩展

DDD

发布时间：2025-07-02 21:02:16

225人浏览过

来源于php中文网

原创

python中基于键值匹配的多列表字典数据合并与扩展

Python中基于键值匹配的多列表字典数据合并与扩展教程。本教程详细讲解如何在Python中将多个列表（包含字典数据）进行高效合并与扩展。通过匹配特定键的值，我们将演示如何从源列表提取信息（如original_name和original_address）并将其添加到目标列表的相应字典条目中，最终生成一个包含更丰富数据的列表。文章将提供示例代码，并探讨不同实现方式的效率考量。

在数据处理和集成场景中，我们经常需要将分散在不同数据源中的信息合并到一个统一的结构中。特别是在处理列表嵌套字典的数据格式时，根据特定键值进行匹配并扩展现有数据是一项常见的操作。本教程将深入探讨如何在Python中高效地实现这一目标。

场景描述与问题定义

假设我们有以下三个列表，每个列表都包含一系列字典：

listA: 包含名称及其原始名称信息。

listA = [
  {"name": "name sample 1", "original_name" : "original name sample 1"},
  {"name": "name sample 2", "original_name" : "original name sample 2"},
  # ... 更多数据
]

listB: 包含地址及其原始地址信息。

listB = [
  {"address": "address sample 1", "original_address" : "original address sample 1"},
  {"address": "address sample 2", "original_address" : "original address sample 2"},
  # ... 更多数据
]

dataList: 我们的主数据列表，包含ID、创建时间、名称和地址。

dataList = [
  {"id": "1", "created_at": "date 1", "name": "name sample 1", "address": "address sample 1"},
  {"id": "2", "created_at": "date 2", "name": "name sample 2", "address": "address sample 2"},
  # ... 更多数据
]

我们的目标是创建一个新的列表 finalList，它基于 dataList 的内容，并通过以下规则进行数据扩展：

对于 dataList 中的每个字典，如果其 name 键的值与 listA 中某个字典的 name 键值匹配，则将 listA 中对应字典的 original_name 值添加到 dataList 的当前字典中。
同样，如果其 address 键的值与 listB 中某个字典的 address 键值匹配，则将 listB 中对应字典的 original_address 值添加到 dataList 的当前字典中。

最终 finalList 期望的结构如下：

立即学习“Python免费学习笔记（深入）”；

SlidesAI

使用SlidesAI的AI在几秒钟内创建演示文稿幻灯片

下载

finalList = [
  {
    "id": "1",
    "created_at": "date 1",
    "name": "name sample 1",
    "original_name" : "original name sample 1",
    "address": "address sample 1",
    "original_address" : "original address sample 1",
  },
  # ...
]

解决方案一：基于嵌套循环的直接合并

这种方法直观且易于理解，适用于数据量不大的场景。其核心思想是遍历目标列表的每个元素，然后分别遍历源列表以查找匹配项并更新数据。

实现步骤

创建副本: 由于我们希望生成一个新的列表而不是修改原始的 dataList，首先使用 copy.deepcopy 创建 dataList 的一个深拷贝作为 finalList。
合并源列表: 将 listA 和 listB 合并成一个迭代器，这样可以统一处理两种类型的匹配。
嵌套循环: 外层循环遍历合并后的源列表中的每个条目，内层循环遍历 finalList 中的每个数据条目。
条件匹配与更新: 在内层循环中，根据源条目包含的键（name 或 address）来判断匹配类型，然后查找 finalList 中对应的数据条目，如果匹配成功则添加或更新 original_name 或 original_address。

示例代码

from copy import deepcopy

listA = [
  {"name": "name sample 1", "original_name" : "original name sample 1"},
  {"name": "name sample 2", "original_name" : "original name sample 2"},
]

listB = [
  {"address": "address sample 1", "original_address" : "original address sample 1"},
  {"address": "address sample 2", "original_address" : "original address sample 2"},
]

dataList = [
  {"id": "1", "created_at": "date 1", "name": "name sample 1", "address": "address sample 1"},
  {"id": "2", "created_at": "date 2", "name": "name sample 2", "address": "address sample 2"},
]

# 1. 创建dataList的深拷贝，避免修改原始数据
finalList = deepcopy(dataList)

# 2. 遍历listA和listB中的所有条目
for entry in listA + listB:
    # 3. 根据条目中存在的键进行匹配
    if "name" in entry:
        # 4. 遍历finalList，查找匹配的name
        for data_item in finalList:
            if data_item.get('name') == entry['name']:
                data_item['original_name'] = entry['original_name']
                # 找到匹配后可以跳出内层循环，如果name是唯一的
                # break 
    elif "address" in entry:
        # 5. 遍历finalList，查找匹配的address
        for data_item in finalList:
            if data_item.get('address') == entry['address']:
                data_item['original_address'] = entry['original_address']
                # 找到匹配后可以跳出内层循环，如果address是唯一的
                # break

print("--- 原始 dataList ---")
print(dataList)
print("\n--- 合并后的 finalList ---")
print(finalList)

代码解析与注意事项

from copy import deepcopy: deepcopy 用于创建列表及其内部所有字典的完全独立副本。如果只使用 finalList = dataList[:] 或 finalList = list(dataList)，则只会创建浅拷贝，内部字典仍然是共享的引用，修改 finalList 中的字典会影响 dataList。
for entry in listA + listB:：这种方式将两个列表连接起来，使得我们可以统一处理来自不同源的数据。
data_item.get('name'): 使用 .get() 方法访问字典键是一个好习惯，可以避免在键不存在时抛出 KeyError。
效率考量: 这种方法的时间复杂度较高。如果 len(listA) 为 M，len(listB) 为 N，len(dataList) 为 K，那么最坏情况下，总操作数约为 (M + N) * K。对于大型数据集，这可能导致性能瓶颈。

解决方案二：基于哈希映射（字典）的优化合并

为了提高数据量较大时的性能，我们可以利用哈希表（Python中的字典）进行 O(1) 平均时间复杂度的查找。这种方法的核心思想是预先将 listA 和 listB 转换为查找字典，然后只需遍历 dataList 一次即可完成数据扩展。

实现步骤

构建查找字典:
- 从 listA 构建一个 name_map，其中键是 name，值是 original_name。
- 从 listB 构建一个 address_map，其中键是 address，值是 original_address。
遍历并更新: 再次创建 dataList 的深拷贝作为 finalList。然后，遍历 finalList 中的每个字典，使用 name_map 和 address_map 直接查找并添加 original_name 和 original_address。

示例代码

from copy import deepcopy

listA = [
  {"name": "name sample 1", "original_name" : "original name sample 1"},
  {"name": "name sample 2", "original_name" : "original name sample 2"},
]

listB = [
  {"address": "address sample 1", "original_address" : "original address sample 1"},
  {"address": "address sample 2", "original_address" : "original address sample 2"},
]

dataList = [
  {"id": "1", "created_at": "date 1", "name": "name sample 1", "address": "address sample 1"},
  {"id": "2", "created_at": "date 2", "name": "name sample 2", "address": "address sample 2"},
]

# 1. 构建查找字典
name_map = {item['name']: item['original_name'] for item in listA}
address_map = {item['address']: item['original_address'] for item in listB}

# 2. 创建dataList的深拷贝
finalList = deepcopy(dataList)

# 3. 遍历finalList并使用查找字典进行更新
for data_item in finalList:
    # 查找并添加 original_name
    name_key = data_item.get('name')
    if name_key in name_map:
        data_item['original_name'] = name_map[name_key]

    # 查找并添加 original_address
    address_key = data_item.get('address')
    if address_key in address_map:
        data_item['original_address'] = address_map[address_key]

print("--- 原始 dataList ---")
print(dataList)
print("\n--- 合并后的 finalList (优化版) ---")
print(finalList)

代码解析与性能分析

name_map = {item['name']: item['original_name'] for item in listA}: 这是一个字典推导式，高效地将 listA 转换为一个以 name 为键、original_name 为值的字典。address_map 的构建同理。
效率显著提升:
- 构建 name_map 的时间复杂度为 O(len(listA))。
- 构建 address_map 的时间复杂度为 O(len(listB))。
- 遍历 finalList 并进行字典查找的时间复杂度为 O(len(dataList)) (平均情况下字典查找为 O(1))。
- 因此，总时间复杂度为 O(len(listA) + len(listB) + len(dataList))，这比嵌套循环的方法效率高得多，尤其是在 dataList 非常大的情况下。

重要注意事项

键的唯一性: 优化方法要求用于构建查找字典的键（如 name 在 listA 中，address 在 listB 中）是唯一的。如果存在重复键，字典推导式会覆盖先前的值，只保留最后一个。如果需要处理重复键的复杂逻辑，可能需要更精细的映射结构（例如，值是一个列表）。
缺失匹配: 如果 dataList 中的某个 name 或 address 在对应的查找字典中不存在，则 original_name 或 original_address 不会被添加到 finalList 中。这是当前逻辑的默认行为。如果需要为缺失项设置默认值（例如 None 或空字符串），可以在 if name_key in name_map: 块的 else 分支中添加赋值操作。
数据规模: 对于非常小的数据集（例如，每个列表只有几十个元素），两种方法的性能差异可能不明显。但随着数据量的增长，基于哈希映射的优化方法将展现出压倒性的性能优势。
内存消耗: 构建查找字典会消耗额外的内存，其大小取决于源列表中唯一键的数量。在极端内存受限的场景下，这可能是需要考虑的因素，但通常情况下，其性能收益远大于内存开销。