0

0

Python数据匹配教程:利用正则表达式关联JSON与文本文件信息

碧海醫心

碧海醫心

发布时间:2025-10-09 11:32:51

|

608人浏览过

|

来源于php中文网

原创

Python数据匹配教程:利用正则表达式关联JSON与文本文件信息

本教程详细介绍了如何使用Python高效地从结构化的JSON文件和非结构化的文本文件中匹配并提取关联数据。我们将重点讲解如何利用正则表达式从文本中精确提取关键信息,并结合JSON解析技术,实现跨文件的数据查找与信息关联,最终输出匹配项的详细URL等字段。

引言

在数据处理的日常工作中,我们经常会遇到需要从不同来源、不同格式的数据中进行信息匹配和提取的需求。例如,可能需要根据一个纯文本文件中记录的名称,去一个复杂的json结构中查找对应的详细信息。本教程将以一个具体的场景为例,演示如何使用python结合json模块和re(正则表达式)模块,高效地完成这一任务。

数据准备

为了更好地演示,我们首先准备两份示例数据:一份JSON文件(test.json)和一份纯文本文件(test.txt)。

JSON数据结构 (test.json)

我们的JSON文件包含一个results列表,其中每个元素代表一个设备连接信息。每个连接包含一个主url和termination_a对象,termination_a内部又嵌套了device信息,其中device对象含有name字段,这是我们进行匹配的关键。

{
    "results": [
        {
            "url": "https://api.server.com/cables/100/",
            "termination_a": {
                "url": "https://api.server.com/interfaces/250/",
                "device": {
                    "url": "https://api.server.com/devices/10/",
                    "display": "device-number1-2023-08 myname (1718)",
                    "name": "device-number1-2023-08 myname"
                }
            }
        },
        {
            "url": "https://api.server.com/cables/200/",
            "termination_a": {
                "url": "https://api.server.com/interfaces/160/",
                "device": {
                    "url": "https://api.server.com/devices/22/",
                    "display": "device-number3-2023-08 myname (2245)",
                    "name": "device-number1-2023-08 myname1"
                }
            }
        },
        {
            "url": "https://api.server.com/cables/300/",
            "termination_a": {
                "url": "https://api.server.com/interfaces/260/",
                "device": {
                    "url": "https://api.server.com/devices/73/",
                    "display": "device-number8-2023-08 myname (3678)",
                    "name": "device-number8-2023-08 myname"
                }
            }
        }
    ]
}

文本数据结构 (test.txt)

文本文件包含多行描述性文字,每行中都嵌入了一个设备名称。我们需要从这些非结构化的句子中提取出设备名称。

this is device-number1-2023-08 myname1 and it is good.
this is device-number3-2023-08 myname3 and it is not good.
this is device-number8-2023-08 myname8 and it is.

核心实现步骤

我们将通过以下几个步骤来实现数据匹配和提取:

立即学习Python免费学习笔记(深入)”;

  1. 加载数据:分别读取JSON文件和文本文件的内容。
  2. 从文本文件中提取设备名称:利用正则表达式从文本内容中精确匹配并提取所有设备名称。
  3. 在JSON数据中查找匹配项:遍历JSON结构,将提取到的设备名称与JSON中的设备名称进行比对。
  4. 提取并输出关联信息:一旦找到匹配项,提取JSON中对应的url和termination_a下的url信息。

完整代码示例

以下是实现上述功能的Python代码:

神采PromeAI
神采PromeAI

将涂鸦和照片转化为插画,将线稿转化为完整的上色稿。

下载
import json
import re

# 1. 加载数据
try:
    with open("test.json", "r", encoding="utf-8") as json_file:
        json_data = json.load(json_file)
except FileNotFoundError:
    print("错误:test.json 文件未找到。")
    exit()
except json.JSONDecodeError:
    print("错误:test.json 文件格式不正确。")
    exit()

try:
    with open("test.txt", "r", encoding="utf-8") as text_file:
        text_content = text_file.read()
except FileNotFoundError:
    print("错误:test.txt 文件未找到。")
    exit()

# 2. 从文本文件中提取设备名称
# 定义正则表达式模式来匹配设备名称,例如 "device-number1-2023-08 myname1"
# 模式解释:
# device-: 匹配字面字符串 "device-"
# \w+: 匹配一个或多个字母、数字或下划线 (例如 "number1", "2023", "08", "myname")
# \d+: 匹配一个或多个数字
# \s: 匹配一个空格
# ():捕获组,re.findall 将返回匹配到的组内容
device_name_pattern = r"(device-\w+-\d+-\d+\s\w+)"
txt_device_names = re.findall(device_name_pattern, text_content)

print(f"从文本文件中提取到的设备名称: {txt_device_names}\n")

# 3. 在JSON数据中查找匹配项并提取信息
# 4. 提取并输出关联信息
if "results" in json_data and isinstance(json_data["results"], list):
    found_matches = False
    for item in json_data["results"]:
        try:
            json_device_name = item["termination_a"]["device"]["name"]

            # 检查JSON中的设备名称是否在文本文件中提取到的名称列表中
            if json_device_name in txt_device_names:
                found_matches = True
                print(f"找到匹配设备: {json_device_name}")
                print(f"  主URL: {item['url']}")
                print(f"  终止A URL: {item['termination_a']['url']}")
                print(f"  终止A设备URL: {item['termination_a']['device']['url']}\n")
        except KeyError as e:
            print(f"警告:JSON数据结构不完整,缺少键 '{e}'。跳过此项。")
            continue

    if not found_matches:
        print("未找到任何匹配的设备名称。")
else:
    print("错误:JSON数据结构不符合预期,缺少 'results' 列表。")

代码解析

  1. 导入模块:

    • json: 用于处理JSON格式的数据,包括从文件中加载和解析JSON字符串。
    • re: Python的正则表达式模块,用于在字符串中进行模式匹配和搜索。
  2. 加载数据:

    • 代码首先尝试打开并读取 test.json 文件,使用 json.load() 将其内容解析为一个Python字典。
    • 接着,打开并读取 test.txt 文件,使用 text_file.read() 将其全部内容读取为一个字符串。
    • 为了增强健壮性,这里添加了 try-except 块来处理 FileNotFoundError(文件不存在)和 json.JSONDecodeError(JSON格式错误)等常见异常。
  3. 从文本文件中提取设备名称:

    • device_name_pattern = r"(device-\w+-\d+-\d+\s\w+)": 定义了一个原始字符串(r"")形式的正则表达式模式。
      • device-: 字面匹配字符串 "device-"。
      • \w+: 匹配一个或多个字母、数字或下划线字符。这可以匹配 number1、2023、08、myname 等部分。
      • \d+: 匹配一个或多个数字。
      • \s: 匹配一个空白字符(例如空格)。
      • (): 捕获组。re.findall() 函数会返回所有匹配到的捕获组的内容。
    • txt_device_names = re.findall(device_name_pattern, text_content): 使用 re.findall() 在 text_content 字符串中查找所有符合 device_name_pattern 模式的子字符串,并将它们作为一个列表返回。这个列表 txt_device_names 将包含所有从文本文件中提取到的设备名称。
  4. 在JSON数据中查找匹配项并提取信息:

    • 代码首先检查 json_data 是否包含 results 键且其值为一个列表,这是为了确保JSON结构符合预期。
    • for item in json_data["results"]:: 遍历JSON数据中 results 列表的每一个字典项。
    • json_device_name = item["termination_a"]["device"]["name"]: 逐级访问字典,提取当前JSON项中的设备名称。这里也使用了 try-except KeyError 来处理可能由于JSON结构不完整而导致的键不存在错误。
    • if json_device_name in txt_device_names:: 这是一个高效的匹配操作。它检查从JSON中提取的 json_device_name 是否存在于之前从文本文件提取的 txt_device_names 列表中。
    • 如果找到匹配项,则打印出匹配的设备名称以及其对应的 url、termination_a 下的 url 和 termination_a 下 device 的 url。

注意事项与最佳实践

  • 正则表达式的精确性: 正则表达式是此解决方案的关键。一个精确的正则表达式可以确保从非结构化文本中正确提取所需信息。如果文本格式有变化,需要相应调整正则表达式。
  • 错误处理: 在实际应用中,文件读写和JSON解析都可能遇到错误(如文件不存在、JSON格式不正确、缺少关键键等)。使用 try-except 块可以使程序更加健壮。
  • 数据量: 对于非常大的文本文件,一次性读取整个文件到内存(text_file.read())可能不是最佳选择。可以考虑逐行读取并处理,或者使用 re.finditer() 来迭代匹配结果,避免一次性加载所有匹配项到内存。
  • 性能: 将文本文件中所有待匹配的名称预先提取到一个集合(set)中,而不是列表,可以提高查找效率(if name in my_set 的平均时间复杂度为 O(1),而 if name in my_list 为 O(n))。在本例中,由于名称数量可能不大,列表的性能影响不明显,但对于大规模数据,这是一个值得考虑的优化。
  • 编码: 在打开文件时指定 encoding="utf-8" 是一个好习惯,可以避免因编码问题导致的文件读取错误。

总结

本教程展示了如何利用Python的json模块和re模块,有效地从不同格式的数据源(JSON和纯文本)中进行数据匹配和信息提取。通过精确的正则表达式提取关键信息,并结合结构化数据的遍历,我们可以实现复杂的数据关联任务。掌握这些技术对于处理异构数据源和构建数据处理管道至关重要。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

707

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

624

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

734

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

616

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1234

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

573

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

695

2023.08.11

苹果官网入口直接访问
苹果官网入口直接访问

苹果官网直接访问入口是https://www.apple.com/cn/,该页面具备0.8秒首屏渲染、HTTP/3与Brotli加速、WebP+AVIF双格式图片、免登录浏览全参数等特性。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

10

2025.12.24

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 2.4万人学习

SciPy 教程
SciPy 教程

共10课时 | 0.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号