使用Python解析字符串并提取数据:将ID与Symbol关联

碧海醫心
发布: 2025-10-03 19:06:01
原创
997人浏览过

使用python解析字符串并提取数据:将id与symbol关联

本文将介绍如何使用Python正则表达式解析包含特定格式数据的字符串,提取其中的ID和Symbol,并将它们关联起来。这种方法适用于需要从特定格式的文本数据中提取关键信息并进行后续处理的场景。

首先,我们需要导入 re 模块,该模块提供了对正则表达式的支持。

import re
登录后复制

接下来,定义包含目标数据的字符串。

s = """55=22395|1007=BTCUSD|1008=3|55=22396|1007=BTCEUR|1008=2|55=22397|1007=ETHUSD|1008=3|55=22398|1007=ETHEUR|1008=3|55=20009|1007=TELENET GROUP|1008=2|55=20011|1007=MAGNEGAS CORP|1008=2|55=20012|1007=CALUMET SPEC PRDCTS|1008=2|55=20013|1007=CBOE HLDG INC|1008=2|55=20014|1007=ELECTRONIC ARTS INC|1008=2|55=20015|1007=EXPRESS SCRIPTS INC|1008=2|55=20016|1007=ADVANCE AUTO PARTS|1008=2|55=20017|1007=CHINA FUND INC|"""
登录后复制

核心在于使用 re.findall() 函数,它会找到字符串中所有匹配正则表达式的子串,并以列表的形式返回。

立即学习Python免费学习笔记(深入)”;

for id_, symbol in re.findall(r"\b55=(\d+)\|\d+=([^|]+)", s):
    print(f"{symbol:<30} {id_}")
登录后复制

让我们分解一下正则表达式 r"\b55=(\d+)\|\d+=([^|]+)":

  • \b: 匹配单词边界,确保 "55" 是一个完整的单词,避免匹配到 "155" 之类的字符串。
  • 55=: 匹配字面字符串 "55="。
  • (\d+): 匹配一个或多个数字,并将其捕获到第一个分组中。 这部分对应于ID。
  • \|: 匹配字面字符 "|"。 由于 | 在正则表达式中有特殊含义(表示“或”),所以需要进行转义。
  • \d+=: 匹配一个或多个数字,后跟 "="。这部分匹配 "1007=" 或者 "1008=" 等。
  • ([^|]+): 匹配一个或多个非 "|" 字符,并将其捕获到第二个分组中。 这部分对应于Symbol。

循环遍历 re.findall() 返回的列表,每次迭代都会得到一个包含 ID 和 Symbol 的元组。 使用 f-string 格式化输出,{symbol:<30} 表示将 Symbol 左对齐,并占用 30 个字符的宽度,使得输出更整齐。

怪兽AI数字人
怪兽AI数字人

数字人短视频创作,数字人直播,实时驱动数字人

怪兽AI数字人 44
查看详情 怪兽AI数字人

完整代码示例:

import re

s = """55=22395|1007=BTCUSD|1008=3|55=22396|1007=BTCEUR|1008=2|55=22397|1007=ETHUSD|1008=3|55=22398|1007=ETHEUR|1008=3|55=20009|1007=TELENET GROUP|1008=2|55=20011|1007=MAGNEGAS CORP|1008=2|55=20012|1007=CALUMET SPEC PRDCTS|1008=2|55=20013|1007=CBOE HLDG INC|1008=2|55=20014|1007=ELECTRONIC ARTS INC|1008=2|55=20015|1007=EXPRESS SCRIPTS INC|1008=2|55=20016|1007=ADVANCE AUTO PARTS|1008=2|55=20017|1007=CHINA FUND INC|"""

for id_, symbol in re.findall(r"\b55=(\d+)\|\d+=([^|]+)", s):
    print(f"{symbol:<30} {id_}")
登录后复制

输出结果:

BTCUSD                         22395
BTCEUR                         22396
ETHUSD                         22397
ETHEUR                         22398
TELENET GROUP                  20009
MAGNEGAS CORP                  20011
CALUMET SPEC PRDCTS            20012
CBOE HLDG INC                  20013
ELECTRONIC ARTS INC            20014
EXPRESS SCRIPTS INC            20015
ADVANCE AUTO PARTS             20016
CHINA FUND INC                 20017
登录后复制

注意事项:

  • 正则表达式的编写需要根据实际的数据格式进行调整。 理解正则表达式的各个部分的含义是关键。
  • 如果数据量很大,可以考虑使用更高效的解析方法,例如使用 csv 模块或者自定义的解析函数。
  • 在实际应用中,需要对提取的数据进行错误处理,例如检查 ID 和 Symbol 是否为空,以及数据类型是否正确。

总结:

本文介绍了使用Python正则表达式解析特定格式字符串的方法,提取了其中的ID和Symbol,并将它们关联起来。 这种方法可以应用于各种需要从文本数据中提取关键信息的场景。 通过理解正则表达式的语法和灵活运用Python的字符串处理函数,可以高效地处理各种文本数据。

以上就是使用Python解析字符串并提取数据:将ID与Symbol关联的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号