使用正则表达式解析并转换数据:从字符串中提取键值对

聖光之護
发布: 2025-10-04 11:11:38
原创
947人浏览过

使用正则表达式解析并转换数据:从字符串中提取键值对

本文旨在提供一种使用 Python 正则表达式从特定格式的字符串中提取数据,并将其转换为所需格式的方法。我们将解析包含 "55=id|1007=symbol" 模式的字符串,最终生成 "symbol = id" 格式的输出,以便后续用于创建订单等操作。

数据解析与转换

假设我们有如下格式的字符串数据:

55=22395|1007=BTCUSD|1008=3|55=22396|1007=BTCEUR|1008=2|55=22397|1007=ETHUSD|1008=3|55=22398|1007=ETHEUR|1008=3|55=20009|1007=TELENET GROUP|1008=2|55=20011|1007=MAGNEGAS CORP|1008=2|55=20012|1007=CALUMET SPEC PRDCTS|1008=2|55=20013|1007=CBOE HLDG INC|1008=2|55=20014|1007=ELECTRONIC ARTS INC|1008=2|55=20015|1007=EXPRESS SCRIPTS INC|1008=2|55=20016|1007=ADVANCE AUTO PARTS|1008=2|55=20017|1007=CHINA FUND INC|
登录后复制

我们的目标是从中提取 id (对应于 55=) 和 symbol (对应于 1007=),并将它们组织成 symbol = id 的形式。

使用正则表达式提取数据

Python 的 re 模块提供了强大的正则表达式功能。我们可以使用 re.findall() 函数来查找所有匹配特定模式的字符串。

以下代码演示了如何使用正则表达式提取 id 和 symbol:

一键职达
一键职达

AI全自动批量代投简历软件,自动浏览招聘网站从海量职位中用AI匹配职位并完成投递的全自动操作,真正实现'一键职达'的便捷体验。

一键职达 79
查看详情 一键职达
import re

s = """55=22395|1007=BTCUSD|1008=3|55=22396|1007=BTCEUR|1008=2|55=22397|1007=ETHUSD|1008=3|55=22398|1007=ETHEUR|1008=3|55=20009|1007=TELENET GROUP|1008=2|55=20011|1007=MAGNEGAS CORP|1008=2|55=20012|1007=CALUMET SPEC PRDCTS|1008=2|55=20013|1007=CBOE HLDG INC|1008=2|55=20014|1007=ELECTRONIC ARTS INC|1008=2|55=20015|1007=EXPRESS SCRIPTS INC|1008=2|55=20016|1007=ADVANCE AUTO PARTS|1008=2|55=20017|1007=CHINA FUND INC|"""

for id_, symbol in re.findall(r"\b55=(\d+)\|\d+=([^|]+)", s):
    print(f"{symbol:<30} {id_}")
登录后复制

代码解释:

  1. import re: 导入 re 模块,用于正则表达式操作。
  2. s: 包含需要解析的字符串数据。
  3. re.findall(r"\b55=(\d+)\|\d+=([^|]+)", s): 这是核心部分。
    • re.findall() 函数用于查找所有匹配正则表达式的子字符串。
    • r"\b55=(\d+)\|\d+=([^|]+)" 是正则表达式:
      • \b: 匹配单词边界,确保 55 是一个完整的单词。
      • 55=: 匹配字符串 "55="。
      • (\d+): 匹配一个或多个数字,并将其捕获到第一个分组中。 这就是 id。
      • \|: 匹配字符 "|" (需要转义)。
      • \d+=: 匹配一个或多个数字后跟 "="。 匹配 "1007=" 或 "1008=" 等。
      • ([^|]+): 匹配除 "|" 之外的一个或多个字符,并将其捕获到第二个分组中。 这就是 symbol。
    • for id_, symbol in ...: 循环遍历 re.findall() 返回的列表,每次迭代将提取的 id 和 symbol 分配给对应的变量。
  4. print(f"{symbol:<30} {id_}"): 打印提取的 symbol 和 id,{symbol:<30} 使用 f-string 格式化字符串,将 symbol 左对齐并占据 30 个字符的宽度,使输出更美观。

输出结果:

BTCUSD                         22395
BTCEUR                         22396
ETHUSD                         22397
ETHEUR                         22398
TELENET GROUP                  20009
MAGNEGAS CORP                  20011
CALUMET SPEC PRDCTS            20012
CBOE HLDG INC                  20013
ELECTRONIC ARTS INC            20014
EXPRESS SCRIPTS INC            20015
ADVANCE AUTO PARTS             20016
CHINA FUND INC                 20017
登录后复制

注意事项

  • 正则表达式的准确性: 确保正则表达式能够准确匹配你数据的格式。 根据实际情况调整正则表达式,例如,如果 symbol 中可能包含空格,则需要修改 ([^|]+) 以允许空格。
  • 数据清洗: 在提取数据后,可能需要进行进一步的数据清洗,例如去除字符串首尾的空格,或者将字符串转换为数字类型。
  • 错误处理: 考虑添加错误处理机制,例如,如果 re.findall() 没有找到匹配项,则应该给出相应的提示,避免程序崩溃。
  • 性能: 对于非常大的字符串,正则表达式的性能可能会成为瓶颈。 可以考虑使用更高效的字符串处理方法。

总结

通过使用 Python 的 re 模块,我们可以方便地从特定格式的字符串中提取数据,并将其转换为所需的格式。 正则表达式是一种强大的工具,但需要仔细设计和测试,以确保其能够准确匹配你的数据格式。 掌握正则表达式对于数据处理和文本分析非常有用。

以上就是使用正则表达式解析并转换数据:从字符串中提取键值对的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号