讲师中心微信公众号

首页

文章

后端开发 web前端数据库开发工具 php框架常见问题科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程自媒体新闻

专题

后端开发 web前端数据库开发工具 php框架科技 Java 系统教程电脑教程硬件教程手机教程软件教程游戏教程新闻

AI工具

AI 聊天问答 Agent智能体 AI 文本写作 AI 绘画作图 AI 设计工具 AI 视频创作 AI 音频制作 AI 办公学习 AI 编程开发 Prompt指令

学习

大前端后端开发数据库移动端运维开发计算机基础

编程手册

大前端后端开发数据库移动端运维开发计算机基础

下载

js特效网站源码工具下载类库下载网站素材学习资源插件扩展手机游戏

最近更新

首页 > 后端开发 > Python教程 > 正文

Python常用正则模式总结_高频匹配场景讲解【指导】

舞夢輝影

发布： 2025-12-21 21:48:46

原创

557人浏览过

Python正则表达式重在掌握6类高频模式：中文字符提取、手机号识别、邮箱抓取、URL捕获、日期匹配、空白清洗，每类均给出简洁模式、要点说明与实用建议。

python常用正则模式总结_高频匹配场景讲解【指导】

Python中正则表达式（re模块）是文本处理的利器，但真正用好它，关键不在记住所有语法，而在于掌握几类高频、实用的匹配模式，并理解它们在真实场景中的边界和陷阱。下面整理最常遇到的6类问题，每类给出简洁模式、说明要点和使用建议。

提取中文字符（含标点）

常见需求：从混合文本中只保留中文、中文标点（如，。！？；：“”‘’（）【】《》）

推荐模式：r'[\u4e00-\u9fff\u3000-\u303f\uff00-\uffef]+'

\u4e00-\u9fff 覆盖常用汉字（基本汉字区）
\u3000-\u303f 包含全角空格、顿号、逗号、句号等中文标点
\uff00-\uffef 补充全角ASCII字符（如全角英文字母、数字、符号）
注意：不包含生僻字（如扩展A/B区），如需更全，可加\U00034000-\U0004DBF等，但多数场景无需

匹配手机号（中国大陆）

目标：识别11位、以1开头、第二位为3-9的号码，兼容常见分隔（空格、短横线、括号）

立即学习“Python免费学习笔记（深入）”；

推荐模式：r'1[3-9]\d{9}'（基础精简版）或 r'1[3-9]\d{1,4}[-\s()]?\d{1,4}[-\s()]?\d{1,4}'（宽松格式适配）

优先用1[3-9]\d{9}——先提取纯数字再清洗，比强求格式更稳定
避免写^1[3-9]\d{9}$用于全文搜索（会漏掉前后有文字的号码）
实际中建议配合re.findall() + 去重 + 长度校验（len==11）二次过滤

提取邮箱地址

目标：快速抓取形如 name@domain.com 的有效邮箱片段

推荐模式：r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'

音疯

音疯是昆仑万维推出的一个AI音乐创作平台，每日可以免费生成6首歌曲。

178

\b 确保边界，避免匹配到 abc@example.com.cn 中的 example.com
本地部分（@前）允许点、下划线、+、-、%，但不校验是否合法（如连续点..）——够用即可
域名部分限制至少2字母后缀，排除test@x.y这类明显无效项
如需高精度验证，应交由专门库（如email-validator），正则仅作初筛

匹配URL（简化版）

目标：捕获 http/https 开头、含域名的链接（不要求完美RFC合规）

推荐模式：r'https?://[^\s)+,;]+(?:/[^\s]*)?'

https? 匹配 http 或 https
[^\s)+,;]+ 匹配域名及路径，停在空格、右括号、逗号、分号前（常见断点）
末尾(?:/[^\s]*)? 可选匹配路径部分，避免截断
不推荐追求“完全正确”的URL正则（太长且难维护），生产环境建议用urllib.parse解析已提取结果

提取日期（YYYY-MM-DD 格式）

目标：识别标准年月日，如 2023-05-12，容忍单数字月/日（2023-5-8）

推荐模式：r'\b\d{4}-(?:0?[1-9]|1[0-2])-(?:0?[1-9]|[12][0-9]|3[01])\b'

年份固定4位，月份支持01~12或1~12，日期支持01~31或1~31
注意：不校验大小月和闰年（如2023-02-30仍会匹配），业务需要时应额外用datetime.strptime()校验
若原文含2023/05/12或2023.05.12，可改用r'\b\d{4}[-/.](?:0?[1-9]|1[0-2])[-/.](?:0?[1-9]|[12][0-9]|3[01])\b'

替换多余空白（换行/制表/多空格 → 单空格）

目标：清洗文本，把各种空白符统一为一个空格，同时去掉首尾空格

推荐模式：r'\s+' + .strip()

用re.sub(r'\s+', ' ', text).strip() 一步到位
\s 包含空格、\t、\n、\r、\f、\v，覆盖所有常见空白
避免用r' +'（只处理空格）或r'[ \t\n\r]+' （漏掉其他Unicode空白）
如需保留换行作段落分隔，可先re.sub(r'[ \t]+', ' ', ...)，再单独处理\n

正则不是越复杂越好，而是越贴近你当前任务越有效。用对模式能省下大量字符串切片和循环，但也要记得：匹配只是第一步，后续常需类型转换、逻辑校验或上下文判断。不复杂但容易忽略。

以上就是Python常用正则模式总结_高频匹配场景讲解【指导】的详细内容，更多请关注php中文网其它相关文章！

相关标签：

python 正则表达式 ai 邮箱 python正则表达式 yy Python 正则表达式字符串循环切片 len 类型转换 ASCII http https

大家都在看：

Python如何实现自动化测试_接口测试与单元测试流程【教学】小白如何快速入门Python数据分析_Python数据分析零基础指南【教程】 Python元组不可变特性如何利用_性能与安全说明【教程】 Python构建高并发服务时如何优化CPU亲和性绑定【技巧】 Python可视化高级绘图技巧_matplotlib与seaborn结合【指导】

最佳 Windows 性能的顶级免费优化软件

最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移，垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是，许多工具可以让 Windows 保持平稳运行。

来源：php中文网

上一篇：Python数据清洗如何实现_缺失值异常值处理【指导】下一篇：python下载的库包放哪里

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

作者最新文章

SQL大促场景如何扛压_限流与降级策略说明【教程】

2025-12-21 10:27:34
坐飞机背包可以直接背飞机上吗

2025-12-21 11:03:08
老鼠台掉宝只能在一个频道吗

2025-12-21 11:13:14
4399网页版在线玩官方通道 4399海量小游戏即点即玩

2025-12-21 11:52:02
4399小游戏在线游玩入口 4399小游戏在线游玩入口官网直达

2025-12-21 12:09:27
SQL敏感数据掩码策略_SQL数据可视化安全处理

2025-12-21 12:41:33
拼多多拼单成功后取消订单另一单发货吗？拼多多拼单取消另外一个正常发货吗

2025-12-21 12:47:02
如何使用Python开发异步服务_Python异步IO核心原理【技巧】

2025-12-21 13:13:46
Linux系统日志怎么看_messages与journal解析【教学】

2025-12-21 13:34:02
电脑IP地址查询官网_IP地址在线查询最准入口

2025-12-21 14:02:47

最新问题

Python爬虫限速与延迟控制_防封策略实战说明【教程】关键在于模拟真实用户行为节奏，需采用随机化或动态延迟（如random.uniform(1.5,4.5)）、按域名分级限速、轮换请求头、复用Session，并实时响应429/403等风控信号动态降速。

2025-12-21 21:14:02

262

Python深度学习训练图像亮度增强模型的构建流程解析【教程】图像亮度增强模型本质是学习可逆、可控、语义保持的亮度映射函数，常嵌入下游任务；分监督式（成对数据+U-Net/RetinexNet）、无监督式（Gamma/Sigmoid变换+循环一致性或零参考损失）和参数化增强（小网预测Gamma等轻量部署）三类；数据依赖合成低光（如正常图×衰减mask）。

2025-12-21 21:08:02

230

Python爬虫数据如何存储_csv与数据库方案解析【教学】优先选CSV、SQLite或MySQL/PostgreSQL，取决于数据量、查询需求和维护场景：小规模临时分析用CSV；中等规模需筛选用SQLite；长期维护、多人协作用MySQL/PostgreSQL。

2025-12-21 20:59:38

632

Python爬虫如何解析网页_BeautifulSoup实战讲解【指导】 BeautifulSoup是Python中专注解析HTML/XML的库，需配合requests获取网页，推荐用html.parser或lxml解析器；定位用find/find_all或CSS选择器select；提取用.text/.get()；注意乱码、动态渲染及容错处理。

2025-12-21 20:56:03

537

可视化从零到精通多线程处理的实践方法【教程】多线程本质是理清执行主体、时机、资源与任务的关系，需通过时序图、带标识日志、线程转储和压力测试四步可视化验证。

2025-12-21 20:56:02

475

Python深度训练视觉Transformer模型的结构解析与训练技巧【教学】 ViT训练需精准匹配结构特性：图像分块+位置编码、CLStoken、多层TransformerEncoder；实操须强数据增强、warmup余弦学习率、大batch、预训练迁移；监控attentionmap、CLSnorm等指标；轻量化可用ConvStem或知识蒸馏。

2025-12-21 20:49:33

666

Python如何实现自动化测试_接口测试与单元测试流程【教学】 Python自动化测试核心是选对工具、理清逻辑、区分场景：接口测试用requests+pytest模拟请求并校验响应字段，单元测试用pytest/unittest+mock隔离验证函数逻辑，二者均需覆盖关键分支并及时维护。

2025-12-21 20:45:08

861

小白如何快速入门Python数据分析_Python数据分析零基础指南【教程】两周内可跑通Python数据分析全流程：装Anaconda→启JupyterLab→用pandas读/看/算/画→以微信账单等真实小数据实操。

2025-12-21 20:33:08

611

Python元组不可变特性如何利用_性能与安全说明【教程】 Python元组的不可变性是设计优势，提升安全性、访问性能与语义清晰度；适用于函数多返回值、字典键、配置常量、线程安全共享及哈希场景。

2025-12-21 20:32:02

572

Python构建高并发服务时如何优化CPU亲和性绑定【技巧】 CPU亲和性绑定非必须但对多进程高并发服务（如gunicorn多worker）能减少上下文切换与缓存抖动；asyncio服务无需手动绑核，多进程模型才是主战场；需满足长期CPU密集、核心充足、存在跨核缓存失效等条件。

2025-12-21 20:31:41

768

相关专题

更多>

热门推荐

开源免费商场系统

广告

热门教程

更多>

相关推荐

热门推荐

最新课程

最新Python教程从入门到精通

5418次学习
收藏
Django 教程

22888次学习
收藏
SciPy 教程

8550次学习
收藏

最新下载

更多>

网站特效

网站源码

网站素材

前端模板

关于我们免责申明举报中心意见反馈讲师合作广告合作最新更新: php中文网：公益在线php培训，帮助PHP学习者快速成长！; 关注服务号技术交流群

PHP中文网订阅号: 每天精选资源文章推送

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号

PHP学习

技术支持

返回顶部