Python中使用re模块进行正则匹配,常用函数有re.match()、re.search()、re.findall()和re.finditer();其中re.search()更实用,能扫描整个字符串。元字符如.、\d、\w、*、+、?、^、$和[]用于构建匹配模式,例如\d{3}-\d{4}可匹配"123-4567"。通过()可实现分组捕获,如(\d{3})-(\d{3})-(\d{4})提取电话号码各部分,group(1)等获取结果,(?:...)用于非捕获分组。实际应用如用re.findall(r'\b[\w.-]+@[\w.-]+.\w+\b')提取邮箱地址。掌握基础语法并结合场景调整,避免过度复杂化,必要时用re.DEBUG调试。

Python中使用正则表达式匹配内容,主要依赖re模块。掌握基本的语法和方法就能高效提取或验证字符串中的信息。
常用匹配函数
re模块提供了几个核心函数用于匹配操作:
- re.match():从字符串开头匹配,成功返回Match对象,否则返回None
- re.search():扫描整个字符串,找到第一个匹配项就返回Match对象
- re.findall():返回所有非重叠的匹配结果,以列表形式呈现
- re.finditer():返回一个迭代器,每个元素是Match对象,适合处理大量匹配
注意:match只检查开头,search会遍历整个字符串,通常search更实用。
基础语法与元字符
正则表达式由普通字符和特殊符号(元字符)组成,常见元字符包括:
立即学习“Python免费学习笔记(深入)”;
- . 匹配任意单个字符(除换行符)
- \d 匹配数字,等价于[0-9]
- \w 匹配字母、数字、下划线
- * 匹配前一个字符0次或多次
- + 匹配前一个字符1次或多次
- ? 匹配前一个字符0次或1次
- ^ 匹配字符串开头
- $ 匹配字符串结尾
- [] 定义字符集合,如[abc]匹配a、b或c
例如,\d{3}-\d{4} 可以匹配像 "123-4567" 这样的电话号码片段。
分组与捕获
使用圆括号()可以对模式进行分组,并提取感兴趣的部分:
- 比如 (\d{3})-(\d{3})-(\d{4}) 能匹配电话号码并分别捕获区号、前三位和后四位
- 通过Match对象的group(1), group(2)等方法获取对应分组内容
- ?:放在括号内可取消捕获,如(?:...)仅用于分组不保存结果
分组在提取结构化数据时非常有用,比如从日志中提取时间、IP等字段。
实际使用示例
假设要从一段文本中找出所有邮箱地址:
import retext = "联系我 via email@example.com 或 admin@site.org"
emails = re.findall(r'\b[\w.-]+@[\w.-]+\.\w+\b', text)
print(emails) # 输出: ['email@example.com', 'admin@site.org']
这里用到了单词边界\b、字符类和量词,确保匹配的是完整邮箱格式。
基本上就这些。熟悉常用模式后,结合具体场景调整正则即可。注意避免过度复杂化,测试时可用re.DEBUG辅助调试。不复杂但容易忽略。











