Python中正则表达式通过re模块实现,用于字符串匹配、查找、替换。常用函数有re.match()、re.search()、re.findall()、re.sub()、re.split();关键元字符包括\d、\w、.、*、+、?、^、$等。示例应用:提取邮箱、清理空格、分割多分隔符字符串,需注意贪婪模式与细节处理。

Python中的正则表达式是处理字符串的强大工具,通过re模块实现。它能用于匹配、查找、替换符合特定规则的文本内容。掌握正则不仅能提升数据清洗效率,还能简化文本处理逻辑。
re模块基础用法
使用正则前需导入re模块。常见函数包括:
- re.match():从字符串起始位置匹配,成功返回Match对象,否则返回None
- re.search():扫描整个字符串,返回第一个匹配结果
- re.findall():返回所有非重叠的匹配结果列表
- re.sub():替换匹配到的内容
- re.split():按正则规则分割字符串
例如:
import re text = "Hello 123 world 456" result = re.findall(r'\d+', text) # 匹配所有数字 print(result) # 输出: ['123', '456']
常用正则符号与含义
正则表达式由普通字符和特殊符号组成。关键元字符包括:
立即学习“Python免费学习笔记(深入)”;
- \d:匹配任意数字,等价于[0-9]
- \w:匹配字母、数字、下划线
- .:匹配任意单个字符(换行符除外)
- *:匹配前面的字符零次或多次
- +:匹配前面的字符一次或多次
- ?:匹配前面的字符零次或一次
- ^ 和 $:分别匹配字符串开头和结尾
- []:定义字符集合,如[a-z]匹配小写字母
例如验证手机号:
phone = "13812345678"
if re.match(r'^1[3-9]\d{9}$', phone):
print("手机号格式正确")
实际应用场景示例
正则在日常开发中用途广泛,以下是几个典型例子:
提取网页中的邮箱地址
text = "联系我:admin@example.com 或 support@test.org"
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', text)
print(emails) # 输出: ['admin@example.com', 'support@test.org']
清理文本中的多余空格
text = " 这是 一个 多余空格 的句子 " cleaned = re.sub(r'\s+', ' ', text.strip()) print(cleaned) # 输出: "这是一个 多余空格 的句子"
分割包含多种分隔符的字符串
data = "apple,banana;cherry|date" parts = re.split(r'[,;|]', data) print(parts) # 输出: ['apple', 'banana', 'cherry', 'date']
基本上就这些。熟练使用正则需要多练习常见模式,理解贪婪与非贪婪匹配的区别,以及如何组合元字符构建复杂规则。不复杂但容易忽略细节。










