0

0

MySQL如何定义REGEXP_MySQL正则表达式模式匹配教程

雪夜

雪夜

发布时间:2025-09-02 13:44:01

|

937人浏览过

|

来源于php中文网

原创

答案:MySQL中REGEXP用于正则匹配,支持^、$、.、*、+、?、[]、|等元字符及{n}、{n,}、{n,m}等量词,可结合SUBSTRING、LENGTH、INSTR等函数优化查询,但需注意默认不区分大小写、性能损耗及转义问题。

mysql如何定义regexp_mysql正则表达式模式匹配教程

MySQL中,你可以使用

REGEXP
(或其同义词
RLIKE
)操作符来执行基于正则表达式的模式匹配。它允许你通过定义复杂的文本模式,在字符串数据中查找、筛选符合特定规则的内容,远比
LIKE
操作符功能强大。

解决方案

说起来,

REGEXP
这东西,我个人觉得是处理文本数据时一个相当趁手的工具,尤其是在
LIKE
操作符显得力不从心的时候。
LIKE
只能做简单的通配符匹配,比如
%
代表任意字符序列,
_
代表单个字符。但现实世界的数据哪有那么规整?你可能需要匹配以特定字母开头,但中间不能有某个字符,或者必须包含数字和字母的组合。这时候,
REGEXP
就登场了。

它的基本语法很简单:

column_name REGEXP 'pattern'
。这里的
pattern
就是我们定义的正则表达式。MySQL的
REGEXP
实现是基于Henry Spencer的正则表达式库,支持很多标准的元字符和量词。

举个例子,假设我们有一个用户表,里面有个

email
字段。如果我们想找出所有以
@example.com
结尾的邮箱,并且邮箱名的开头必须是字母,接着可以有数字或下划线,我们可能这么写:

SELECT email FROM users WHERE email REGEXP '^[a-zA-Z][a-zA-Z0-9_]*@example\\.com$';

这里面,

^
表示字符串的开始,
$
表示字符串的结束。
[a-zA-Z]
匹配一个字母,
[a-zA-Z0-9_]*
匹配零个或多个字母、数字或下划线。
@example\\.com
中的
\.
是为了匹配字面上的点,因为点在正则表达式里是个特殊字符(匹配任意字符)。

我记得有一次,我在清理一个导入的数据集,里面有些地址字段格式不统一,需要找出所有包含“街”或“路”但后面跟着数字的地址。如果用

LIKE
,我可能要写好几个
OR
条件,但用
REGEXP
就简单多了:

SELECT address FROM locations WHERE address REGEXP '(街|路)[0-9]+号?';

(街|路)
匹配“街”或“路”,
[0-9]+
匹配一个或多个数字,
号?
则匹配零个或一个“号”字。你看,是不是一下子就清晰了很多?

需要注意的是,MySQL的

REGEXP
默认是大小写不敏感的,这在某些场景下很方便,但在需要严格区分大小写时,你可能需要用
BINARY
关键字或者
REGEXP BINARY
来强制区分。比如:

SELECT product_code FROM products WHERE product_code REGEXP BINARY '^[A-Z]{3}[0-9]{4}$';

这会确保只有大写字母开头的匹配成功。

MySQL REGEXP支持哪些常用正则表达式元字符和量词?

说到

REGEXP
的强大,很大一部分都来自于它丰富的元字符和量词。这些是构建复杂模式的基石,理解它们是玩转正则表达式的关键。我个人在使用时,最常用到的一些,也觉得最实用的,大致可以总结如下:

有道智云AI开放平台
有道智云AI开放平台

有道智云AI开放平台

下载

元字符(特殊字符):

  • ^
    :匹配字符串的开始。比如
    ^abc
    会匹配“abcde”,但不会匹配“xabc”。
  • $
    :匹配字符串的结束。比如
    abc$
    会匹配“xabc”,但不会匹配“abcde”。
  • .
    :匹配除换行符以外的任何单个字符。这是个万金油,但用的时候要小心,因为它太“贪婪”了。
  • *
    :匹配前一个字符零次或多次。比如
    a*
    会匹配空字符串、"a"、"aa"、"aaa"等。
  • +
    :匹配前一个字符一次或多次。比如
    a+
    会匹配"a"、"aa"、"aaa"等,但不会匹配空字符串。
  • ?
    :匹配前一个字符零次或一次。比如
    colou?r
    会匹配“color”和“colour”。
  • [abc]
    :字符集,匹配方括号内的任意一个字符。比如
    [aeiou]
    匹配任何一个小写元音字母。
  • [a-z]
    :范围字符集,匹配指定范围内的任意一个字符。比如
    [0-9]
    匹配任何一个数字。
  • [^abc]
    :否定字符集,匹配除方括号内字符以外的任何一个字符。比如
    [^0-9]
    匹配任何非数字字符。
  • |
    :或操作符,匹配
    |
    两边的任意一个表达式。比如
    cat|dog
    匹配“cat”或“dog”。
  • \
    :转义字符。当你想匹配一个元字符本身时,比如
    .
    *
    ?
    等,就需要用
    \
    进行转义。
    \.
    匹配字面上的点。

量词(表示重复次数):

  • {n}
    :匹配前一个字符恰好
    n
    次。比如
    a{3}
    匹配“aaa”。
  • {n,}
    :匹配前一个字符至少
    n
    次。比如
    a{2,}
    匹配“aa”、“aaa”等。
  • {n,m}
    :匹配前一个字符至少
    n
    次,但不超过
    m
    次。比如
    a{1,3}
    匹配“a”、“aa”、“aaa”。

我经常会用

[0-9]{3}-[0-9]{4}
来匹配电话号码中的一部分,或者用
[A-Z]{2}\d{4}
来验证某个产品编号格式。这些组合起来,就能构建出非常精细的匹配规则。但也要注意,正则表达式写得太复杂,有时会影响性能,或者变得难以阅读和维护。所以,在追求精确匹配的同时,也要权衡可读性和效率。

在MySQL中使用REGEXP时,有哪些常见的陷阱或性能考量?

嗯,

REGEXP
虽然强大,但用起来也不是没有坑的。我个人在实践中遇到过一些问题,也总结了一些经验,觉得有必要跟大家分享一下。

1. 性能问题: 这是最常见也最让人头疼的问题。

REGEXP
操作符通常不会使用索引,这意味着每次查询都可能需要全表扫描。如果你的表数据量很大,并且你在一个非索引字段上频繁使用
REGEXP
,那查询速度会慢得让人抓狂。

  • 我的建议: 尽量避免在大型表的非索引字段上直接使用
    REGEXP
    。如果可能,先用
    LIKE
    做粗略筛选,缩小数据集,再对结果集使用
    REGEXP
    进行精细匹配。或者,考虑在数据导入时就进行预处理,将需要
    REGEXP
    匹配的特征提取出来,存储到单独的字段中,并对该字段建立索引。比如,如果你经常需要匹配某个地址中是否包含“某区”,可以增加一个
    has_district_x
    的布尔字段。
  • 另一个场景: 我曾经尝试用
    REGEXP
    来验证输入数据的合法性,结果发现验证过程拖慢了整个批处理。后来我把正则验证逻辑移到了应用程序层面,只在数据库中存储已经验证过的数据,性能立刻就上来了。数据库更擅长数据的存储和检索,复杂的文本处理逻辑有时放在应用层更合适。

2. 默认行为的理解:

  • 大小写不敏感: 前面提过,MySQL的
    REGEXP
    默认是大小写不敏感的。这在很多情况下是好事,但如果你需要精确匹配大小写,一定要记得用
    REGEXP BINARY
    。我以前就因为忘了加
    BINARY
    ,导致匹配结果比预期多了一大堆,排查了好久才发现是这个原因。
  • 换行符匹配: 默认情况下,
    .
    不匹配换行符。如果你需要匹配包含换行符的整个字符串,这可能会有点麻烦。MySQL的
    REGEXP
    不像一些其他正则引擎那样提供
    s
    (dotall)模式修饰符。你可能需要通过
    [\\s\\S]
    (匹配所有空白和非空白字符,也就是所有字符)这样的方式来模拟。

3. 正则表达式的复杂性与可读性: 写得越复杂的正则表达式,就越难理解和维护。有时候,一个看起来很“聪明”的正则,可能只有你自己能看懂,或者过一段时间连你自己都忘了它是干嘛的。

  • 我的心得: 尽量保持正则表达式的简洁性。如果一个模式变得异常复杂,考虑是否可以拆分成多个简单的
    REGEXP
    条件,或者通过其他SQL函数(如
    SUBSTRING
    INSTR
    )与
    REGEXP
    结合使用。注释你的正则表达式,或者在文档中详细说明其意图,这对于团队协作和长期维护至关重要。

4. 转义字符的坑: 很多特殊字符在正则表达式中都有其含义,比如

.
*
+
?
(
)
[
]
{
}
\
^
$
。如果你想匹配这些字符本身,就必须用
\
进行转义。我一开始就经常忘记转义点号,导致匹配结果天差地别。记住,当你不确定一个字符是否有特殊含义时,保守的做法是先转义。

这些都是我个人在实际使用

REGEXP
时的一些切身体会。掌握这些,能让你在享受
REGEXP
带来的便利时,少走很多弯路。

如何结合其他SQL函数优化REGEXP查询?

嗯,光靠

REGEXP
单打独斗,在某些复杂场景下确实会显得力不从心,或者效率不高。我发现,真正能发挥
REGEXP
最大效用的,往往是把它和其他SQL函数结合起来用。这就像是给你的工具箱里多添了几件趁手的工具,让你的工作流程更加灵活。

1.

SUBSTRING
LEFT
/
RIGHT
结合
REGEXP
有时候我们并不需要对整个字段进行正则匹配,而只是想匹配字段的某个特定部分。比如,我们有一个长文本字段,只想检查它开头的几个字符是否符合某个模式。这时候,先用
SUBSTRING
截取一部分,再对这部分进行
REGEXP
匹配,效率会高很多。

-- 假设我们只想检查一个非常长的描述字段的前100个字符是否包含某个敏感词模式
SELECT id, description FROM articles
WHERE SUBSTRING(description, 1, 100) REGEXP '敏感词模式';

这样数据库就不用把整个

description
字段都送去正则引擎处理了,只处理前面一小段,尤其在
description
字段很长时,效果立竿见影。

2.

LENGTH
CHAR_LENGTH
结合
REGEXP
在某些情况下,我们可能需要根据字符串的长度来辅助判断。例如,我们想找出所有长度在5到10之间,并且包含数字的字符串。

SELECT code FROM products
WHERE CHAR_LENGTH(code) BETWEEN 5 AND 10 AND code REGEXP '[0-9]';

这里,

CHAR_LENGTH
可以帮助我们快速筛选掉不符合长度要求的记录,减少
REGEXP
的执行次数。

3.

INSTR
LOCATE
结合
REGEXP
如果你的目标是查找某个子字符串是否存在,并且

相关专题

更多
数据分析工具有哪些
数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍:1、Excel,具有强大的计算和数据处理功能;2、SQL,可以进行数据查询、过滤、排序、聚合等操作;3、Python,拥有丰富的数据分析库;4、R,拥有丰富的统计分析库和图形库;5、Tableau,提供了直观易用的用户界面等等。

675

2023.10.12

SQL中distinct的用法
SQL中distinct的用法

SQL中distinct的语法是“SELECT DISTINCT column1, column2,...,FROM table_name;”。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

319

2023.10.27

SQL中months_between使用方法
SQL中months_between使用方法

在SQL中,MONTHS_BETWEEN 是一个常见的函数,用于计算两个日期之间的月份差。想了解更多SQL的相关内容,可以阅读本专题下面的文章。

345

2024.02.23

SQL出现5120错误解决方法
SQL出现5120错误解决方法

SQL Server错误5120是由于没有足够的权限来访问或操作指定的数据库或文件引起的。想了解更多sql错误的相关内容,可以阅读本专题下面的文章。

1084

2024.03.06

sql procedure语法错误解决方法
sql procedure语法错误解决方法

sql procedure语法错误解决办法:1、仔细检查错误消息;2、检查语法规则;3、检查括号和引号;4、检查变量和参数;5、检查关键字和函数;6、逐步调试;7、参考文档和示例。想了解更多语法错误的相关内容,可以阅读本专题下面的文章。

356

2024.03.06

oracle数据库运行sql方法
oracle数据库运行sql方法

运行sql步骤包括:打开sql plus工具并连接到数据库。在提示符下输入sql语句。按enter键运行该语句。查看结果,错误消息或退出sql plus。想了解更多oracle数据库的相关内容,可以阅读本专题下面的文章。

674

2024.04.07

sql中where的含义
sql中where的含义

sql中where子句用于从表中过滤数据,它基于指定条件选择特定的行。想了解更多where的相关内容,可以阅读本专题下面的文章。

566

2024.04.29

sql中删除表的语句是什么
sql中删除表的语句是什么

sql中用于删除表的语句是drop table。语法为drop table table_name;该语句将永久删除指定表的表和数据。想了解更多sql的相关内容,可以阅读本专题下面的文章。

409

2024.04.29

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

7

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Node.js 教程
Node.js 教程

共57课时 | 7.7万人学习

CSS3 教程
CSS3 教程

共18课时 | 4.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号