PHP正则表达式怎么用_PHP正则表达式语法与应用实例

蓮花仙者

发布时间：2025-10-05 22:50:02

995人浏览过

来源于php中文网

原创

PHP正则表达式基于PCRE库，使用preg_match、preg_replace、preg_split等函数实现字符串匹配、替换和分割；其核心语法包括定界符、字符类、量词、锚点、分组捕获及修饰符，需注意贪婪匹配与回溯失控等性能陷阱。

php正则表达式怎么用_php正则表达式语法与应用实例

PHP正则表达式（PCRE）是PHP处理文本的强大工具，它主要通过preg_match、preg_replace、preg_split等一系列函数，结合一个特定的模式字符串（即正则表达式本身）来实现对字符串的查找、匹配、替换或分割。理解其核心语法和函数用法，是有效处理复杂文本数据的关键。

PHP中的正则表达式主要围绕PCRE（Perl Compatible Regular Expressions）库构建，这意味着它的语法和行为与Perl的正则表达式非常相似。要使用它，你首先需要定义一个“模式”字符串，这个字符串包含了你想要匹配的规则。这个模式通常需要用定界符（如/、#或~）包围起来。例如，/pattern/就是一个最简单的正则表达式。

在实际应用中，我们最常用的是preg_match()来检查字符串是否符合某个模式，或者提取匹配到的内容；preg_replace()用于替换字符串中符合模式的部分；而preg_split()则能根据模式将字符串分割成数组。这些函数提供了极大的灵活性，能够处理从简单的格式验证到复杂的文本解析任务。

PHP正则表达式的基本语法是怎样的？

要真正玩转PHP正则表达式，理解其基本语法是第一步。我个人觉得，这就像学习一门微型编程语言，每个符号都有其特定的含义。

立即学习“PHP免费学习笔记（深入）”；

定界符 (Delimiters): 这是正则表达式的“边界”，告诉PHP哪里是模式的开始，哪里是结束。最常用的是正斜杠/，但你也可以用井号#或波浪线~等，只要不和模式内容冲突就行。比如，/hello/会匹配“hello”。
字符类 (Character Classes):
- [abc]：匹配方括号内的任意一个字符。[0-9]等同于\d，匹配任意数字。
- [^abc]：匹配除了方括号内字符之外的任意字符。
- .：匹配除换行符以外的任意字符（除非使用s修饰符）。
- \d：数字 (0-9)。
- \D：非数字。
- \w：字母、数字或下划线 ([a-zA-Z0-9_])。
- \W：非字母、数字或下划线。
- \s：空白字符（空格、制表符、换行符等）。
- \S：非空白字符。
量词 (Quantifiers): 它们决定了前一个字符或分组可以出现多少次。
- *：零次或多次。
- +：一次或多次。
- ?：零次或一次。
- {n}：恰好出现n次。
- {n,}：至少出现n次。
- {n,m}：出现n到m次。
位置锚点 (Anchors): 它们不匹配字符，而是匹配位置。
- ^：匹配字符串的开头（或行的开头，如果使用m修饰符）。
- $：匹配字符串的结尾（或行的结尾，如果使用m修饰符）。
- \b：匹配单词边界。
- \B：匹配非单词边界。
选择 (Alternation):
- |：逻辑或，匹配|符号前或后的表达式。例如，/cat|dog/会匹配“cat”或“dog”。
分组与捕获 (Grouping & Capturing):
- ()：将多个字符组合成一个单元，并捕获匹配到的内容。捕获到的内容可以通过$matches数组或反向引用\1, \2等获取。
- (?:...)：非捕获分组，只分组不捕获，用于优化性能或仅仅为了应用量词。
反向引用 (Backreferences): \1, \2等，引用之前捕获组匹配到的内容。
修饰符 (Modifiers): 放在定界符后面，改变匹配行为。
- i：不区分大小写匹配。
- m：多行模式，^和$会匹配每行的开头和结尾。
- s：单行模式，.会匹配包括换行符在内的所有字符。
- U：非贪婪模式（等同于在量词后加?）。

示例： 假设我们要从一段文本中提取所有形如YYYY-MM-DD的日期。

$text = "今天的日期是2023-10-26，明天的日期是2023-10-27。";
$pattern = '/\d{4}-\d{2}-\d{2}/'; // 匹配四个数字-两个数字-两个数字
preg_match_all($pattern, $text, $matches);
print_r($matches[0]);
// 输出: Array ( [0] => 2023-10-26 [1] => 2023-10-27 )

这个模式\d{4}-\d{2}-\d{2}就结合了字符类\d和量词{n}。

在PHP中，常用的正则表达式函数有哪些，它们分别怎么用？

PHP提供了一套完整的PCRE函数族来满足各种正则表达式需求。我个人觉得，preg_match和preg_replace是日常开发里用得最多的，几乎能解决大部分文本处理需求。

preg_match(string $pattern, string $subject, array &$matches = null, int $flags = 0, int $offset = 0)
- 用途： 执行一个正则表达式匹配。如果找到匹配项，返回1；否则返回0。如果发生错误，返回false。
- $matches： 可选参数，如果提供，它将填充所有匹配结果。$matches[0]是完整匹配的字符串，$matches[1]是第一个捕获组的内容，依此类推。
- 示例： 验证邮箱格式。
```
$email = "test@example.com";
$pattern = '/^[\w\.-]+@([\w-]+\.)+[\w-]{2,4}$/';
if (preg_match($pattern, $email)) {
    echo "$email 是一个有效邮箱地址。\n";
} else {
    echo "$email 不是一个有效邮箱地址。\n";
}
```
preg_match_all(string $pattern, string $subject, array &$matches = null, int $flags = PREG_PATTERN_ORDER, int $offset = 0)
- 用途： 执行全局正则表达式匹配，找到所有匹配项。返回找到的完整匹配次数。
- $matches： 填充所有匹配结果。PREG_PATTERN_ORDER（默认）表示$matches[0]包含所有完整匹配，$matches[1]包含所有第一个捕获组的匹配。PREG_SET_ORDER则会将每个完整匹配及其捕获组作为一个子数组。
- 示例： 从HTML中提取所有标签的href属性。
```
$html = 'Example About Us';
$pattern = '//i'; // 捕获href属性的值
preg_match_all($pattern, $html, $matches);
print_r($matches[1]);
// 输出: Array ( [0] => https://www.example.com [1] => /about )
```

preg_replace(string|array $pattern, string|array $replacement, string|array $subject, int $limit = -1, int &$count = null)

用途： 执行正则表达式搜索和替换。
$replacement： 替换字符串，可以使用反向引用（如$1, \1）来引用捕获组的内容。

示例： 将文本中的所有电话号码（假设格式为XXX-XXX-XXXX）替换为[已屏蔽]。

$text = "我的电话是123-456-7890，他的电话是987-654-3210。";
$pattern = '/\d{3}-\d{3}-\d{4}/';
$newText = preg_replace($pattern, '[已屏蔽]', $text);
echo $newText;
// 输出: 我的电话是[已屏蔽]，他的电话是[已屏蔽]。

示例2： 格式化日期字符串。

$date = "2023-10-26";
$pattern = '/^(\d{4})-(\d{2})-(\d{2})$/';
$formattedDate = preg_replace($pattern, '$3/$2/$1', $date); // 使用捕获组反向引用
echo $formattedDate; // 输出: 26/10/2023

preg_split(string $pattern, string $subject, int $limit = -1, int $flags = 0)

酷表ChatExcel
北大团队开发的通过聊天来操作Excel表格的AI工具

下载

用途： 根据正则表达式将字符串分割成数组。

示例： 根据一个或多个空格、逗号或分号分割字符串。
$text = "apple, orange;banana grape"; $pattern = '/[ ,;]+/'; // 匹配一个或多个空格、逗号或分号 $fruits = preg_split($pattern, $text); print_r($fruits); // 输出: Array ( [0] => apple [1] => orange [2] => banana [3] => grape )

preg_grep(string $pattern, array $input, int $flags = 0)

用途： 返回input数组中所有与pattern匹配的元素。

示例： 过滤文件列表，只保留.txt文件。

$files = ['report.pdf', 'data.txt', 'image.jpg', 'notes.txt'];
$pattern = '/\.txt$/';
$txtFiles = preg_grep($pattern, $files);
print_r($txtFiles);
// 输出: Array ( [1] => data.txt [3] => notes.txt )

使用PHP正则表达式时，有哪些常见的陷阱或性能考量？

正则表达式虽然强大，但并非没有“脾气”。我记得有一次，一个简单的日志解析脚本，因为正则写得太“贪婪”，直接把服务器CPU干爆了，那次教训记忆犹新。理解这些陷阱和性能考量，能让你写出更健壮、更高效的代码。

贪婪与非贪婪匹配 (Greedy vs. Non-Greedy):
- 默认情况下，量词（*, +, ?, {n,m}）是“贪婪”的，它们会尽可能多地匹配字符。
- 例如，模式/<.>/匹配Hello，会匹配整个字符串，因为它会一直匹配到最后一个>。
- 要实现“非贪婪”匹配，只需在量词后面加上?。例如，/<.>/会匹配和，每次只匹配最短的有效部分。
- 陷阱： 在处理HTML/XML等结构化文本时，如果忘记使用非贪婪模式，很容易匹配到比预期更长的内容，导致结果不准确或性能下降。
回溯失控 (Catastrophic Backtracking):
- 这是正则表达式中最常见的性能杀手之一。当模式中包含嵌套的、重复的、可选的量词，并且输入字符串不匹配时，正则表达式引擎可能会尝试无数种组合来回溯，导致指数级的处理时间。
- 典型模式： (a+)+b 或 (ab|a)+c。
- 示例： /(a+)+b/ 匹配 aaaaab 很快，但匹配 aaaaac（不匹配）时，引擎会尝试所有可能的a+组合，导致性能急剧下降。
- 避免方法：
  - 使用原子组 (?>...)： 告诉引擎一旦匹配了这部分，就不要再回溯了。例如，/(?>a+)b/。
  - 重写模式： 简化模式，避免不必要的嵌套量词。很多时候，一个复杂的回溯模式可以通过更简洁、更明确的模式来替代。
  - 优先使用字符串函数： 对于简单的查找或替换，strpos()、substr()、str_replace()等PHP原生字符串函数通常比正则表达式快得多。
字符集优化：
- \. 匹配任意字符，但如果知道要匹配的是数字，用\d会更高效和精确。
- [0-9] 和 \d 功能类似，但在某些PCRE实现中，\d可能包含非ASCII数字（如全角数字），而[0-9]只匹配ASCII数字。根据你的需求选择。
- 使用具体的字符类而不是泛泛的.，能让引擎更快地排除不匹配的字符。
性能考量与调试：
- 预编译： PHP的PCRE函数内部会对正则表达式进行缓存，但对于特别复杂的模式或在性能敏感的循环中，手动将模式编译成PCRE内部表示（虽然PHP没有直接的“编译”函数暴露给用户，但引擎会做优化）并重用，是一个好的习惯。
- 避免不必要的正则： 简单的字符串操作，比如检查一个字符串是否以某个子串开头或结尾，用str_starts_with()或str_ends_with()等函数远比正则表达式高效。
- 错误处理： preg_last_error()函数可以获取最近一次PCRE函数执行的错误代码，这对于调试复杂的正则表达式非常有用。例如，模式语法错误或回溯失控导致匹配失败。
- 复杂模式的测试： 编写复杂的正则表达式时，务必进行充分的测试，包括预期匹配和不匹配的场景，以及边界情况，以确保其正确性和性能。