PHP代码怎么使用正则_ PHP正则表达式匹配与替换指南-php教程-PHP中文网

php代码怎么使用正则_ php正则表达式匹配与替换指南

谈到PHP里处理字符串的模式匹配和替换，我们几乎绕不开正则表达式。它就像一把瑞士军刀，核心功能就那么几个：匹配（

preg_match()

登录后复制

或

preg_match_all()

登录后复制

）和替换（

preg_replace()

登录后复制

），它们是处理文本数据、验证输入、提取信息的利器。

解决方案

在PHP中，正则表达式的核心操作主要围绕着几个

preg_

登录后复制

系列函数展开。最常用的无疑是

preg_match()

登录后复制

用于查找单个匹配，

preg_match_all()

登录后复制

用于查找所有匹配，以及

preg_replace()

登录后复制

用于执行替换操作。理解它们的参数和返回值，是高效利用正则表达式的关键。

一个典型的正则操作，总是包含一个“模式”（pattern）和一个“主题”（subject）。模式就是我们定义的正则表达式，用斜杠

登录后复制

包裹起来，例如

/hello/

登录后复制

。主题则是我们要操作的字符串。

匹配操作：

preg_match()

登录后复制

和
preg_match_all()
登录后复制

立即学习“PHP免费学习笔记（深入）”；

preg_match($pattern, $subject, &$matches, $flags, $offset)

登录后复制

```
$pattern
```
登录后复制
: 正则表达式模式，通常以
```
/
```
登录后复制
开头和结尾，中间是实际的模式。例如
```
'/^PHP/'
```
登录后复制
。
```
$subject
```
登录后复制
: 要搜索的字符串。
```
&$matches
```
登录后复制
: 可选参数，如果提供，它将是一个数组，包含所有匹配到的内容。
```
$matches[0]
```
登录后复制
是完整匹配的字符串，
```
$matches[1]
```
登录后复制
是第一个捕获组的内容，以此类推。
```
$flags
```
登录后复制
: 可选参数，例如
```
PREG_OFFSET_CAPTURE
```
登录后复制
可以让匹配结果包含偏移量。
```
$offset
```
登录后复制
: 可选参数，从字符串的哪个位置开始搜索。

preg_match()

登录后复制

只会找到第一个匹配项。如果需要找到所有匹配项，那就得用

preg_match_all()

登录后复制

。它的参数类似，但

$matches

登录后复制

会是一个二维数组，结构上有所不同，它会把所有完整匹配项放在一个子数组，所有第一个捕获组的匹配项放在另一个子数组。

<?php
$text = "PHP is a popular general-purpose scripting language. It's often used for web development.";
$pattern = '/(PHP|web) development/i'; // 匹配 "PHP development" 或 "web development"，不区分大小写

// 使用 preg_match 查找第一个匹配
if (preg_match($pattern, $text, $firstMatch)) {
    echo "找到第一个匹配项：
";
    print_r($firstMatch);
    /*
    输出可能类似：
    Array
    (
        [0] => PHP development
        [1] => PHP
    )
    */
} else {
    echo "未找到匹配项。
";
}

echo "---------------------
";

// 使用 preg_match_all 查找所有匹配
if (preg_match_all($pattern, $text, $allMatches)) {
    echo "找到所有匹配项：
";
    print_r($allMatches);
    /*
    输出可能类似：
    Array
    (
        [0] => Array
            (
                [0] => PHP development
                [1] => web development
            )

        [1] => Array
            (
                [0] => PHP
                [1] => web
            )

    )
    */
} else {
    echo "未找到匹配项。
";
}
?>

登录后复制

替换操作：

preg_replace()

登录后复制

preg_replace($pattern, $replacement, $subject, $limit, &$count)

登录后复制

```
$pattern
```
登录后复制
: 正则表达式模式，也可以是一个模式数组。
```
$replacement
```
登录后复制
: 替换的字符串，也可以是一个替换字符串数组。如果模式中有捕获组，可以使用
```
$1
```
登录后复制
,
```
$2
```
登录后复制
等引用它们。
```
$subject
```
登录后复制
: 要进行替换的字符串，也可以是一个字符串数组。
```
$limit
```
登录后复制
: 可选参数，限制替换的最大次数。默认是-1，表示不限制。
```
&$count
```
登录后复制
: 可选参数，如果提供，它将存储实际进行了多少次替换。

preg_replace()

登录后复制

在替换时，默认就是全局的，会替换所有符合模式的匹配项。

<?php
$textToClean = "My email is user@example.com and another is info@domain.org.";
$emailPattern = '/(w+)@([w.]+)/'; // 匹配邮箱
$replacement = 'masked@***.com'; // 简单替换所有邮箱

$cleanedText = preg_replace($emailPattern, $replacement, $textToClean);
echo "替换所有邮箱： " . $cleanedText . "
";
// 输出: 替换所有邮箱： My email is masked@***.com and another is masked@***.com.

// 替换时使用捕获组
$textWithDates = "Today is 2023-10-26. Yesterday was 2023-10-25.";
// 将 YYYY-MM-DD 格式改为 DD/MM/YYYY
$datePattern = '/(d{4})-(d{2})-(d{2})/';
$dateReplacement = '$3/$2/$1'; // $1是年份，$2是月份，$3是日期

$formattedText = preg_replace($datePattern, $dateReplacement, $textWithDates);
echo "格式化日期： " . $formattedText . "
";
// 输出: 格式化日期： Today is 26/10/2023. Yesterday was 25/10/2023.
?>

登录后复制

PHP正则表达式中，有哪些常用的元字符和量词？

掌握正则表达式，首先要对它的“词汇表”——元字符和量词——了如指掌。在我看来，这就像学习一门新语言的语法和词汇，没有它们，你根本无法表达复杂的匹配逻辑。

常用的元字符：

```
.
```
登录后复制
(点号)：匹配除换行符以外的任何单个字符。这是最宽泛的匹配。
```
^
```
登录后复制
(脱字符)：匹配字符串的开始。如果设置了
```
m
```
登录后复制
（多行）修饰符，则匹配每一行的开始。
```
$
```
登录后复制
(美元符)：匹配字符串的结束。如果设置了
```
m
```
登录后复制
修饰符，则匹配每一行的结束。
```
d
```
登录后复制
：匹配任何数字字符（
```
[0-9]
```
登录后复制
）。
```
d
```
登录后复制
：匹配任何非数字字符（
```
[^0-9]
```
登录后复制
）。
```
w
```
登录后复制
：匹配任何单词字符（字母、数字或下划线
```
[a-zA-Z0-9_]
```
登录后复制
）。
```
w
```
登录后复制
：匹配任何非单词字符（
```
[^a-zA-Z0-9_]
```
登录后复制
）。
```
s
```
登录后复制
：匹配任何空白字符（空格、制表符、换行符等）。
```
s
```
登录后复制
：匹配任何非空白字符。
```
[]
```
登录后复制
(方括号)：匹配方括号中列出的任何一个字符。例如
```
[abc]
```
登录后复制
匹配 'a'、'b' 或 'c'。
- ```
[a-z]
```
  登录后复制
  ：匹配小写字母范围。
- ```
[a-z]
```
  登录后复制
  ：匹配大写字母范围。
- ```
[0-9]
```
  登录后复制
  ：匹配数字范围。
- ```
[^...]
```
  登录后复制
  ：匹配不在方括号中列出的任何字符。例如
```
[^aeiou]
```
  登录后复制
  匹配任何非元音字母。
```
|
```
登录后复制
(管道符)：逻辑或操作符，匹配
```
|
```
登录后复制
左边或右边的表达式。例如
```
cat|dog
```
登录后复制
匹配 "cat" 或 "dog"。
```
()
```
登录后复制
(圆括号)：
- 分组：将多个字符或表达式组合成一个逻辑单元。
- 捕获：捕获匹配到的内容，以便后续引用（如
```
$1
```
  登录后复制
  ,
```
$2
```
  登录后复制
  ）。
- 改变优先级：像数学中的括号一样，改变操作符的优先级。
登录后复制
(反斜杠)：转义字符。用于匹配元字符本身。例如
```
.
```
登录后复制
匹配点号字符，
```
\
```
登录后复制
匹配反斜杠。

常用的量词：

量词决定了它前面的表达式可以出现多少次。

```
*
```
登录后复制
(星号)：匹配前面的表达式零次或多次。例如
```
a*
```
登录后复制
匹配 "" (空字符串)、"a"、"aa" 等。
```
+
```
登录后复制
(加号)：匹配前面的表达式一次或多次。例如
```
a+
```
登录后复制
匹配 "a"、"aa" 等，但不匹配空字符串。
```
?
```
登录后复制
(问号)：匹配前面的表达式零次或一次。例如
```
colou?r
```
登录后复制
匹配 "color" 或 "colour"。
```
{n}
```
登录后复制
：匹配前面的表达式恰好
```
n
```
登录后复制
次。例如
```
d{3}
```
登录后复制
匹配恰好三位数字。
```
{n,}
```
登录后复制
：匹配前面的表达式至少
```
n
```
登录后复制
次。例如
```
d{3,}
```
登录后复制
匹配至少三位数字。
```
{n,m}
```
登录后复制
：匹配前面的表达式至少
```
n
```
登录后复制
次，但不超过
```
m
```
登录后复制
次。例如
```
d{3,5}
```
登录后复制
匹配三到五位数字。

理解这些基本元素，是构建任何复杂正则表达式的基础。一开始可能会觉得有些混乱，但多加练习，你会发现它们其实非常有规律。

PHP中如何处理正则表达式的全局匹配与非贪婪模式？

在PHP的正则表达式处理中，全局匹配和非贪婪模式是两个非常实用的概念，尤其是在处理复杂文本时，它们能让你更精确地控制匹配行为。我记得刚开始用正则时，就因为对这些概念理解不深，写出的模式总是匹配不到我想要的部分，或者匹配得太多。

全局匹配

AI发型设计

虚拟发型试穿工具和发型模拟器

247

查看详情

对于

preg_match()

登录后复制

，它默认只查找第一个匹配项。如果你想找到字符串中所有符合模式的匹配项，你需要使用

preg_match_all()

登录后复制

函数。

preg_match_all()

登录后复制

会遍历整个

$subject

登录后复制

字符串，找出所有不重叠的匹配。

而

preg_replace()

登录后复制

函数在替换时，默认就是全局的。它会找到所有符合

$pattern

登录后复制

的匹配项，并用

$replacement

登录后复制

进行替换。如果你只想替换第一次出现的匹配，可以通过

$limit

登录后复制

参数来控制。

<?php
$sentence = "apple banana apple orange apple";
$pattern = '/apple/';

// preg_match_all 用于全局匹配
preg_match_all($pattern, $sentence, $matches);
echo "所有 'apple' 匹配:
";
print_r($matches[0]); // 输出: Array ( [0] => apple [1] => apple [2] => apple )

echo "---------------------
";

// preg_replace 默认全局替换
$replacedAll = preg_replace($pattern, 'fruit', $sentence);
echo "全局替换结果: " . $replacedAll . "
"; // 输出: fruit banana fruit orange fruit

echo "---------------------
";

// preg_replace 限制替换次数
$replacedOnce = preg_replace($pattern, 'fruit', $sentence, 1);
echo "替换一次结果: " . $replacedOnce . "
"; // 输出: fruit banana apple orange apple
?>

登录后复制

非贪婪模式 (Non-greedy Mode)

这是另一个非常重要的概念。正则表达式中的量词（

登录后复制

{n,}

登录后复制

{n,m}

登录后复制

）默认是“贪婪的”（greedy）。这意味着它们会尽可能多地匹配字符，直到无法继续匹配为止。

例如，模式

/<.*>/

登录后复制

尝试匹配HTML标签。如果你有一个字符串

"<b>Hello</b><i>World</i>"

登录后复制

，贪婪模式会从第一个

<b>

登录后复制

一直匹配到最后一个

</i>

登录后复制

，而不是

<b>Hello

登录后复制

。

要让量词变为非贪婪模式，只需要在量词后面加上一个

登录后复制

。例如，

*?

登录后复制

+?

登录后复制

??

登录后复制

{n,}?

登录后复制

{n,m}?

登录后复制

。这样，它们就会尽可能少地匹配字符，只要能满足整个模式的匹配即可。

 and italic text</i>.";

// 贪婪模式：会匹配从第一个 < 到最后一个 >
$greedyPattern = '/<.*>/';
preg_match($greedyPattern, $htmlString, $greedyMatch);
echo "贪婪匹配结果: " . ($greedyMatch[0] ?? '无匹配') . "
";
// 输出: 贪婪匹配结果: <b>bold text and italic text</i>.

echo "---------------------
";

// 非贪婪模式：会匹配最短的 <...> 结构
$nonGreedyPattern = '/<.*?>/';
preg_match_all($nonGreedyPattern, $htmlString, $nonGreedyMatches);
echo "非贪婪匹配结果:
";
print_r($nonGreedyMatches[0]);
/*
输出:
Array
(
    [0] => <b>
    [1] => 
    [2] => 
    [3] => </i>
)
*/
?>

登录后复制

非贪婪模式在解析结构化文本（如HTML、XML、JSON片段）时尤其有用，因为它能帮助你精确地提取出每个独立的块，而不是一个大块。

PHP正则表达式使用时，有哪些常见的性能陷阱和安全考量？

正则表达式虽然强大，但它不是万能药，使用不当会带来性能问题甚至安全隐患。在我多年的开发经验里，我见过不少因为正则写得不够严谨，导致服务器资源耗尽，或者程序行为异常的情况。

性能陷阱：灾难性回溯 (Catastrophic Backtracking)

这是正则表达式最常见的性能杀手之一。当正则表达式中包含嵌套的量词，并且这些量词可以匹配相同的内容时，就可能发生灾难性回溯。引擎在尝试匹配失败后，会不断地“回溯”到之前的匹配点，尝试所有可能的路径，直到找到匹配或穷尽所有可能性。在某些情况下，这会导致匹配时间呈指数级增长。

一个经典的例子是匹配重复模式的模式，例如
(a+)+
登录后复制
尝试匹配
aaaaa
登录后复制
。如果输入是
aaaaaaaaaaaaX
登录后复制
(很多a后面跟一个不匹配的字符)，引擎会尝试各种组合的
a+
登录后复制
，直到最终失败，这个过程会非常耗时。

避免灾难性回溯的关键在于：

避免重复的量词：尤其是在可以匹配相同字符的子表达式上。比如
(a*)*
登录后复制
或
(a|b|c)+
登录后复制
这样的模式。

使用原子组 (Atomic Grouping)：通过
(?>...)
登录后复制
语法创建原子组。原子组一旦匹配成功，就不会再回溯。这可以防止引擎在组内进行不必要的回溯。

使用占有量词 (Possessive Quantifiers)：在量词后加上
+
登录后复制
，例如
a*+
登录后复制
,
a++
登录后复制
,
a?+
登录后复制
,
a{n,}++
登录后复制
。占有量词和原子组类似，它们一旦匹配成功，就不会回溯。

精确匹配：尽可能具体地定义你的模式，减少模糊匹配。

<?php // 灾难性回溯的例子：匹配一个由任意数量的"a"组成的字符串，后面跟着一个"b" // 模式：(a+)+b // 输入：aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaac （很多a，最后是c，导致b不匹配） // 这个模式会尝试所有可能的a+组合，导致性能急剧下降 // $patternBad = '/(a+)+b/'; // 极度危险，不要在生产环境使用这种模式测试 // 改进方案1：使用更简洁的模式 $patternGood1 = '/a+b/'; // 简单直接，避免了嵌套量词 // 改进方案2：使用占有量词 $patternGood2 = '/(?>a+)b/'; // 或者 '/a++b/' // 这会告诉正则引擎，一旦a+匹配成功，就不要再回溯a+内部的匹配了 $testString = str_repeat('a', 30) . 'c'; // 构造一个可能导致回溯的字符串 // 这里不实际运行$patternBad，因为它可能会导致脚本超时 // if (preg_match($patternBad, $testString)) { ... } $startTime = microtime(true); if (preg_match($patternGood1, $testString)) { // 应该不会匹配到 } $endTime = microtime(true); echo "简单模式耗时: " . (($endTime - $startTime) * 1000) . " ms "; $startTime = microtime(true); if (preg_match($patternGood2, $testString)) { // 应该不会匹配到 } $endTime = microtime(true); echo "占有量词模式耗时: " . (($endTime - $startTime) * 1000) . " ms "; ?>
登录后复制
你会发现，即使是几十个
a
登录后复制
，
/(a+)+b/
登录后复制
这样的模式也可能让PHP执行几秒甚至几十秒。而改进后的模式几乎是瞬间完成的。

安全考量：正则表达式拒绝服务 (ReDoS) 攻击

ReDoS是一种特定类型的拒绝服务攻击，攻击者通过构造恶意的输入字符串，利用正则表达式的灾难性回溯特性，使得正则表达式引擎在处理这些输入时耗尽CPU资源，导致服务器响应缓慢或崩溃。

防范ReDoS攻击，除了避免上述的灾难性回溯模式外，还有：

输入验证和限制：在将用户输入传递给正则表达式之前，先进行长度限制和初步的字符集验证。

使用
preg_quote()
登录后复制
：如果你需要将用户提供的字符串作为正则表达式的一部分进行匹配（例如，在搜索功能中），务必使用
preg_quote()
登录后复制
函数来转义所有正则表达式的特殊字符。这可以防止用户注入恶意的正则表达式片段。

<?php $userInput = ".*"; // 用户输入一个可能具有破坏性的字符串 $textToSearch = "some_text_here"; // 错误做法：直接将用户输入拼接到模式中 // $patternBad = '/^' . $userInput . '$/'; // preg_match($patternBad, $textToSearch); // 如果userInput是恶意构造的，可能导致ReDoS // 正确做法：使用 preg_quote 转义用户输入 $safeUserInput = preg_quote($userInput, '/
登录后复制
以上就是PHP代码怎么使用正则_ PHP正则表达式匹配与替换指南的详细内容，更多请关注php中文网其它相关文章！

相关标签：
php html js json go 正则表达式 app ai apple 邮箱 php正则表达式 php json 正则表达式 html count xml 字符串

大家都在看：

php怎么对称加密解密_用PHP内置函数实现对称加密解密实战教程【技巧】 php用数组创建微信菜单_php微信菜单数组格式教程【解析】 php声明一个数组步骤_php数组定义基本语法详解【解析】 php源码怎么对接短信_php源码对接短信接口与配置法【技巧】 PHP数据过滤与验证流程_PHP处理表单安全的方式