
谈到PHP里处理字符串的模式匹配和替换,我们几乎绕不开正则表达式。它就像一把瑞士军刀,核心功能就那么几个:匹配(
preg_match()
preg_match_all()
preg_replace()
在PHP中,正则表达式的核心操作主要围绕着几个
preg_
preg_match()
preg_match_all()
preg_replace()
一个典型的正则操作,总是包含一个“模式”(pattern)和一个“主题”(subject)。模式就是我们定义的正则表达式,用斜杠
/
/hello/
匹配操作:preg_match()
preg_match_all()
立即学习“PHP免费学习笔记(深入)”;
preg_match($pattern, $subject, &$matches, $flags, $offset)
$pattern
/
'/^PHP/'
$subject
&$matches
$matches[0]
$matches[1]
$flags
PREG_OFFSET_CAPTURE
$offset
preg_match()
preg_match_all()
$matches
<?php
$text = "PHP is a popular general-purpose scripting language. It's often used for web development.";
$pattern = '/(PHP|web) development/i'; // 匹配 "PHP development" 或 "web development",不区分大小写
// 使用 preg_match 查找第一个匹配
if (preg_match($pattern, $text, $firstMatch)) {
echo "找到第一个匹配项:
";
print_r($firstMatch);
/*
输出可能类似:
Array
(
[0] => PHP development
[1] => PHP
)
*/
} else {
echo "未找到匹配项。
";
}
echo "---------------------
";
// 使用 preg_match_all 查找所有匹配
if (preg_match_all($pattern, $text, $allMatches)) {
echo "找到所有匹配项:
";
print_r($allMatches);
/*
输出可能类似:
Array
(
[0] => Array
(
[0] => PHP development
[1] => web development
)
[1] => Array
(
[0] => PHP
[1] => web
)
)
*/
} else {
echo "未找到匹配项。
";
}
?>替换操作:preg_replace()
preg_replace($pattern, $replacement, $subject, $limit, &$count)
$pattern
$replacement
$1
$2
$subject
$limit
&$count
preg_replace()
<?php
$textToClean = "My email is user@example.com and another is info@domain.org.";
$emailPattern = '/(w+)@([w.]+)/'; // 匹配邮箱
$replacement = 'masked@***.com'; // 简单替换所有邮箱
$cleanedText = preg_replace($emailPattern, $replacement, $textToClean);
echo "替换所有邮箱: " . $cleanedText . "
";
// 输出: 替换所有邮箱: My email is masked@***.com and another is masked@***.com.
// 替换时使用捕获组
$textWithDates = "Today is 2023-10-26. Yesterday was 2023-10-25.";
// 将 YYYY-MM-DD 格式改为 DD/MM/YYYY
$datePattern = '/(d{4})-(d{2})-(d{2})/';
$dateReplacement = '$3/$2/$1'; // $1是年份,$2是月份,$3是日期
$formattedText = preg_replace($datePattern, $dateReplacement, $textWithDates);
echo "格式化日期: " . $formattedText . "
";
// 输出: 格式化日期: Today is 26/10/2023. Yesterday was 25/10/2023.
?>掌握正则表达式,首先要对它的“词汇表”——元字符和量词——了如指掌。在我看来,这就像学习一门新语言的语法和词汇,没有它们,你根本无法表达复杂的匹配逻辑。
常用的元字符:
.
^
m
$
m
d
[0-9]
d
[^0-9]
w
[a-zA-Z0-9_]
w
[^a-zA-Z0-9_]
s
s
[]
[abc]
[a-z]
[a-z]
[0-9]
[^...]
[^aeiou]
|
|
cat|dog
()
$1
$2
.
\
常用的量词:
量词决定了它前面的表达式可以出现多少次。
*
a*
+
a+
?
colou?r
{n}n
d{3}{n,}n
d{3,}{n,m}n
m
d{3,5}理解这些基本元素,是构建任何复杂正则表达式的基础。一开始可能会觉得有些混乱,但多加练习,你会发现它们其实非常有规律。
在PHP的正则表达式处理中,全局匹配和非贪婪模式是两个非常实用的概念,尤其是在处理复杂文本时,它们能让你更精确地控制匹配行为。我记得刚开始用正则时,就因为对这些概念理解不深,写出的模式总是匹配不到我想要的部分,或者匹配得太多。
全局匹配
对于
preg_match()
preg_match_all()
preg_match_all()
$subject
而
preg_replace()
$pattern
$replacement
$limit
<?php $sentence = "apple banana apple orange apple"; $pattern = '/apple/'; // preg_match_all 用于全局匹配 preg_match_all($pattern, $sentence, $matches); echo "所有 'apple' 匹配: "; print_r($matches[0]); // 输出: Array ( [0] => apple [1] => apple [2] => apple ) echo "--------------------- "; // preg_replace 默认全局替换 $replacedAll = preg_replace($pattern, 'fruit', $sentence); echo "全局替换结果: " . $replacedAll . " "; // 输出: fruit banana fruit orange fruit echo "--------------------- "; // preg_replace 限制替换次数 $replacedOnce = preg_replace($pattern, 'fruit', $sentence, 1); echo "替换一次结果: " . $replacedOnce . " "; // 输出: fruit banana apple orange apple ?>
非贪婪模式 (Non-greedy Mode)
这是另一个非常重要的概念。正则表达式中的量词(
*
+
?
{n,}{n,m}例如,模式
/<.*>/
"<b>Hello</b><i>World</i>"
<b>
</i>
<b>Hello</b>
要让量词变为非贪婪模式,只需要在量词后面加上一个
?
*?
+?
??
{n,}?{n,m}?<?php
$htmlString = "This is <b>bold text</b> and <i>italic text</i>.";
// 贪婪模式:会匹配从第一个 < 到最后一个 >
$greedyPattern = '/<.*>/';
preg_match($greedyPattern, $htmlString, $greedyMatch);
echo "贪婪匹配结果: " . ($greedyMatch[0] ?? '无匹配') . "
";
// 输出: 贪婪匹配结果: <b>bold text</b> and <i>italic text</i>.
echo "---------------------
";
// 非贪婪模式:会匹配最短的 <...> 结构
$nonGreedyPattern = '/<.*?>/';
preg_match_all($nonGreedyPattern, $htmlString, $nonGreedyMatches);
echo "非贪婪匹配结果:
";
print_r($nonGreedyMatches[0]);
/*
输出:
Array
(
[0] => <b>
[1] => </b>
[2] => <i>
[3] => </i>
)
*/
?>非贪婪模式在解析结构化文本(如HTML、XML、JSON片段)时尤其有用,因为它能帮助你精确地提取出每个独立的块,而不是一个大块。
正则表达式虽然强大,但它不是万能药,使用不当会带来性能问题甚至安全隐患。在我多年的开发经验里,我见过不少因为正则写得不够严谨,导致服务器资源耗尽,或者程序行为异常的情况。
性能陷阱:灾难性回溯 (Catastrophic Backtracking)
这是正则表达式最常见的性能杀手之一。当正则表达式中包含嵌套的量词,并且这些量词可以匹配相同的内容时,就可能发生灾难性回溯。引擎在尝试匹配失败后,会不断地“回溯”到之前的匹配点,尝试所有可能的路径,直到找到匹配或穷尽所有可能性。在某些情况下,这会导致匹配时间呈指数级增长。
一个经典的例子是匹配重复模式的模式,例如
(a+)+
aaaaa
aaaaaaaaaaaaX
a+
避免灾难性回溯的关键在于:
(a*)*
(a|b|c)+
(?>...)
+
a*+
a++
a?+
a{n,}++<?php
// 灾难性回溯的例子:匹配一个由任意数量的"a"组成的字符串,后面跟着一个"b"
// 模式:(a+)+b
// 输入:aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaac (很多a,最后是c,导致b不匹配)
// 这个模式会尝试所有可能的a+组合,导致性能急剧下降
// $patternBad = '/(a+)+b/'; // 极度危险,不要在生产环境使用这种模式测试
// 改进方案1:使用更简洁的模式
$patternGood1 = '/a+b/'; // 简单直接,避免了嵌套量词
// 改进方案2:使用占有量词
$patternGood2 = '/(?>a+)b/'; // 或者 '/a++b/'
// 这会告诉正则引擎,一旦a+匹配成功,就不要再回溯a+内部的匹配了
$testString = str_repeat('a', 30) . 'c'; // 构造一个可能导致回溯的字符串
// 这里不实际运行$patternBad,因为它可能会导致脚本超时
// if (preg_match($patternBad, $testString)) { ... }
$startTime = microtime(true);
if (preg_match($patternGood1, $testString)) {
// 应该不会匹配到
}
$endTime = microtime(true);
echo "简单模式耗时: " . (($endTime - $startTime) * 1000) . " ms
";
$startTime = microtime(true);
if (preg_match($patternGood2, $testString)) {
// 应该不会匹配到
}
$endTime = microtime(true);
echo "占有量词模式耗时: " . (($endTime - $startTime) * 1000) . " ms
";
?>你会发现,即使是几十个
a
/(a+)+b/
安全考量:正则表达式拒绝服务 (ReDoS) 攻击
ReDoS是一种特定类型的拒绝服务攻击,攻击者通过构造恶意的输入字符串,利用正则表达式的灾难性回溯特性,使得正则表达式引擎在处理这些输入时耗尽CPU资源,导致服务器响应缓慢或崩溃。
防范ReDoS攻击,除了避免上述的灾难性回溯模式外,还有:
preg_quote()
preg_quote()
<?php $userInput = ".*"; // 用户输入一个可能具有破坏性的字符串 $textToSearch = "some_text_here"; // 错误做法:直接将用户输入拼接到模式中 // $patternBad = '/^' . $userInput . '$/'; // preg_match($patternBad, $textToSearch); // 如果userInput是恶意构造的,可能导致ReDoS // 正确做法:使用 preg_quote 转义用户输入 $safeUserInput = preg_quote($userInput, '/
PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号