PHP代码怎么使用正则_ PHP正则表达式匹配与替换指南

星夢妙者
发布: 2025-09-20 23:12:02
原创
1003人浏览过

php代码怎么使用正则_ php正则表达式匹配与替换指南

谈到PHP里处理字符串的模式匹配和替换,我们几乎绕不开正则表达式。它就像一把瑞士军刀,核心功能就那么几个:匹配(

preg_match()
登录后复制
preg_match_all()
登录后复制
)和替换(
preg_replace()
登录后复制
),它们是处理文本数据、验证输入、提取信息的利器。

解决方案

在PHP中,正则表达式的核心操作主要围绕着几个

preg_
登录后复制
系列函数展开。最常用的无疑是
preg_match()
登录后复制
用于查找单个匹配,
preg_match_all()
登录后复制
用于查找所有匹配,以及
preg_replace()
登录后复制
用于执行替换操作。理解它们的参数和返回值,是高效利用正则表达式的关键。

一个典型的正则操作,总是包含一个“模式”(pattern)和一个“主题”(subject)。模式就是我们定义的正则表达式,用斜杠

/
登录后复制
包裹起来,例如
/hello/
登录后复制
。主题则是我们要操作的字符串。

匹配操作:

preg_match()
登录后复制
preg_match_all()
登录后复制

立即学习PHP免费学习笔记(深入)”;

preg_match($pattern, $subject, &$matches, $flags, $offset)
登录后复制

  • $pattern
    登录后复制
    : 正则表达式模式,通常以
    /
    登录后复制
    开头和结尾,中间是实际的模式。例如
    '/^PHP/'
    登录后复制
  • $subject
    登录后复制
    : 要搜索的字符串。
  • &$matches
    登录后复制
    : 可选参数,如果提供,它将是一个数组,包含所有匹配到的内容。
    $matches[0]
    登录后复制
    是完整匹配的字符串,
    $matches[1]
    登录后复制
    是第一个捕获组的内容,以此类推。
  • $flags
    登录后复制
    : 可选参数,例如
    PREG_OFFSET_CAPTURE
    登录后复制
    可以让匹配结果包含偏移量。
  • $offset
    登录后复制
    : 可选参数,从字符串的哪个位置开始搜索。

preg_match()
登录后复制
只会找到第一个匹配项。如果需要找到所有匹配项,那就得用
preg_match_all()
登录后复制
。它的参数类似,但
$matches
登录后复制
会是一个二维数组,结构上有所不同,它会把所有完整匹配项放在一个子数组,所有第一个捕获组的匹配项放在另一个子数组。

<?php
$text = "PHP is a popular general-purpose scripting language. It's often used for web development.";
$pattern = '/(PHP|web) development/i'; // 匹配 "PHP development" 或 "web development",不区分大小写

// 使用 preg_match 查找第一个匹配
if (preg_match($pattern, $text, $firstMatch)) {
    echo "找到第一个匹配项:
";
    print_r($firstMatch);
    /*
    输出可能类似:
    Array
    (
        [0] => PHP development
        [1] => PHP
    )
    */
} else {
    echo "未找到匹配项。
";
}

echo "---------------------
";

// 使用 preg_match_all 查找所有匹配
if (preg_match_all($pattern, $text, $allMatches)) {
    echo "找到所有匹配项:
";
    print_r($allMatches);
    /*
    输出可能类似:
    Array
    (
        [0] => Array
            (
                [0] => PHP development
                [1] => web development
            )

        [1] => Array
            (
                [0] => PHP
                [1] => web
            )

    )
    */
} else {
    echo "未找到匹配项。
";
}
?>
登录后复制

替换操作:

preg_replace()
登录后复制

preg_replace($pattern, $replacement, $subject, $limit, &$count)
登录后复制

  • $pattern
    登录后复制
    : 正则表达式模式,也可以是一个模式数组。
  • $replacement
    登录后复制
    : 替换的字符串,也可以是一个替换字符串数组。如果模式中有捕获组,可以使用
    $1
    登录后复制
    ,
    $2
    登录后复制
    等引用它们。
  • $subject
    登录后复制
    : 要进行替换的字符串,也可以是一个字符串数组。
  • $limit
    登录后复制
    : 可选参数,限制替换的最大次数。默认是-1,表示不限制。
  • &$count
    登录后复制
    : 可选参数,如果提供,它将存储实际进行了多少次替换。

preg_replace()
登录后复制
在替换时,默认就是全局的,会替换所有符合模式的匹配项。

<?php
$textToClean = "My email is user@example.com and another is info@domain.org.";
$emailPattern = '/(w+)@([w.]+)/'; // 匹配邮箱
$replacement = 'masked@***.com'; // 简单替换所有邮箱

$cleanedText = preg_replace($emailPattern, $replacement, $textToClean);
echo "替换所有邮箱: " . $cleanedText . "
";
// 输出: 替换所有邮箱: My email is masked@***.com and another is masked@***.com.

// 替换时使用捕获组
$textWithDates = "Today is 2023-10-26. Yesterday was 2023-10-25.";
// 将 YYYY-MM-DD 格式改为 DD/MM/YYYY
$datePattern = '/(d{4})-(d{2})-(d{2})/';
$dateReplacement = '$3/$2/$1'; // $1是年份,$2是月份,$3是日期

$formattedText = preg_replace($datePattern, $dateReplacement, $textWithDates);
echo "格式化日期: " . $formattedText . "
";
// 输出: 格式化日期: Today is 26/10/2023. Yesterday was 25/10/2023.
?>
登录后复制

PHP正则表达式中,有哪些常用的元字符和量词?

掌握正则表达式,首先要对它的“词汇表”——元字符和量词——了如指掌。在我看来,这就像学习一门新语言的语法和词汇,没有它们,你根本无法表达复杂的匹配逻辑。

常用的元字符:

  • .
    登录后复制
    (点号):匹配除换行符以外的任何单个字符。这是最宽泛的匹配。
  • ^
    登录后复制
    (脱字符):匹配字符串的开始。如果设置了
    m
    登录后复制
    (多行)修饰符,则匹配每一行的开始。
  • $
    登录后复制
    (美元符):匹配字符串的结束。如果设置了
    m
    登录后复制
    修饰符,则匹配每一行的结束。
  • d
    登录后复制
    :匹配任何数字字符(
    [0-9]
    登录后复制
    )。
  • d
    登录后复制
    :匹配任何非数字字符(
    [^0-9]
    登录后复制
    )。
  • w
    登录后复制
    :匹配任何单词字符(字母、数字或下划线
    [a-zA-Z0-9_]
    登录后复制
    )。
  • w
    登录后复制
    :匹配任何非单词字符(
    [^a-zA-Z0-9_]
    登录后复制
    )。
  • s
    登录后复制
    :匹配任何空白字符(空格、制表符、换行符等)。
  • s
    登录后复制
    :匹配任何非空白字符。
  • []
    登录后复制
    (方括号):匹配方括号中列出的任何一个字符。例如
    [abc]
    登录后复制
    匹配 'a'、'b' 或 'c'。
    • [a-z]
      登录后复制
      :匹配小写字母范围。
    • [a-z]
      登录后复制
      :匹配大写字母范围。
    • [0-9]
      登录后复制
      :匹配数字范围。
    • [^...]
      登录后复制
      :匹配不在方括号中列出的任何字符。例如
      [^aeiou]
      登录后复制
      匹配任何非元音字母。
  • |
    登录后复制
    (管道符):逻辑或操作符,匹配
    |
    登录后复制
    左边或右边的表达式。例如
    cat|dog
    登录后复制
    匹配 "cat" 或 "dog"。
  • ()
    登录后复制
    (圆括号):
    • 分组:将多个字符或表达式组合成一个逻辑单元。
    • 捕获:捕获匹配到的内容,以便后续引用(如
      $1
      登录后复制
      ,
      $2
      登录后复制
      )。
    • 改变优先级:像数学中的括号一样,改变操作符的优先级。
  • 登录后复制
    (反斜杠):转义字符。用于匹配元字符本身。例如
    .
    登录后复制
    匹配点号字符,
    \
    登录后复制
    匹配反斜杠。

常用的量词:

量词决定了它前面的表达式可以出现多少次。

  • *
    登录后复制
    (星号):匹配前面的表达式零次或多次。例如
    a*
    登录后复制
    匹配 "" (空字符串)、"a"、"aa" 等。
  • +
    登录后复制
    (加号):匹配前面的表达式一次或多次。例如
    a+
    登录后复制
    匹配 "a"、"aa" 等,但不匹配空字符串。
  • ?
    登录后复制
    (问号):匹配前面的表达式零次或一次。例如
    colou?r
    登录后复制
    匹配 "color" 或 "colour"。
  • {n}
    登录后复制
    :匹配前面的表达式恰好
    n
    登录后复制
    次。例如
    d{3}
    登录后复制
    匹配恰好三位数字。
  • {n,}
    登录后复制
    :匹配前面的表达式至少
    n
    登录后复制
    次。例如
    d{3,}
    登录后复制
    匹配至少三位数字。
  • {n,m}
    登录后复制
    :匹配前面的表达式至少
    n
    登录后复制
    次,但不超过
    m
    登录后复制
    次。例如
    d{3,5}
    登录后复制
    匹配三到五位数字。

理解这些基本元素,是构建任何复杂正则表达式的基础。一开始可能会觉得有些混乱,但多加练习,你会发现它们其实非常有规律。

PHP中如何处理正则表达式的全局匹配与非贪婪模式?

在PHP的正则表达式处理中,全局匹配和非贪婪模式是两个非常实用的概念,尤其是在处理复杂文本时,它们能让你更精确地控制匹配行为。我记得刚开始用正则时,就因为对这些概念理解不深,写出的模式总是匹配不到我想要的部分,或者匹配得太多。

全局匹配

对于

preg_match()
登录后复制
,它默认只查找第一个匹配项。如果你想找到字符串中所有符合模式的匹配项,你需要使用
preg_match_all()
登录后复制
函数。
preg_match_all()
登录后复制
会遍历整个
$subject
登录后复制
字符串,找出所有不重叠的匹配。

一键职达
一键职达

AI全自动批量代投简历软件,自动浏览招聘网站从海量职位中用AI匹配职位并完成投递的全自动操作,真正实现'一键职达'的便捷体验。

一键职达79
查看详情 一键职达

preg_replace()
登录后复制
函数在替换时,默认就是全局的。它会找到所有符合
$pattern
登录后复制
的匹配项,并用
$replacement
登录后复制
进行替换。如果你只想替换第一次出现的匹配,可以通过
$limit
登录后复制
参数来控制。

<?php
$sentence = "apple banana apple orange apple";
$pattern = '/apple/';

// preg_match_all 用于全局匹配
preg_match_all($pattern, $sentence, $matches);
echo "所有 'apple' 匹配:
";
print_r($matches[0]); // 输出: Array ( [0] => apple [1] => apple [2] => apple )

echo "---------------------
";

// preg_replace 默认全局替换
$replacedAll = preg_replace($pattern, 'fruit', $sentence);
echo "全局替换结果: " . $replacedAll . "
"; // 输出: fruit banana fruit orange fruit

echo "---------------------
";

// preg_replace 限制替换次数
$replacedOnce = preg_replace($pattern, 'fruit', $sentence, 1);
echo "替换一次结果: " . $replacedOnce . "
"; // 输出: fruit banana apple orange apple
?>
登录后复制

非贪婪模式 (Non-greedy Mode)

这是另一个非常重要的概念。正则表达式中的量词(

*
登录后复制
,
+
登录后复制
,
?
登录后复制
,
{n,}
登录后复制
,
{n,m}
登录后复制
)默认是“贪婪的”(greedy)。这意味着它们会尽可能多地匹配字符,直到无法继续匹配为止。

例如,模式

/<.*>/
登录后复制
尝试匹配HTML标签。如果你有一个字符串
"<b>Hello</b><i>World</i>"
登录后复制
,贪婪模式会从第一个
<b>
登录后复制
一直匹配到最后一个
</i>
登录后复制
,而不是
<b>Hello</b>
登录后复制

要让量词变为非贪婪模式,只需要在量词后面加上一个

?
登录后复制
。例如,
*?
登录后复制
,
+?
登录后复制
,
??
登录后复制
,
{n,}?
登录后复制
,
{n,m}?
登录后复制
。这样,它们就会尽可能少地匹配字符,只要能满足整个模式的匹配即可。

<?php
$htmlString = "This is <b>bold text</b> and <i>italic text</i>.";

// 贪婪模式:会匹配从第一个 < 到最后一个 >
$greedyPattern = '/<.*>/';
preg_match($greedyPattern, $htmlString, $greedyMatch);
echo "贪婪匹配结果: " . ($greedyMatch[0] ?? '无匹配') . "
";
// 输出: 贪婪匹配结果: <b>bold text</b> and <i>italic text</i>.

echo "---------------------
";

// 非贪婪模式:会匹配最短的 <...> 结构
$nonGreedyPattern = '/<.*?>/';
preg_match_all($nonGreedyPattern, $htmlString, $nonGreedyMatches);
echo "非贪婪匹配结果:
";
print_r($nonGreedyMatches[0]);
/*
输出:
Array
(
    [0] => <b>
    [1] => </b>
    [2] => <i>
    [3] => </i>
)
*/
?>
登录后复制

非贪婪模式在解析结构化文本(如HTML、XML、JSON片段)时尤其有用,因为它能帮助你精确地提取出每个独立的块,而不是一个大块。

PHP正则表达式使用时,有哪些常见的性能陷阱和安全考量?

正则表达式虽然强大,但它不是万能药,使用不当会带来性能问题甚至安全隐患。在我多年的开发经验里,我见过不少因为正则写得不够严谨,导致服务器资源耗尽,或者程序行为异常的情况。

性能陷阱:灾难性回溯 (Catastrophic Backtracking)

这是正则表达式最常见的性能杀手之一。当正则表达式中包含嵌套的量词,并且这些量词可以匹配相同的内容时,就可能发生灾难性回溯。引擎在尝试匹配失败后,会不断地“回溯”到之前的匹配点,尝试所有可能的路径,直到找到匹配或穷尽所有可能性。在某些情况下,这会导致匹配时间呈指数级增长。

一个经典的例子是匹配重复模式的模式,例如

(a+)+
登录后复制
尝试匹配
aaaaa
登录后复制
。如果输入是
aaaaaaaaaaaaX
登录后复制
(很多a后面跟一个不匹配的字符),引擎会尝试各种组合的
a+
登录后复制
,直到最终失败,这个过程会非常耗时。

避免灾难性回溯的关键在于:

  1. 避免重复的量词:尤其是在可以匹配相同字符的子表达式上。比如
    (a*)*
    登录后复制
    (a|b|c)+
    登录后复制
    这样的模式。
  2. 使用原子组 (Atomic Grouping):通过
    (?>...)
    登录后复制
    语法创建原子组。原子组一旦匹配成功,就不会再回溯。这可以防止引擎在组内进行不必要的回溯。
  3. 使用占有量词 (Possessive Quantifiers):在量词后加上
    +
    登录后复制
    ,例如
    a*+
    登录后复制
    ,
    a++
    登录后复制
    ,
    a?+
    登录后复制
    ,
    a{n,}++
    登录后复制
    。占有量词和原子组类似,它们一旦匹配成功,就不会回溯。
  4. 精确匹配:尽可能具体地定义你的模式,减少模糊匹配。
<?php
// 灾难性回溯的例子:匹配一个由任意数量的"a"组成的字符串,后面跟着一个"b"
// 模式:(a+)+b
// 输入:aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaac (很多a,最后是c,导致b不匹配)
// 这个模式会尝试所有可能的a+组合,导致性能急剧下降
// $patternBad = '/(a+)+b/'; // 极度危险,不要在生产环境使用这种模式测试

// 改进方案1:使用更简洁的模式
$patternGood1 = '/a+b/'; // 简单直接,避免了嵌套量词

// 改进方案2:使用占有量词
$patternGood2 = '/(?>a+)b/'; // 或者 '/a++b/'
// 这会告诉正则引擎,一旦a+匹配成功,就不要再回溯a+内部的匹配了

$testString = str_repeat('a', 30) . 'c'; // 构造一个可能导致回溯的字符串

// 这里不实际运行$patternBad,因为它可能会导致脚本超时
// if (preg_match($patternBad, $testString)) { ... }

$startTime = microtime(true);
if (preg_match($patternGood1, $testString)) {
    // 应该不会匹配到
}
$endTime = microtime(true);
echo "简单模式耗时: " . (($endTime - $startTime) * 1000) . " ms
";

$startTime = microtime(true);
if (preg_match($patternGood2, $testString)) {
    // 应该不会匹配到
}
$endTime = microtime(true);
echo "占有量词模式耗时: " . (($endTime - $startTime) * 1000) . " ms
";
?>
登录后复制

你会发现,即使是几十个

a
登录后复制
/(a+)+b/
登录后复制
这样的模式也可能让PHP执行几秒甚至几十秒。而改进后的模式几乎是瞬间完成的。

安全考量:正则表达式拒绝服务 (ReDoS) 攻击

ReDoS是一种特定类型的拒绝服务攻击,攻击者通过构造恶意的输入字符串,利用正则表达式的灾难性回溯特性,使得正则表达式引擎在处理这些输入时耗尽CPU资源,导致服务器响应缓慢或崩溃。

防范ReDoS攻击,除了避免上述的灾难性回溯模式外,还有:

  1. 输入验证和限制:在将用户输入传递给正则表达式之前,先进行长度限制和初步的字符集验证。
  2. 使用
    preg_quote()
    登录后复制
    :如果你需要将用户提供的字符串作为正则表达式的一部分进行匹配(例如,在搜索功能中),务必使用
    preg_quote()
    登录后复制
    函数来转义所有正则表达式的特殊字符。这可以防止用户注入恶意的正则表达式片段。
<?php
$userInput = ".*"; // 用户输入一个可能具有破坏性的字符串
$textToSearch = "some_text_here";

// 错误做法:直接将用户输入拼接到模式中
// $patternBad = '/^' . $userInput . '$/';
// preg_match($patternBad, $textToSearch); // 如果userInput是恶意构造的,可能导致ReDoS

// 正确做法:使用 preg_quote 转义用户输入
$safeUserInput = preg_quote($userInput, '/
登录后复制

以上就是PHP代码怎么使用正则_ PHP正则表达式匹配与替换指南的详细内容,更多请关注php中文网其它相关文章!

PHP速学教程(入门到精通)
PHP速学教程(入门到精通)

PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习
PHP中文网抖音号
发现有趣的

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号