PHP怎么过滤正则表达式_PHP正则表达式安全使用指南

爱谁谁

发布时间：2025-09-22 08:48:01

476人浏览过

来源于php中文网

原创

答案：PHP中过滤正则表达式的核心是防止恶意模式导致ReDoS或代码执行。需用preg_quote转义用户字符串，验证模式语法，限制回溯与递归深度，避免e修饰符，优先使用preg_replace_callback，并结合UTF-8和分隔符等最佳实践确保安全。

php怎么过滤正则表达式_php正则表达式安全使用指南

当我们在PHP中谈论“过滤正则表达式”时，我们最核心的目的是防止恶意或构造不当的正则表达式对我们的应用造成安全威胁或性能问题。这通常意味着我们不能直接信任和执行来自用户或其他不可信源的正则表达式模式。关键在于：对所有外部输入的正则表达式模式进行严格的验证和限制，并且在将用户数据作为普通字符串嵌入到正则表达式中时，必须进行适当的转义。

在PHP中，安全使用正则表达式，尤其是涉及用户输入时，是一个需要深思熟虑的问题。我个人觉得，很多人在开发中可能会下意识地直接把用户输入拼接到正则表达式里，或者允许用户自定义复杂的匹配规则，这其实埋下了很大的隐患。

解决方案

要安全地处理PHP中的正则表达式，尤其是当它们可能受到外部输入影响时，我们需要采取多方面的策略。首先，最直接也最容易被忽视的一点是：如果你只是想在正则表达式中匹配一个用户提供的字面字符串，而不是让用户定义一个完整的正则表达式模式，那么一定要使用

preg_quote()

函数。这个函数会转义所有可能被解释为正则表达式特殊字符的字符，例如

、

等，确保你的用户输入被当作普通文本来处理。

$userInput = "我喜欢.NET 和 PHP!";
$pattern = '/^这是我喜欢的内容：' . preg_quote($userInput, '/') . '$/';

if (preg_match($pattern, "这是我喜欢的内容：我喜欢.NET 和 PHP!")) {
    echo "匹配成功，用户输入被安全地当作字面量处理了。\n";
} else {
    echo "匹配失败。\n";
}

// 错误示范：没有使用 preg_quote
// $dangerousPattern = '/^这是我喜欢的内容：' . $userInput . '$/';
// 这会把 .NET 里的 . 当作任意字符，而不是字面上的点。

其次，如果你确实需要允许用户提供正则表达式模式本身（比如在一个搜索功能中），那么挑战就大得多了。你不能简单地信任它。你需要一套严谨的验证机制。这不仅仅是检查语法是否正确（

preg_match

如果模式无效会返回

false

，并且

preg_last_error()

会给出错误码），更重要的是要防止正则表达式拒绝服务攻击 (ReDoS)。恶意构造的正则表达式，比如

/(a+)+s/

，在匹配特定字符串时可能会导致指数级的回溯，耗尽服务器资源。要缓解ReDoS，你可以：

立即学习“PHP免费学习笔记（深入）”；

限制模式复杂度： 尝试分析用户提供的正则表达式，拒绝那些包含过多嵌套量词、不必要的回溯组或复杂前瞻/后瞻的模式。这没有一个银弹，可能需要自定义的解析逻辑，或者使用一些库来评估模式的“危险性”。
设置执行时间限制： 在执行
```
preg_match
```
等函数之前，可以利用PHP的
```
set_time_limit()
```
函数，或者更细粒度地，调整
```
php.ini
```
中的
```
pcre.backtrack_limit
```
和
```
pcre.recursion_limit
```
。这些设置可以防止单个正则表达式操作占用过多的CPU时间或内存。如果匹配操作超过这些限制，PHP会抛出警告或错误。

// 假设用户输入了一个潜在的ReDoS模式
$userPattern = '/(a+)+s/'; // 这是一个经典的ReDoS例子
$testString = str_repeat('a', 20) . 'b'; // 构造一个触发回溯的字符串

// 尝试设置一个较短的执行时间限制
set_time_limit(1); // 允许脚本执行1秒

// 也可以在php.ini中设置 pcre.backtrack_limit 和 pcre.recursion_limit
// 或者在运行时通过 ini_set() 设置，但通常不推荐在每次请求中频繁修改
// ini_set('pcre.backtrack_limit', 100000); // 限制回溯步数

$startTime = microtime(true);
if (@preg_match($userPattern, $testString)) { // 使用 @ 抑制潜在的警告
    echo "匹配成功，但可能耗时很长。\n";
} else {
    $error = preg_last_error();
    if ($error === PREG_BACKTRACK_LIMIT_ERROR || $error === PREG_RECURSION_LIMIT_ERROR) {
        echo "正则表达式匹配因回溯/递归限制而失败，可能是一个ReDoS尝试。\n";
    } else if ($error === PREG_BAD_UTF8_OFFSET_ERROR || $error === PREG_INTERNAL_ERROR) {
        echo "正则表达式模式无效或存在内部错误。\n";
    } else {
        echo "匹配失败或发生其他错误。\n";
    }
}
$endTime = microtime(true);
echo "操作耗时：" . ($endTime - $startTime) . "秒\n";

在我看来，最好的做法是尽量避免让用户直接提供正则表达式。如果业务需求确实如此，那么上述的限制和验证是必不可少的，并且要做好充分的错误处理和日志记录。

为什么用户输入的正则表达式会带来安全风险？

用户输入的正则表达式，如果未经严格处理，就像给了一个陌生人一把万能钥匙，他不仅可能打开你家门，甚至可能把你的家搞得一团糟。这背后的风险主要有几个层面：

拒绝服务攻击 (ReDoS)：这是最直接也最常见的威胁。某些正则表达式模式，在匹配特定输入字符串时，会导致正则表达式引擎进行指数级或多项式级的回溯。例如，
```
/(a|aa)+b/
```
匹配
```
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaac
```
这样的字符串时，引擎会尝试无数种匹配
```
a
```
和
```
aa
```
的组合，直到耗尽CPU资源，导致服务器响应缓慢甚至崩溃。攻击者可以利用这一点，通过发送少量恶意请求就使你的服务瘫痪。我曾经见过一个案例，一个简单的搜索功能因为允许用户输入未经验证的正则表达式，导致服务器CPU直接飙到100%，整个应用都卡死了。
数据泄露或绕过安全控制：一个精心构造的正则表达式可能会绕过你预设的输入验证规则。比如，你可能期望某个字段只包含字母数字，但如果攻击者能注入一个正则表达式，它可能会匹配到一些不应该被匹配到的敏感数据，或者绕过某些过滤规则，从而导致SQL注入、XSS等更深层次的漏洞。
意外行为和逻辑错误：即使不是恶意的，用户提供的正则表达式也可能因为语法错误、语义不清或者与你的应用逻辑不符，导致程序产生意料之外的行为。比如，一个开发者可能期望某个模式只匹配URL，但用户提供了一个过于宽泛的模式，结果匹配到了不相关的文本，导致业务逻辑出错。
性能下降：即使没有达到ReDoS的程度，一个效率低下的正则表达式模式也可能显著增加CPU负担，尤其是在处理大量数据时。这虽然不是直接的安全漏洞，但会严重影响用户体验和系统稳定性。

总而言之，用户输入的正则表达式就像一把双刃剑，它提供了极大的灵活性，但也带来了巨大的风险。我们必须像对待其他任何用户输入一样，对其进行最严格的“沙盒化”处理。

在PHP中，如何安全地处理用户提供的正则表达式模式？

当业务逻辑确实要求用户能够自定义正则表达式模式时，我们不能简单地一刀切地禁止，而是要采取一系列防御措施，确保模式的安全性和可靠性。这比仅仅使用

preg_quote()

要复杂得多，因为它涉及到对模式本身的分析和限制。

语法验证：这是第一步，也是最基础的。在PHP中，我们可以通过尝试执行

preg_match()

函数，并结合

preg_last_error()

来检查正则表达式的语法是否有效。如果模式无效，

preg_match()

会返回

false

，并且

preg_last_error()

会返回一个非零的错误码（例如

PREG_BAD_UTF8_ERROR

或

PREG_INTERNAL_ERROR

）。

function isValidRegexPattern(string $pattern): bool {
    // 尝试一个简单的匹配，但不关心结果
    @preg_match($pattern, '');
    $error = preg_last_error();
    // 检查是否是语法错误或者PCRE内部错误
    if ($error === PREG_NO_ERROR) {
        return true;
    } else {
        // 记录错误或向用户提示
        error_log("Invalid regex pattern: " . $pattern . " Error code: " . $error);
        return false;
    }
}

$userPattern1 = '/^(\d+)?$/'; // 有效
$userPattern2 = '/[a-';     // 无效语法
$userPattern3 = '/(?P.*)/'; // 有效，命名捕获组

echo "Pattern 1 valid: " . (isValidRegexPattern($userPattern1) ? 'Yes' : 'No') . "\n";
echo "Pattern 2 valid: " . (isValidRegexPattern($userPattern2) ? 'Yes' : 'No') . "\n";
echo "Pattern 3 valid: " . (isValidRegexPattern($userPattern3) ? 'Yes' : 'No') . "\n";

仅仅验证语法是不够的，因为一个语法正确的模式也可能是恶意的。

限制PCRE资源：前面提到了
```
pcre.backtrack_limit
```
和
```
pcre.recursion_limit
```
。这些是PHP配置项，可以限制PCRE引擎在匹配过程中允许的最大回溯步数和最大递归深度。将它们设置到一个合理的值，可以有效防止ReDoS攻击。如果一个匹配操作超过这些限制，它会提前终止并报错，从而保护服务器资源。你可以在
```
php.ini
```
中全局设置，也可以在脚本运行时通过
```
ini_set()
```
临时设置（尽管后者不总是推荐，因为它会影响当前脚本的所有PCRE操作）。

虎课网
虎课网是超过1800万用户信赖的自学平台，拥有海量设计、绘画、摄影、办公软件、职业技能等优质的高清教程视频，用户可以根据行业和兴趣爱好，自主选择学习内容，每天免费学习一个...

下载
```
// 在脚本开始时设置，或者在需要严格限制的地方
ini_set('pcre.backtrack_limit', 100000); // 默认通常是1000000
ini_set('pcre.recursion_limit', 50000);  // 默认通常是500000
```
这些值需要根据你的服务器性能和预期负载进行测试和调整。设置得太低可能会导致合法的复杂匹配失败，设置得太高则失去了保护作用。
模式复杂度分析（高级）：这是最难但也最有效的一步。你可以尝试编写一个简单的解析器，或者利用现有的PCRE解析库（如果PHP生态中有的话）来分析用户提供的正则表达式的结构。你可以：
- 禁止或限制某些复杂特性：例如，过多的嵌套量词（如
```
(a+)+
```
  ）、lookarounds（前瞻/后瞻）、条件表达式等。这些特性虽然强大，但也更容易被滥用。
- 限制模式长度：一个过长的模式本身就可能暗示着复杂性或恶意意图。
- 检查重复的捕获组或非捕获组：虽然不总是危险，但过度嵌套的组可能会增加回溯的风险。
这部分没有通用的代码示例，因为它高度依赖于你对“复杂”或“危险”的定义。通常，如果你的应用需要用户提供非常复杂的正则表达式，你可能需要重新考虑设计，或者只允许预定义的、经过严格测试的模式，而不是完全自由的输入。

在我看来，如果你不能完全信任用户，那么提供一个受限的正则表达式“DSL”（领域特定语言），或者提供一个图形化的构建器，让用户通过组合预设的、安全的组件来构建模式，可能是一个更稳妥的选择。这既能满足用户对灵活性的需求，又能将风险控制在你可接受的范围内。

除了过滤，还有哪些PHP正则表达式的最佳实践可以提升安全性？

除了对用户输入的正则表达式进行严格的过滤和验证，我们在日常使用PHP正则表达式时，还有一些通用的最佳实践可以提升代码的健壮性和安全性，避免潜在的陷阱。

始终使用

preg_last_error()

进行错误检查：

preg_match()

、

preg_replace()

等函数在失败时可能返回

false

，但这不代表没有发生错误。使用

preg_last_error()

可以获取PCRE引擎的最后错误代码，帮助你理解为什么操作失败，例如是因为模式无效、回溯限制、递归限制还是其他内部错误。这对于调试和生产环境中的错误日志记录至关重要。

$pattern = '/(a+)+b/';
$subject = str_repeat('a', 50) . 'b';
ini_set('pcre.backtrack_limit', 100); // 故意设置一个很低的值

if (preg_match($pattern, $subject) === false) {
    $error = preg_last_error();
    switch ($error) {
        case PREG_BACKTRACK_LIMIT_ERROR:
            echo "错误：回溯限制超出。\n";
            break;
        case PREG_RECURSION_LIMIT_ERROR:
            echo "错误：递归限制超出。\n";
            break;
        // ... 处理其他错误类型
        default:
            echo "正则表达式操作发生未知错误 (代码: $error)。\n";
    }
} else {
    echo "匹配成功。\n";
}

避免使用
```
e
```
（
PREG_REPLACE_EVAL
）修饰符：这个修饰符允许替换字符串被当作PHP代码来执行。这是一个巨大的安全漏洞，因为它等同于允许在你的服务器上执行任意代码，尤其当替换字符串中包含用户输入时。PHP 7.0.0 之后，
```
e
```
修饰符已经被废弃，并且在 PHP 7.0.0+ 版本中，
```
preg_replace()
```
函数如果检测到
```
e
```
修饰符，会抛出
```
E_DEPRECATED
```
警告，并返回
```
NULL
```
。如果你需要动态地处理匹配到的内容，应该使用
```
preg_replace_callback()
```
，它接受一个回调函数来处理匹配项，这安全得多。
```
// 危险且已废弃的用法
// $input = 'Hello world';
// $output = preg_replace('/(world)/e', 'strtoupper("\\1")', $input);

// 安全的替代方案
$input = 'Hello world';
$output = preg_replace_callback('/(world)/', function ($matches) {
    return strtoupper($matches[1]);
}, $input);
echo $output . "\n"; // 输出: Hello WORLD
```
明确指定正则表达式分隔符：虽然斜杠
```
/
```
是最常用的分隔符，但你可以使用任何非字母数字、非反斜杠的字符作为分隔符。如果你需要在模式中匹配分隔符本身，记得转义它，或者选择一个模式中不包含的分隔符。例如，如果你的模式中包含很多斜杠，使用
```
#
```
作为分隔符会更清晰，避免大量反斜杠转义。
```
$url = "http://example.com/path/to/resource";
// 使用 # 作为分隔符，避免转义内部的 /
if (preg_match('#^https?://([a-z0-9.-]+)(/.*)?$#i', $url, $matches)) {
    echo "匹配成功，域名是: " . $matches[1] . "\n";
}
```

注意UTF-8编码问题：如果你的字符串是UTF-8编码，并且你的正则表达式需要处理多字节字符（例如中文、特殊符号），你必须在正则表达式模式的末尾加上

修饰符（

PCRE_UTF8

）。否则，PCRE引擎可能会将多字节字符当作多个单字节字符处理，导致匹配错误或意外行为。

$text = "你好世界";
// 没有 'u' 修饰符，可能无法正确匹配多字节字符
if (preg_match('/^.字/', $text)) {
    echo "匹配成功 (无u)\n"; // 可能会失败或行为异常，取决于PCRE版本和配置
}
// 使用 'u' 修饰符，确保正确处理UTF-8
if (preg_match('/^.字/u', $text)) {
    echo "匹配成功 (有u)\n"; // 正确匹配
}

性能考虑：避免不必要的回溯和贪婪匹配：正则表达式的性能是一个复杂的话题。尽量使用非贪婪量词（例如
```
*?
```
、
```
+?
```
）来代替贪婪量词（
```
*
```
、
```
+
```
），尤其是在匹配长字符串时，可以减少不必要的回溯。同时，避免使用过于宽泛的通配符（如
```
.*
```
）在长字符串中，如果可以，尽量具体化你的匹配模式。
```
$longString = "a_very_long_string_with_many_underscores_and_then_a_target_word";
// 贪婪匹配，可能会回溯很多
// preg_match('/_.*_target/', $longString);
// 非贪婪匹配，更高效
preg_match('/_.*?_target/', $longString);
```