
在内容管理系统或模板引擎中,我们经常需要解析自定义的标签,例如将{%github user/repo %}这样的标记转换为标准的html链接zuojiankuohaophpcna href="https://github.com/user/repo">repo</a>。然而,在实现这一功能时,如果正则表达式构造不当,可能会导致安全漏洞或不准确的解析结果。
一个常见的错误是使用过于宽泛的正则表达式,例如利用.*?(非贪婪匹配)来捕获标签内容。考虑以下代码片段:
function parseliquid($string)
{
$regexp = '/\{%github (.*?)%\}/'; // 这里的(.*?)是问题所在
preg_match($regexp, $string, $matches);
return $matches;
}
var_dump(parseliquid("## Hello {%github isn't/safe {%github repo/user %} %}"));当输入字符串为## Hello {%github isn't/safe {%github repo/user %} %}时,我们期望提取的是repo/user,但实际输出却是:
array(2) {
[0]=> string(41) "{%github isn't/safe {%github repo/user %}"
[1]=> string(30) "isn't/safe {%github repo/user "
}问题在于.*?虽然是非贪婪的,但它会匹配从第一个{%github到第一个%}之间的所有字符。在存在嵌套或多个相似模式时,它无法智能地识别出我们真正想要捕获的特定格式内容。更重要的是,.*?允许匹配任何字符,这可能导致注入不安全的内容,从而带来潜在的安全风险。
为了解决上述问题,我们需要一个更精确的正则表达式,它不仅能正确捕获目标内容,还能通过模式匹配对内容进行初步的格式验证,从而提高安全性。
立即学习“PHP免费学习笔记(深入)”;
以下是一个推荐的解决方案,它使用preg_match_all函数和更严格的正则表达式:
<?php
/**
* 从字符串中提取所有GitHub仓库名称并转换为完整的GitHub URL。
*
* @param string $value 包含自定义GitHub标签的输入字符串。
* @return array 包含GitHub URL的数组,如果未找到则返回空数组。
*/
function getRepositoryNames(string $value): array
{
// 定义精确的正则表达式来匹配GitHub仓库格式
// \{\%github\s : 匹配字面量 {%github 和一个空格
// (?<repo>...) : 命名捕获组,名为 'repo'
// [a-z0-9-_]+ : 匹配一个或多个小写字母、数字、连字符或下划线 (用于用户名或仓库名)
// \/ : 匹配字面量斜杠
// [a-z0-9-_]+ : 匹配一个或多个小写字母、数字、连字符或下划线 (用于仓库名)
// \s+\} : 匹配一个或多个空格和字面量 %}
\preg_match_all('/\{\%github\s(?<repo>[a-z0-9-_]+\/[a-z0-9-_]+)\s+\}/', $value, $matched);
// 检查是否成功捕获到 'repo' 命名组
if (!isset($matched['repo'])) {
return [];
}
// 使用 array_map 将捕获到的仓库名称转换为完整的GitHub URL
return \array_map(static fn ($item) => 'https://github.com/'.$item, $matched['repo']);
}
// 示例用法
$inputString = '{%github isnt/safe %} {%github repo/user1-test %} This is another tag {%github my-org/my-project %}';
\var_dump(getRepositoryNames($inputString));代码解析:
示例输出:
array(3) {
[0]=> string(28) "https://github.com/isnt/safe"
[1]=> string(34) "https://github.com/repo/user1-test"
[2]=> string(36) "https://github.com/my-org/my-project"
}通过采用这种结合了精确正则表达式和preg_match_all的策略,我们可以构建一个既安全又高效的PHP函数,用于解析和转换自定义的Liquid风格标签。
以上就是使用PHP正则表达式安全解析自定义Liquid风格标签的详细内容,更多请关注php中文网其它相关文章!
PHP怎么学习?PHP怎么入门?PHP在哪学?PHP怎么学才快?不用担心,这里为大家提供了PHP速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号