问题:写了一个正则匹配,为什么每次只匹配一个中文,我写的是+,按照贪婪原则应该尽可能多的匹配。
// $str 是个抓取到的html ,根据规则获取中文
$str = '<html>...<span class="employment item" title="匹配中文字符">匹配中文字符</span>...<html>';
preg_match('/<span.+class=\"?employment.+\"?.+([\x{4e00}-\x{9fa5}]+).+\">/u', $str, $match);
var_dump($match[1]);
// 想要结果:匹配中文字符
// 输出结果: 字 求大神指点
大神指点迷津之后:
做了修改,如下即可,尽可能的让前面的贪婪到固定的结束为止。 done
// $str 是个抓取到的html ,根据规则获取中文
$str = '<html>...<span class="employment item" title="匹配中文字符">匹配中文字符</span>...<html>';
preg_match('/<span.+class=\"?employment.+\"?.+\"([\x{4e00}-\x{9fa5}]+)\">/u', $str, $match);
var_dump($match[1]);
// 想要结果:匹配中文字符
// 输出结果: 匹配中文字符 问题:写了一个正则匹配,为什么每次只匹配一个中文,我写的是+,按照贪婪原则应该尽可能多的匹配。
// $str 是个抓取到的html ,根据规则获取中文
$str = '<html>...<span class="employment item" title="匹配中文字符">匹配中文字符</span>...<html>';
preg_match('/<span.+class=\"?employment.+\"?.+([\x{4e00}-\x{9fa5}]+).+\">/u', $str, $match);
var_dump($match[1]);
// 想要结果:匹配中文字符
// 输出结果: 字 求大神指点
大神指点迷津之后:
做了修改,如下即可,尽可能的让前面的贪婪到固定的结束为止。 done
// $str 是个抓取到的html ,根据规则获取中文
$str = '<html>...<span class="employment item" title="匹配中文字符">匹配中文字符</span>...<html>';
preg_match('/<span.+class=\"?employment.+\"?.+\"([\x{4e00}-\x{9fa5}]+)\">/u', $str, $match);
var_dump($match[1]);
// 想要结果:匹配中文字符
// 输出结果: 匹配中文字符
因为前面的.+先贪婪了,它贪完了才轮到你想要的匹配组。而且后面还有个.+,所以你的匹配组还要给它留一个字。
结果就是前面贪婪匹配了一堆,后面匹配最后一个汉字。留给你的匹配组的就是倒数第二个汉字了。
每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。
C++高性能并发应用_C++如何开发性能关键应用
Java AI集成Deep Java Library_Java怎么集成AI模型部署
Golang后端API开发_Golang如何高效开发后端和API
Python异步并发改进_Python异步编程有哪些新改进
C++系统编程内存管理_C++系统编程怎么与Rust竞争内存安全
Java GraalVM原生镜像构建_Java怎么用GraalVM构建高效原生镜像
Python FastAPI异步API开发_Python怎么用FastAPI构建异步API
C++现代C++20/23/26特性_现代C++有哪些新标准特性如modules和coroutines
Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号