正则匹配的贪婪原则-php教程-PHP中文网

正则匹配的贪婪原则

php中文网

发布： 2016-06-06 20:19:39

原创

1920人浏览过

问题：写了一个正则匹配，为什么每次只匹配一个中文，我写的是+，按照贪婪原则应该尽可能多的匹配。

// $str 是个抓取到的html ，根据规则获取中文
$str = '<html>...<span class="employment item" title="匹配中文字符">匹配中文字符</span>...<html>';
preg_match('/<span.+class=\"?employment.+\"?.+([\x{4e00}-\x{9fa5}]+).+\">/u', $str, $match);

var_dump($match[1]);

// 想要结果：匹配中文字符
// 输出结果: 字

登录后复制

求大神指点

MimicPC

一个AI驱动的浏览器运行工具，可以通过浏览器在线安装及运行各种开源的AI应用程序

145

查看详情

大神指点迷津之后：
做了修改，如下即可，尽可能的让前面的贪婪到固定的结束为止。 done

// $str 是个抓取到的html ，根据规则获取中文
$str = '<html>...<span class="employment item" title="匹配中文字符">匹配中文字符</span>...<html>';
preg_match('/<span.+class=\"?employment.+\"?.+\"([\x{4e00}-\x{9fa5}]+)\">/u', $str, $match);

var_dump($match[1]);

// 想要结果：匹配中文字符
// 输出结果: 匹配中文字符

登录后复制

回复内容：

问题：写了一个正则匹配，为什么每次只匹配一个中文，我写的是+，按照贪婪原则应该尽可能多的匹配。

// $str 是个抓取到的html ，根据规则获取中文
$str = '<html>...<span class="employment item" title="匹配中文字符">匹配中文字符</span>...<html>';
preg_match('/<span.+class=\"?employment.+\"?.+([\x{4e00}-\x{9fa5}]+).+\">/u', $str, $match);

var_dump($match[1]);

// 想要结果：匹配中文字符
// 输出结果: 字

登录后复制

求大神指点

大神指点迷津之后：
做了修改，如下即可，尽可能的让前面的贪婪到固定的结束为止。 done

// $str 是个抓取到的html ，根据规则获取中文
$str = '<html>...<span class="employment item" title="匹配中文字符">匹配中文字符</span>...<html>';
preg_match('/<span.+class=\"?employment.+\"?.+\"([\x{4e00}-\x{9fa5}]+)\">/u', $str, $match);

var_dump($match[1]);

// 想要结果：匹配中文字符
// 输出结果: 匹配中文字符

登录后复制

因为前面的.+先贪婪了，它贪完了才轮到你想要的匹配组。而且后面还有个.+，所以你的匹配组还要给它留一个字。
结果就是前面贪婪匹配了一堆，后面匹配最后一个汉字。留给你的匹配组的就是倒数第二个汉字了。