正则匹配的贪婪原则
高洛峰
高洛峰 2016-11-11 11:51:44
0
1
614

问题:写了一个正则匹配,为什么每次只匹配一个中文,我写的是+,按照贪婪原则应该尽可能多的匹配。

// $str 是个抓取到的html ,根据规则获取中文
$str = '<html>...<span class="employment item" title="匹配中文字符">匹配中文字符</span>...<html>';
preg_match('/<span.+class=\"?employment.+\"?.+([\x{4e00}-\x{9fa5}]+).+\">/u', $str, $match);

var_dump($match[1]);

// 想要结果:匹配中文字符
// 输出结果: 字

求大神指点

大神指点迷津之后:做了修改,如下即可,尽可能的让前面的贪婪到固定的结束为止。 done

// $str 是个抓取到的html ,根据规则获取中文
$str = '<html>...<span class="employment item" title="匹配中文字符">匹配中文字符</span>...<html>';
preg_match('/<span.+class=\"?employment.+\"?.+\"([\x{4e00}-\x{9fa5}]+)\">/u', $str, $match);

var_dump($match[1]);

// 想要结果:匹配中文字符
// 输出结果: 匹配中文字符


高洛峰
高洛峰

拥有18年软件开发和IT教学经验。曾任多家上市公司技术总监、架构师、项目经理、高级软件工程师等职务。 网络人气名人讲师,...

reply all(1)
三叔

因为前面的.+先贪婪了,它贪完了才轮到你想要的匹配组。而且后面还有个.+,所以你的匹配组还要给它留一个字。结果就是前面贪婪匹配了一堆,后面匹配最后一个汉字。留给你的匹配组的就是倒数第二个汉字了。

Latest Downloads
More>
Web Effects
Website Source Code
Website Materials
Front End Template