在PHP使用正規的效率貪婪、非貪婪與回溯詳解（附代碼）-js教程-PHP中文網

這次帶給大家在PHP裡使用正規的效率貪婪、非貪婪與回溯詳解（附程式碼），在PHP裡使用正規的效率貪婪、非貪婪與回溯的注意事項有哪些，下面就是實戰案例，一起來看一下。

先掃盲什麼是正規表示式的貪婪，什麼是非貪婪？或說什麼是匹配優先量詞，什麼是忽略優先量詞？

好吧，我也不知道概念是什麼，來舉例。

某同學想過濾之間的內容，那是這麼寫正規以及程式的。

$str = preg_replace('%<script>.+?</script>%i','',$str);//非贪婪

登入後複製

看起來，好像沒什麼問題，其實不然。若

$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>';

登入後複製

那麼經過上面的程式處理，其結果為

$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 
$str = preg_replace('%<script>.+?</script>%i','',$str);//非贪婪 
print_r($str); 
//$str 输出为 <script>alert(document.cookie)</script>

登入後複製

仍然達不到他想要的效果。上面的就是非貪婪，也有的叫惰性。其標誌非貪婪的標識為量數元字元後面加? ，例如 +?、*?、??(比較特殊，以後的BLOG中，我會寫到)等。即標識非貪婪，如果不寫?就是貪婪。例如

$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 
$str = preg_replace('%<script>.+</script>%i','',$str);//非贪婪 
print_r($str); 
//$str 输出为 登入後複製

以上為貪婪，非貪婪的區別介紹。下面，聊下貪婪、非貪婪引起的回溯問題。先看個小例子。

正規表示式為\w*(\d+)，字串為cfc456n，那麼，這個正規則符合的$1是多少？？

如果您回答是 456,那麼，恭喜你，回答錯了，其結果不是456，而是6，您知道為什麼嗎？

CFC4N來解釋一下，當正則引擎用正則\w*(\d+)去匹配字串cfc456n時，會先用\w*去匹配字串cfc456n，首先，\w*會匹配字符串cfc456n的所有字符，然後再交給\d+去匹配剩下的字符串，而剩下的沒了，這時，\w*規則會不情願的吐出一個字符，給\d+去匹配，同時，在吐出字符之前，記錄一個點，這個點，就是用於回溯的點，然後\d+去匹配n，發現並不能匹配成功，會再次要求\w*再吐出一個字符，\w*會先再次記錄一個回溯的點，再吐出一個字元。這時，\w* 匹配的結果只有cfc45了，已經吐出6n了，\d+再去匹配6，發現匹配成功，則會通知引擎，匹配成功了，就直接顯示出來了。所以，(\d+)的結果是6，而不是456。

當上面的正規表示式改為 \w*?(\d+)（注意，此處為非貪婪），字串仍然為cfc456n，那麼，這時候，正則匹配的$1是多少？？

甲同學回答：結果是 456。

嗯，是的，正確，是456，CFC4N弱弱的問下，為什麼是456 呢？

我在來解釋為什麼是456

正規表示式有條規則，是量詞優先匹配，所以\w*?會先去匹配字串cfc456，由於\w*?是非貪婪，正則引擎會用表達式\w+?每次僅匹配一個字符串,然後再將控制權交給後面的\d+去匹配下一個字符，同時，記錄一個點，用於在匹配不成功的時候，返回這裡，再次匹配，也就是回溯點。由於\w後面是量詞是*，*表示0到無數次，所以，首先是0次，也就是\w*?匹配個空，記錄回溯點，將控制權交給\d+,\d+去匹配cfc456n的第一個字元c,然後，匹配失敗，於是乎，接著講控制權交給\w*?去匹配cfc456n的c，\w*?匹配c成功，由於是非貪婪，所以，他每次只匹配一個字符，記錄回溯點，然後再將控制權交給\d+匹配f,接著，\d+匹配f再失敗，再把控制權給\w*?，\w*?再匹配c,記錄回溯點（這時\w*?匹配結果是cfc了），再把控制權給\d+，\d+去匹配4，匹配成功，然後，由於量詞是+，就是1到無數次，所以，接著往後匹配，再匹配5，成功，再接著，再匹配6，成功，再接著，繼續匹配操作，下一個字符是n，匹配失敗，這時，\d+會吧控制權交出去。由於\d+後面已經沒有正規表示式了，所以，整個正規表示式宣告匹配完成，其結果就是 cfc456, 其中第一組結果是456。親愛的同學，您明白剛剛的題目的結果，為什麼是456了嗎？

好了，您是否從上面的例子了解了貪婪，非貪婪的匹配原理了？那麼您是否明白您在什麼時候需要使用貪婪，非貪婪去處理您的字串了？

鳥哥的文章裡講到針對表達式、程式為

$reg = "/<script>.*?<\/script>/is"; 
$str = "<script>********</script>"; //长度大于100014 
$ret = preg_repalce($reg, "", $str); //返回NULL

登入後複製

原因就是回溯太多了，直到造成耗盡堆疊空間爆棧。

再来看个例子。

字符串

$str = '<script>123456</script>';

登入後複製

正则表达式为

$strRegex1 = '%<script>.+<\/script>%'; 
$strRegex2 = '%<script>.+?<\/script>%'; 
$strRegex3 = '%<script>(?:(?!<\/script>).)+<\/script>%';

登入後複製

相信看了本文案例你已经掌握了方法，更多精彩请关注php中文网其它相关文章！

在PHP使用正規的效率 貪婪、非貪婪與回溯詳解（附代碼）

在PHP使用正規的效率貪婪、非貪婪與回溯詳解（附代碼）