首頁 > web前端 > js教程 > 在PHP使用正規的效率 貪婪、非貪婪與回溯詳解(附代碼)

在PHP使用正規的效率 貪婪、非貪婪與回溯詳解(附代碼)

php中世界最好的语言
發布: 2018-03-30 10:51:55
原創
1460 人瀏覽過

這次帶給大家在PHP裡使用正規的效率貪婪、非貪婪與回溯詳解(附程式碼),在PHP裡使用正規的效率貪婪、非貪婪與回溯的注意事項有哪些,下面就是實戰案例,一起來看一下。

先掃盲什麼是正規表示式的貪婪,什麼是非貪婪?或說什麼是匹配優先量詞,什麼是忽略優先量詞?

好吧,我也不知道概念是什麼,來舉例。

某同學想過濾之間的內容,那是這麼寫正規以及程式的。

$str = preg_replace('%<script>.+?</script>%i','',$str);//非贪婪
登入後複製

看起來,好像沒什麼問題,其實不然。若

$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>';
登入後複製

那麼經過上面的程式處理,其結果為

$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 
$str = preg_replace('%<script>.+?</script>%i','',$str);//非贪婪 
print_r($str); 
//$str 输出为 <script>alert(document.cookie)</script>
登入後複製

仍然達不到他想要的效果。上面的就是非貪婪,也有的叫惰性。其標誌非貪婪的標識為量數元字元後面加? ,例如 +?、*?、??(比較特殊,以後的BLOG中,我會寫到)等。即標識非貪婪,如果不寫?就是貪婪。例如

$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 
$str = preg_replace('%<script>.+</script>%i','',$str);//非贪婪 
print_r($str); 
//$str 输出为 
登入後複製

以上為貪婪,非貪婪的區別介紹。下面,聊下貪婪、非貪婪引起的回溯問題。先看個小例子。

正規表示式為\w*(\d+),字串為cfc456n,那麼,這個正規則符合的$1是多少? ?

如果您回答是 456,那麼,恭喜你,回答錯了,其結果不是456,而是6,您知道為什麼嗎?

CFC4N來解釋一下,當正則引擎用正則\w*(\d+)去匹配字串cfc456n時,會先用\w*去匹配字串cfc456n,首先,\w*會匹配字符串cfc456n的所有字符,然後再交給\d+去匹配剩下的字符串,而剩下的沒了,這時,\w*規則會不情願的吐出一個字符,給\d+去匹配,同時,在吐出字符之前,記錄一個點,這個點,就是用於回溯的點,然後\d+去匹配n,發現並不能匹配成功,會再次要求\w*再吐出一個字符,\w*會先再次記錄一個回溯的點,再吐出一個字元。這時,\w* 匹配的結果只有cfc45了,已經吐出6n了,\d+再去匹配6,發現匹配成功,則會通知引擎,匹配成功了,就直接顯示出來了。所以,(\d+)的結果是6,而不是456。

當上面的正規表示式改為 \w*?(\d+)(注意,此處為非貪婪),字串仍然為cfc456n,那麼,這時候,正則匹配的$1是多少? ?

甲同學回答:結果是 456。

嗯,是的,正確,是456,CFC4N弱弱的問下,為什麼是456 呢?

我在來解釋為什麼是456

正規表示式有條規則,是量詞優先匹配,所以\w*?會先去匹配字串cfc456,由於\w*?是非貪婪,正則引擎會用表達式\w+?每次僅匹配一個字符串,然後再將控制權交給後面的\d+去匹配下一個字符,同時,記錄一個點,用於在匹配不成功的時候,返回這裡,再次匹配,也就是回溯點。由於\w後面是量詞是*,*表示0到無數次,所以,首先是0次,也就是\w*?匹配個空,記錄回溯點,將控制權交給\d+,\d+去匹配cfc456n的第一個字元c,然後,匹配失敗,於是乎,接著講控制權交給\w*?去匹配cfc456n的c,\w*?匹配c成功,由於是非貪婪,所以,他每次只匹配一個字符,記錄回溯點,然後再將控制權交給\d+匹配f,接著,\d+匹配f再失敗,再把控制權給\w*?,\w*?再匹配c,記錄回溯點(這時\w*?匹配結果是cfc了),再把控制權給\d+,\d+去匹配4,匹配成功,然後,由於量詞是+,就是1到無數次,所以,接著往後匹配,再匹配5,成功,再接著,再匹配6,成功,再接著,繼續匹配操作,下一個字符是n,匹配失敗,這時,\d+會吧控制權交出去。由於\d+後面已經沒有正規表示式了,所以,整個正規表示式宣告匹配完成,其結果就是 cfc456, 其中第一組結果是456。親愛的同學,您明白剛剛的題目的結果,為什麼是456了嗎?

好了,您是否從上面的例子了解了貪婪,非貪婪的匹配原理了?那麼您是否明白您在什麼時候需要使用貪婪,非貪婪去處理您的字串了?

鳥哥的文章裡講到針對表達式、程式為

$reg = "/<script>.*?<\/script>/is"; 
$str = "<script>********</script>"; //长度大于100014 
$ret = preg_repalce($reg, "", $str); //返回NULL
登入後複製

原因就是回溯太多了,直到造成耗盡堆疊空間爆棧。

再来看个例子。

字符串

$str = '<script>123456</script>';
登入後複製

正则表达式为

$strRegex1 = '%<script>.+<\/script>%'; 
$strRegex2 = '%<script>.+?<\/script>%'; 
$strRegex3 = '%<script>(?:(?!<\/script>).)+<\/script>%';
登入後複製

相信看了本文案例你已经掌握了方法,更多精彩请关注php中文网其它相关文章!

推荐阅读:

用正则匹配单个字符的详细解析

正则的位置匹配使用详解

以上是在PHP使用正規的效率 貪婪、非貪婪與回溯詳解(附代碼)的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板