了解正規表示式之前,須要掌握一些常用的正則表達式的基礎知識,這些如果能記得最好記得,記不住須要用的時候能查到就行,就多個特殊字符,所以說正則表達式玩的就是特殊,具體大家可以查看更細緻的說明。
preg_match_all函數具體說明大家可以查看PHP手冊,本文運用 preg_match_all用來測試正規表示的效果。
實例碼:
複製程式碼 程式碼如下:
$html = '
jb51.net
jb51.net2
jb51.net3
';
實例要求:分別將每一個DIV元素的ID和內容取出,如biuuu,biuuu_2,biuuu_3,jb51.net,jb51.net2和jb51.net3(一些常用的抓站要領就是這樣匹配的)
分析:字串是一個基本的HTML元素,每一個DIV元素對應該一個ID和內容,並且是獨立的,首先考慮如何取出一個DIV內的ID值和內容,如:jb51.net,然後匹配其它類似的元素。一個DIV中須要取出兩個值,也就是兩個匹配的表達式,第一個表達式用於匹配ID值(biuuu),第二個表達式用於匹配ID的內容(jb51.net),正則表達式常用的表達式運用小括號,那麼前面的元素將會變成如下形式:
(jb51.net)
(表達式2)
好,運用如上小括號把須要匹配的區域執行了劃分,接下來就是如何匹配各個表達式內的內容,我們猜想一個ID可能是字母,數字或下劃線,那這就變得基本了,運用中括號就可以實現,如下:
表達式1:[a-zA-Z0-9_] (表示匹配大小寫字母,數字和底線)
那如何匹配表達式2,因為ID的內容可以是任意的字符,但是要留心,不能匹配字符,因為如果匹配這兩個字符將會把後面運用的DIV都匹配出來,因此須要排除這兩個字符開始的元素,也就是不匹配以字符,如下:
表達式2:[^] (表示不匹配字符)
這樣,須要匹配的子表達式就實現了,但是還要須要匹配一個的表達式,要領如下:
表達式:/ '"(表達式1)"'>(表達式2)/
留心其中的雙引號"和/須要運用轉義字元轉義,然後把前面兩個表達式放進去,
如下: '"([a-z0-9_] )"'>/
([^] )
/
這樣就實作一個符合每個DIV元素ID值和內容的正規表示式,然後運用preg_match_all函數測試如下:
複製程式碼 程式碼如下:
$html = '
jb51.net
jb51.net2
jb51.net3
';
preg_match_all('/
([^] )
/',$html, $result);
var_dump($result);
結果:
複製程式碼 程式碼如下:
複製程式碼
程式碼如下:
array(3) { [0]=> array(3) { [0]=> string(30) "
jb51.net
" [1]=> string(33) "
jb51.net2
" [2]=> string(33) "
jb51.net3
" } [1]=> array(3) { [0]=> string(5) "biuuu" [1]=> string(7) "biuuu_2" [2]=> string(7) "biuuu_3" } [2]=> array(3) { [0]=> string(8) "jb51.net" [1]=> string(9) "jb51.net2" [2]=> string(9) "jb51. net3" } }
共有三個表達式,分別顯示每一個表達式匹配的值,並以數組的形式存儲,這樣就把每一個DIV元素的ID和內容取出。運用正規表示式最主要還是要知道須要什麼,然後跟椐須要執行 匹配,並且思路清晰,並適當的借助preg_match_all函數執行 輸出調試,非常方便。
http://www.bkjia.com/PHPjc/313682.htmlwww.bkjia.comtruehttp: //www.bkjia.com/PHPjc/313682.htmlTechArticle了解正規表示式之前,須掌握一些常用的正規表示式的基礎知識,這些如果能記得最好記得,記不住須要用的時候能查到就行,就多個特...