正規表示式到底是什麼東西?下面php中文網就帶您認識正規表示式。 【推薦閱讀:正規表示式影片教學】
在編寫處理字串的程式或網頁時,常常會有尋找符合某些複雜規則的字串的需求。正規表示式就是用來描述這些規則的工具。換句話說,正規表示式就是記錄文字規則的程式碼。
很可能你使用過Windows/Dos下用於檔案尋找的通配符(wildcard),也就是*和?。如果你想找某個目錄下的所有的Word文件的話,你會搜尋*.doc。在這裡,*會被解釋成任意的字串。和通配符類似,正規表示式也是用來進行文字匹配的工具,只不過比起通配符,它能更精確地描述你的需求——當然,代價就是更複雜——比如你可以寫一個正則表達式,用來找出所有以0開頭,後面跟著2-3個數字,然後是一個連字號“-”,最後是7或8位數字的字串。
入門
學習正規表示式的最好方法是從例子開始,理解例子之後再自己對例子進行修改,實驗。下面給了不少簡單的例子,並對它們作了詳細的說明。
假設你在一篇英文小說裡尋找hi,你可以使用正規表示式hi。
這幾乎是最簡單的正規表示式了,它可以精確地匹配這樣的字串:由兩個字元組成,前一個字元是h,後一個是i。通常,處理正規表示式的工具會提供一個忽略大小寫的選項,如果選取了這個選項,它可以符合hi,HI,Hi,hI這四種情況中的任一種。
不幸的是,很多單字包含hi這兩個連續的字符,例如him,history,high等等。用hi來查找的話,這裡邊的hi也會被找出來。如果要精確地查找hi這個字的話,我們應該使用\bhi\b。
\b是正規表示式規定的一個特殊代碼(好吧,某些人叫它元字符,metacharacter),代表著單字的開頭或結尾,也就是單字的分界處。雖然通常英文的單字是由空格,標點符號或換行來分隔的,但是\b並不符合這些單字分隔字元中的任何一個,它只符合一個位置。
假如你要找的是hi後面不遠處跟著一個Lucy,你應該用\bhi\b.*\bLucy\b。
這裡,.是另一個元字符,匹配除了換行符以外的任意字符。 *同樣是元字符,不過它代表的不是字符,也不是位置,而是數量——它指定*前邊的內容可以連續重複使用任意次以使整個表達式得到匹配。因此,.*連在一起就意味著任意數量的不包含換行的字元。現在\bhi\b.*\bLucy\b的意思就很明顯了:先是一個單字hi,然後是任意個任意字元(但不能是換行),最後是Lucy這個字。
如果同時使用其它元字符,我們就能建構出功能更強大的正規表示式。例如下面這個例子:
0\d\d-\d\d\d\d\d\d\d\d符合這樣的字串:以0開頭,然後是兩個數字,然後是一個連字號“-”,最後是8個數字(也就是中國的電話號碼。當然,這個例子只能匹配區號為3位的情形)。
這裡的\d是個新的元字符,符合一位數字(0,或1,或2,或…)。 -不是元字符,只匹配它本身-連字符(或減號,或中橫線,或隨你怎麼稱呼它)。
為了避免那麼多煩人的重複,我們也可以這樣寫這個表達式:0\d{2}-\d{8}。這裡\d後面的{2}({8})的意思是前面\d必須連續重複配對2次(8次)。
測試正規表示式
如果你不覺得正規表示式很難讀寫的話,要嘛你是個天才,要嘛,你不是地球人。正規表示式的語法很令人頭疼,即使對經常使用它的人來說也是如此。由於難於讀寫,容易出錯,所以找工具對正規表示式進行測試是必要的。
不同的環境下正規表示式的一些細節是不相同的,本教學介紹的是微軟.Net Framework 4.5 下正規表示式的行為,所以,我向你推薦我寫的.Net下的工具Regester。請參考該頁面的說明來安裝和運行該軟體。
下面是Regester運行時的截圖:
元字元
現在你已經知道幾個很有用的元字元了,如\b,.,*,還有\d.正規表示式裡還有更多的元字符,例如\s匹配任意的空白符,包括空格,製表符(Tab),換行符,中文全角空格等。 \w符合字母或數字或底線或漢字等。
下面來看看更多的例子:
\ba\w*\b匹配以字母a開頭的單字-先是某個單字開始處(\b),然後是字母a,然後是任意數量的字母或數字(\w*),最後是單字結束處(\b)。
\d 符合1個或更多連續的數字。這裡的 是和*類似的元字符,不同的是*匹配重複任意次(可能是0次),而 則匹配重複1次或更多次。
\b\w{6}\b 符合剛好6個字的單字。
元字元^(和數字6在同一個鍵位上的符號)和$都符合一個位置,這和\b有點類似。 ^符合你要用來尋找的字串的開頭,$符合結尾。這兩個代碼在驗證輸入的內容時非常有用,例如網站如果要求你填寫的QQ號必須為5位到12位數字時,可以使用:^\d{5,12}$。
這裡的{5,12}和前面介紹過的{2}是類似的,只不過{2}配對只能不多不少重複2次,{5,12}則是重複的次數不能少於5次,不能多於12次,否則都不符合。
因為使用了^和$,所以輸入的整個字串都要用來和\d{5,12}來匹配,也就是說整個輸入必須是5到12個數字,因此如果輸入的QQ號能符合這個正規表示式的話,那就符合要求了。
和忽略大小寫的選項類似,有些正規表示式處理工具還有一個處理多行的選項。如果選中了這個選項,^和$的意義就變成了匹配行的開始和結束。
字元轉義
如果你想找出元字元本身的話,例如你查找.,或*,就出現了問題:你沒辦法指定它們,因為它們會被解釋成別的意思。這時你就得用\來取消這些字符的特殊意義。因此,你應該使用\.和\*。當然,要找\本身,你也得用\\.
例如:deerchao\.net來匹配deerchao.net,C:\\Windows來符合C:\Windows。
重複
你已經看過前面的*, ,{2},{5,12}這幾個符合重複的方式了。以下是正規表示式中所有的限定符(指定數量的程式碼,例如*,{5,12}等):
以下是一些使用重複的範例:
Windows\d 符合Windows後面跟著1個或更多數字
^\w 符合一行的第一個單字(或整個字串的第一個單詞,具體符合哪個意思得看選項設定)
字符類別
要想找出數字,字母或數字,空白是很簡單的,因為已經有了對應這些字元集合的元字符,但是如果你想匹配沒有預先定義元字元的字元集合(例如元音字母a,e,i,o,u),應該怎麼辦?
很簡單,你只需要在方括號裡列出它們就行了,像[aeiou]就匹配任何一個英文元音字母,[.?!]匹配標點符號(.或?或!) 。
我們也可以輕鬆地指定一個字元範圍,像[0-9]所代表的含意與\d就是完全一致的:一位數字;同理[a-z0-9A-Z_]也完全等同於\w(如果只考慮英文的話)。
我們對它做一些分析:首先是一個轉義字元\(,它能出現0次或1次(?),然後是一個0,後面跟著2個數字(\d{2 }),然後是)或-或空格中的一個,它出現1次或不出現(?),最後是8個數字(\d{8})。
分枝條件
不幸的是,剛才那個表達式也能符合010)12345678或(022-87654321這樣的「不正確」的格式。要解決這個問題,我們需要用到分枝條件。正規表示式裡的分枝條件指的是有幾種規則,如果滿足其中任意一種規則都應該當成匹配,具體方法是用|把不同的規則分隔開。聽不明白?沒關係,看例子:
0\d{2}-\d{8}|0\d{3}-\d{7}這個表達式能符合兩個以連字號分隔的電話號碼:一種是三位區號,8位本地號(如010-12345678),一種是4位區號,7位本地號(0376-2233445)。
\(0\d{2 }\)[- ]?\d{8}|0\d{2}[- ]?\d{8}這個表達式符合3位區號的電話號碼,其中區號可以用小括號括起來,也可以不用,區號與本地號間可以用連字號或空格間隔,也可以沒有間隔。你可以試試用分枝條件把這個表達式擴展成也支援4位區號的。
\d{5 }-\d{4}|\d{5}這個表達式用來符合美國的郵遞區號。美國郵編的規則是5位數字,或是用連字號間隔的9位數字。之所以要給出這個例子是因為它能說明一個問題:使用分枝條件時,要注意各個條件的順序。如果你把它改成\d{5}|\d{5}-\d{4}的話,那麼就只會符合5位的郵編(以及9位郵編的前5位)。原因是匹配分枝條件時,將會從左到右地測試每個條件,如果滿足了某個分枝的話,就不會去再管其它的條件了。
分組
我們已經提到了怎麼重複單一字元(直接在字元後面加上限定符就行了);但如果想要重複多個字元又該怎麼辦?你可以用小括號來指定子表達式(也叫做分組),然後你就可以指定這個子表達式的重複次數了,你也可以對子表達式進行其它一些操作(後面會有介紹) 。
(\d{1,3}\.){3}\d{1,3}是一個簡單的IP位址符合運算式。要理解這個表達式,請按下列順序分析它:\d{1,3}匹配1到3位的數字,(\d{1,3}\.){3}匹配三位數字加上一個英文句號(這個整體也就是這個分組)重複3次,最後再加上一個一到三位的數字(\d{1,3})。
不幸的是,它也將匹配256.300.888.999這種不可能存在的IP位址。如果能使用算術比較的話,或許能簡單地解決這個問題,但是正則表達式中並不提供關於數學的任何功能,所以只能使用冗長的分組,選擇,字符類來描述一個正確的IP地址:( (2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]| [01]?\d\d?)。
理解這個表達式的關鍵是理解2[0-4]\d|25[0-5]|[01]?\d\d?,這裡我就不細說了,你自己應該能分析得出來它的意義。
反義
有時需要尋找不屬於某個能簡單定義的字元類別的字元。例如想查找除了數字以外,其它任意字元都行的情況,這時需要用到反義:
#範例:\S 符合不包含空白符的字串。
後向引用
使用小括號指定一個子表達式後,匹配這個子表達式的文字(也就是此分組捕獲的內容)可以在表達式或其它程式中作進一步的處理。預設情況下,每個分組會自動擁有一個組號,規則是:從左向右,以分組的左括號為標誌,第一個出現的分組的組號為1,第二個為2,以此類推。
後向引用用於重複搜尋前面某個分組符合的文字。例如,\1代表分組1匹配的文字。難以理解?請看範例:
\b(\w )\b\s \1\b可以用來匹配重複的單字,像go go, 或kitty kitty。這個表達式首先是一個單詞,也就是單詞開始處和結束處之間的多於一個的字母或數字(\b(\w )\b),這個單詞會被捕獲到編號為1的分組中,然後是1個或幾個空白符(\s ),最後是分組1中捕獲的內容(也就是前面匹配的那個單字)(\1)。
你也可以自己指定子運算式的群組名稱。要指定一個子表達式的組名,請使用這樣的語法:(?
使用小括號的時候,還有很多特定用途的語法。下面列出了最常用的一些:
零寬斷言
#接下來的四個用於查找在某些內容(但並不包括這些內容)之前或之後的東西,也就是說它們像\b,^,$那樣用於指定一個位置,這個位置應該滿足一定的條件(即斷言),因此它們也被稱為零寬斷言。最好還是拿例子來說明:
(?=exp)也叫零寬度正預測先行斷言,它斷言自身出現的位置的後面能匹配表達式exp。例如\b\w (?=ing\b),當匹配以ing結尾的單字的前面部分(除了ing以外的部分),如查找I'm singing while you're dancing.時,它會匹配sing和danc 。
(?
假如你想要給一個很長的數字中每三位間加一個逗號(當然是從右邊加起了),你可以這樣查找需要在前面和里面添加逗號的部分:(( ?
下面這個例子同時使用了這兩個斷言:(?
負向零寬斷言
前面我們提到怎麼查找不是某個字元或不在某個字元類別裡的字元的方法(反義)。但是如果我們只是想要確保某個字元沒有出現,但不想去匹配它時怎麼辦?例如,如果我們想找出這樣的單字--它裡面出現了字母q,但是q後面跟的不是字母u,我們可以嘗試這樣:
\b\w*q[^u]\w*\b匹配包含后面不是字母u的字母q的单词。但是如果多做测试(或者你思维足够敏锐,直接就观察出来了),你会发现,如果q出现在单词的结尾的话,像Iraq,Benq,这个表达式就会出错。这是因为[^u]总要匹配一个字符,所以如果q是单词的最后一个字符的话,后面的[^u]将会匹配q后面的单词分隔符(可能是空格,或者是句号或其它的什么),后面的\w*\b将会匹配下一个单词,于是\b\w*q[^u]\w*\b就能匹配整个Iraq fighting。负向零宽断言能解决这样的问题,因为它只匹配一个位置,并不消费任何字符。现在,我们可以这样来解决这个问题:\b\w*q(?!u)\w*\b。
零宽度负预测先行断言(?!exp),断言此位置的后面不能匹配表达式exp。例如:\d{3}(?!\d)匹配三位数字,而且这三位数字的后面不能是数字;\b((?!abc)\w)+\b匹配不包含连续字符串abc的单词。
同理,我们可以用(?
一个更复杂的例子:(?).*(?=)匹配不包含属性的简单HTML标签内里的内容。(?)指定了这样的前缀:被尖括号括起来的单词(比如可能是),然后是.*(任意的字符串),最后是一个后缀(?=)。注意后缀里的\/,它用到了前面提过的字符转义;\1则是一个反向引用,引用的正是捕获的第一组,前面的(\w+)匹配的内容,这样如果前缀实际上是的话,后缀就是了。整个表达式匹配的是和之间的内容(再次提醒,不包括前缀和后缀本身)。
注释
小括号的另一种用途是通过语法(?#comment)来包含注释。例如:2[0-4]\d(?#200-249)|25[0-5](?#250-255)|[01]?\d\d?(?#0-199)。
要包含注释的话,最好是启用“忽略模式里的空白符”选项,这样在编写表达式时能任意的添加空格,Tab,换行,而实际使用时这些都将被忽略。启用这个选项后,在#后面到这一行结束的所有文本都将被当成注释忽略掉。例如,我们可以前面的一个表达式写成这样:
(?<= # 断言要匹配的文本的前缀 <(\w+)> # 查找尖括号括起来的字母或数字(即HTML/XML标签) ) # 前缀结束 .* # 匹配任意文本 (?= # 断言要匹配的文本的后缀 <\/\1> # 查找尖括号括起来的内容:前面是一个"/",后面是先前捕获的标签 ) # 后缀结束
贪婪与懒惰
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符。以这个表达式为例:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。
有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。现在看看懒惰版的例子吧:
a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab(第一到第三个字符)和ab(第四到第五个字符)。
处理选项
上面介绍了几个选项如忽略大小写,处理多行等,这些选项能用来改变处理正则表达式的方式。下面是.Net中常用的正则表达式选项:
一个经常被问到的问题是:是不是只能同时使用多行模式和单行模式中的一种?答案是:不是。这两个选项之间没有任何关系,除了它们的名字比较相似(以至于让人感到疑惑)以外。
平衡组/递归匹配
有时我们需要匹配像( 100 * ( 50 + 15 ) )这样的可嵌套的层次性结构,这时简单地使用\(.+\)则只会匹配到最左边的左括号和最右边的右括号之间的内容(这里我们讨论的是贪婪模式,懒惰模式也有下面的问题)。假如原来的字符串里的左括号和右括号出现的次数不相等,比如( 5 / ( 3 + 2 ) ) ),那我们的匹配结果里两者的个数也不会相等。有没有办法在这样的字符串里匹配到最长的,配对的括号之间的内容呢?
为了避免(和\(把你的大脑彻底搞糊涂,我们还是用尖括号代替圆括号吧。现在我们的问题变成了如何把xx
这里需要用到以下的语法构造:
(?'group') 把捕获的内容命名为group,并压入堆栈(Stack)
(?'-group') 从堆栈上弹出最后压入堆栈的名为group的捕获内容,如果堆栈本来为空,则本分组的匹配失败
(?(group)yes|no) 如果堆栈上存在以名为group的捕获内容的话,继续匹配yes部分的表达式,否则继续匹配no部分
(?!) 零宽负向先行断言,由于没有后缀表达式,试图匹配总是失败
我们需要做的是每碰到了左括号,就在压入一个"Open",每碰到一个右括号,就弹出一个,到了最后就看看堆栈是否为空--如果不为空那就证明左括号比右括号多,那匹配就应该失败。正则表达式引擎会进行回溯(放弃最前面或最后面的一些字符),尽量使整个表达式得到匹配。
< #最外层的左括号 [^<>]* #最外层的左括号后面的不是括号的内容 ( ( (?'Open'<) #碰到了左括号,在黑板上写一个"Open" [^<>]* #匹配左括号后面的不是括号的内容 )+ ( (?'-Open'>) #碰到了右括号,擦掉一个"Open" [^<>]* #匹配右括号后面不是括号的内容 )+ )* (?(Open)(?!)) #在遇到最外层的右括号前面,判断黑板上还有没有没擦掉的"Open";如果还有,则匹配失败 > #最外层的右括号
平衡组的一个最常见的应用就是匹配HTML,下面这个例子可以匹配嵌套的
上边已经描述了构造正则表达式的大量元素,但是还有很多没有提到的东西。下面是一些未提到的元素的列表,包含语法和简单的说明。你可以在网上找到更详细的参考资料来学习它们--当你需要用到它们的时候。如果你安装了MSDN Library,你也可以在里面找到.net下正则表达式详细的文档。
以上是正規表示式30分鐘新手入門教程的詳細內容。更多資訊請關注PHP中文網其他相關文章!