本文來說說Python的正規表示式。
廢話不多說了,先開始最簡單的:
'.':可以匹配除換行符以外的任意單個字符(就是個點)。
'*'可以符合前面的子表達式零次或多次(就是個星號)。
所以上面兩個的組合'.*'(點星)就是匹配除換行符以外的所有。
'+':重複一次或更多。
'?':重複零次或一次。
'd':匹配一個數字字元。等價於 [0-9]。
'w'匹配包括下劃線的任何單字字元。等價於'[A-Za-z0-9_]'。
'/s'匹配任何空白字符,包括空格、製表符、換頁符等等。等價於 [ fnrtv]
'^'符合輸入字串的起始位置。
'$'匹配輸入字串的結束位置。
上面這幾個超常用,當然常用的還有很多,需要的時候請查手冊。
這樣描述不夠直觀,直接敲實驗。想在Python裡使用正規表示式很簡單,直接導入re即可:
>>> import re
>>>
先試試看配對所有:
>>> vlan = 'switchport access vlan 612' >>> ljds = re.search('.*',vlan).group() >>> ljds 'switchport access vlan 612'
再配對數字:
因為'/d'是匹配一個數字,所以如果要匹配這裡的'612',三個數字,可以加上'{3}':
>>> ljds = re.search('\d',vlan).group() >>> ljds '6'
'612'
同理,如果要匹配13個字符(包括空格):
>>> ljds = re.search('\d{3}',vlan).group() >>> ljds
這裡還想提一下正則表達式的量詞裡面涉及到貪婪和非貪婪模式,貪婪就是取最大值,盡可能多的匹配。非貪婪就正好相反(預設是貪婪模式)。舉例說明:
剛才上面是匹配13個字符,如果寫成匹配2到10個字符就寫成:'[ws]{2,10}'即可,那麼到底匹配的是2個還是10個呢?因為預設是貪婪模式,它會最大的匹配:
>>> ljds = re.search('[\w\s]{13}',vlan).group() >>> ljds 'switchport ac'
>>> ljds = re.search('[\w\s]{2,10}',vlan).group() >>> ljds 'switchport'
接下來介紹一下「捕獲」了:
(exp):匹配exp。
(?=exp):符合exp前面的位置。
(?<=exp):符合exp後面的位置。
>>> vlan = 'switchport access vlan 612'
最基礎的:
>>> ljds = re.search('[\w\s]{2,10}?',vlan).group() >>> ljds 'sw'
>>> ljds = re.search('(access)',vlan).group() >>> ljds 'access'
>>> ljds = re.search('.*(?=access)',vlan).group() >>> ljds 'switchport '