この記事では、正規表現の基本、Python 正規表現標準ライブラリの完全な紹介と使用例など、Python の正規表現のサポートについて紹介します。この記事の内容には、効率的な正規表現の作成方法や正規表現の最適化方法は含まれていません。これらのトピックについては、他のチュートリアルを参照してください。
注: この記事は Python2.4 に基づいています。理解できない用語がある場合は、Baidu、Google、Wiki などを思い出してください。
著者の作品を尊重し、転載する場合は著者と元のアドレスを明記してください。正規表現は、文字列を処理するための強力なツールです。独自の構文と独立した処理エンジンを備えています。str 独自のメソッドほど効率的ではないかもしれませんが、非常に強力です。このおかげで、正規表現の構文は、正規表現を提供する言語で同じになります。唯一の違いは、異なるプログラミング言語の実装によってサポートされる構文の数が異なることです。ただし、サポートされていない構文は通常は一部です。それは一般的には使用されません。すでに他の言語で正規表現を使用している場合は、ざっと確認するだけで使い始めることができます。 次の図は、正規表現を使用したマッチング プロセスを示しています。
1.2. 量指定子の貪欲モードと非貪欲モード
1.3. バックスラッシュの問題
ほとんどのプログラミング言語と同様に、正規表現ではエスケープ文字として "" が使用されるため、バックスラッシュの問題が発生する可能性があります。テキスト内の文字「」と一致する必要がある場合、プログラミング言語で表現される正規表現には 4 つのバックスラッシュ「\\」が必要です。最初の 2 つと最後の 2 つは、プログラミング言語のバックスラッシュにエスケープするために使用され、変換されます。正規表現では 2 つのバックスラッシュに変換され、その後 1 つのバックスラッシュにエスケープされます。 Python のネイティブ文字列は、この問題を非常にうまく解決します。この例の正規表現は r"\" で表すことができます。同様に、数値に一致する「\d」は r"d" と書くことができます。ネイティブ文字列を使用すると、バックスラッシュの欠落を心配する必要がなくなり、作成する式がより直感的になります。
2. re モジュール
Python は re モジュールを通じて正規表現をサポートします。 re を使用するための一般的な手順は、まず正規表現の文字列形式を Pattern インスタンスにコンパイルし、次に Pattern インスタンスを使用してテキストを処理し、一致結果 (Match インスタンス) を取得し、最後に Match インスタンスを使用して取得します。情報を取得し、その他の操作を実行します。
りー re.compile(strPattern[, flag]):a = re.compile(r"""\d + # the integral part \. # the decimal point \d * # some fractional digits""", re.X) b = re.compile(r"\d+\.\d*")
re提供了众多模块方法用于完成正则表达式的功能。这些方法可以使用Pattern实例的相应方法替代,唯一的好处是少写一行re.compile()代码,但同时也无法复用编译后的Pattern对象。这些方法将在Pattern类的实例方法部分一起介绍。如上面这个例子可以简写为:
m = re.match(r'hello', 'hello world!') print m.group()
re模块还提供了一个方法escape(string),用于将string中的正则表达式元字符如*/+/?等之前加上转义符再返回,在需要大量匹配元字符时有那么一点用。
Match对象是一次匹配的结果,包含了很多关于此次匹配的信息,可以使用Match提供的可读属性或方法来获取这些信息。
属性:
方法:
import re m = re.match(r'(\w+) (\w+)(?P<sign>.*)', 'hello world!') print "m.string:", m.string print "m.re:", m.re print "m.pos:", m.pos print "m.endpos:", m.endpos print "m.lastindex:", m.lastindex print "m.lastgroup:", m.lastgroup print "m.group(1,2):", m.group(1, 2) print "m.groups():", m.groups() print "m.groupdict():", m.groupdict() print "m.start(2):", m.start(2) print "m.end(2):", m.end(2) print "m.span(2):", m.span(2) print r"m.expand(r'\2 \1\3'):", m.expand(r'\2 \1\3') ### output ### # m.string: hello world! # m.re: <_sre.SRE_Pattern object at 0x016E1A38> # m.pos: 0 # m.endpos: 12 # m.lastindex: 3 # m.lastgroup: sign # m.group(1,2): ('hello', 'world') # m.groups(): ('hello', 'world', '!') # m.groupdict(): {'sign': '!'} # m.start(2): 6 # m.end(2): 11 # m.span(2): (6, 11) # m.expand(r'\2 \1\3'): world hello!
Pattern对象是一个编译好的正则表达式,通过Pattern提供的一系列方法可以对文本进行匹配查找。
Pattern不能直接实例化,必须使用re.compile()进行构造。
Pattern提供了几个可读属性用于获取表达式的相关信息:
import re p = re.compile(r'(\w+) (\w+)(?P<sign>.*)', re.DOTALL) print "p.pattern:", p.pattern print "p.flags:", p.flags print "p.groups:", p.groups print "p.groupindex:", p.groupindex ### output ### # p.pattern: (\w+) (\w+)(?P<sign>.*) # p.flags: 16 # p.groups: 3 # p.groupindex: {'sign': 3}
实例方法[ | re模块方法]:
# encoding: UTF-8 import re # 将正则表达式编译成Pattern对象 pattern = re.compile(r'world') # 使用search()查找匹配的子串,不存在能匹配的子串时将返回None # 这个例子中使用match()无法成功匹配 match = pattern.search('hello world!') if match: # 使用Match获得分组信息 print match.group() ### 输出 ### # world
import re p = re.compile(r'\d+') print p.split('one1two2three3four4') ### output ### # ['one', 'two', 'three', 'four', '']
import re p = re.compile(r'\d+') print p.findall('one1two2three3four4') ### output ### # ['1', '2', '3', '4']
import re p = re.compile(r'\d+') for m in p.finditer('one1two2three3four4'): print m.group(), ### output ### # 1 2 3 4
import re p = re.compile(r'(\w+) (\w+)') s = 'i say, hello world!' print p.sub(r'\2 \1', s) def func(m): return m.group(1).title() + ' ' + m.group(2).title() print p.sub(func, s) ### output ### # say i, world hello! # I Say, Hello World!
import re p = re.compile(r'(\w+) (\w+)') s = 'i say, hello world!' print p.subn(r'\2 \1', s) def func(m): return m.group(1).title() + ' ' + m.group(2).title() print p.subn(func, s) ### output ### # ('say i, world hello!', 2) # ('I Say, Hello World!', 2)
以上就是Python对于正则表达式的支持。熟练掌握正则表达式是每一个程序员必须具备的技能,这年头没有不与字符串打交道的程序了。笔者也处于初级阶段,与君共勉,^_^
另外,图中的特殊构造部分没有举出例子,用到这些的正则表达式是具有一定难度的。有兴趣可以思考一下,如何匹配不是以abc开头的单词,^_^
全文结束