Das re-Modul bietet eine Reihe leistungsstarker regulärer Ausdruck (regulärer Ausdruck)-Tools, mit denen Sie schnell überprüfen können, ob eine bestimmte Zeichenfolge mit einem bestimmten Muster übereinstimmt ( matchFunktion). ) oder fügen Sie dieses Muster ein (Suchfunktion). Reguläre Ausdrücke sind Zeichenfolgenmuster, die in einer kompakten (und mysteriösen) Syntax geschrieben sind.
Gemeinsame Methoden | Beschreibung |
---|---|
Übereinstimmung (Muster, Zeichenfolge, Flags=0) | Wenn der Anfang der Zeichenfolge mit dem regulären Ausdrucksmuster übereinstimmt, wird die entsprechende Instanz von MatchObject zurückgegeben, andernfalls wird zurückgegeben Keine |
search(pattern, string, flags=0) | Scannen Sie die Zeichenfolge. Wenn eine Position vorhanden ist, die mit dem regulären Ausdrucksmuster übereinstimmt, wird eine Instanz von MatchObject zurückgegeben. andernfalls ReturnNone |
sub(pattern, repl, string, count=0, flags=0) | stimmt mit dem Teil des Musters im String überein , Durch repl ersetzen, bis zur Anzahl der Male |
subn(pattern, repl, string, count=0, flags=0) | ähnelt sub, zurückgegeben von subn Ist eine ersetzte Zeichenfolge und ein Array übereinstimmender Zeiten in ein Tupel |
split(pattern, string, maxsplit=0, flags=0) | Verwenden Sie die mit dem Muster übereinstimmende Zeichenfolge, um die Zeichenfolge aufzuteilen |
findall(pattern, string, flags=0) | Gibt das String-Matching-Muster in string in Form einer Liste zurück |
compile( pattern , flags=0)compile(pattern, flags=0) | Kompiliert ein reguläres Ausdrucksmuster in ein reguläres -Objekt , sodass die Übereinstimmungs- und Suchmethoden des regulären Objekts | verwendet werden können verwendet
purge() | Löschenden regulären Ausdruck Cache |
escape( string ) | Fügen Sie allen Zeichen in der Zeichenfolge außer Buchstaben und Zahlen einen Backslash hinzu |
Syntax | Beschreibung | |
---|---|---|
. | entspricht jedem Zeichen außer Zeilenumbrüchen | |
^ | Header entspricht | |
$ | Ende-Übereinstimmung | |
* | stimmt 0 oder öfter mit dem vorherigen Zeichen überein | |
+ | übereinstimmt das vorherige Zeichen ein- oder mehrmals | Entspricht m- bis n-mal dem vorherigen Zeichen |
Escape jedes Sonderzeichen | ||
[] | wird verwendet, um einen Zeichensatz in Kombination mit | |
| | darzustellen, oder: Es bedeutet passend zu jedem |
Findet eine Übereinstimmung vom Anfang der Zeichenfolge und gibt eine Match-Objektinstanz zurück, wenn das Muster übereinstimmt (Match Objekt, das später beschrieben wird), andernfalls wird None zurückgegeben. Flags ist der Abgleichsmodus (unten beschrieben), der zur Steuerung der Abgleichsmethode regulärer Ausdrücke verwendet wird.
import re a = 'abcdefg'print re.match(r'abc', a) # 匹配成功print re.match(r'abc', a).group()print re.match(r'cde', a) # 匹配失败>>><_sre.SRE_Match object at 0x0000000001D94578> >>>abc >>>None
Wird verwendet, um Teilzeichenfolgen in der Zeichenfolge zu finden, die erfolgreich abgeglichen werden können. Wenn sie gefunden werden, wird eine Match-Objektinstanz zurückgegeben, andernfalls wird None zurückgegeben .
import re a = 'abcdefg'print re.search(r'bc', a)print re.search(r'bc', a).group()print re.search(r'123', a) >>><_sre.SRE_Match object at 0x0000000001D94578> >>>bc >>>None
Ersetzen, ersetzen Sie den Teil der Zeichenfolge, der mit dem Muster übereinstimmt, durch repl, bis zu Anzahl Mal (The verbleibende Übereinstimmungen werden nicht verarbeitet) und dann wird die ersetzte Zeichenfolge zurückgegeben.
import re a = 'a1b2c3'print re.sub(r'\d+', '0', a) # 将数字替换成'0'print re.sub(r'\s+', '0', a) # 将空白字符替换成'0'>>>a0b0c0 >>>a1b2c3
Es ist dasselbe wie die Funktion sub(), außer dass es ein Tupel zurückgibt, das new enthält Zeichen Zeichenfolge und die Anzahl der Übereinstimmungen
import re a = 'a1b2c3'print re.subn(r'\d+', '0', a) # 将数字替换成'0'>>>('a0b0c0', 3)
Reguläre Version von split(), aufgeteilt nach Teilzeichenfolgen, die mit der Musterzeichenfolge übereinstimmen, Wenn im Muster Klammern verwendet werden, wird die mit dem Muster übereinstimmende Zeichenfolge auch als Teil der Rückgabewertliste verwendet, und maxsplit ist die Zeichenfolge, die maximal geteilt werden kann.
import re a = 'a1b1c'print re.split(r'\d', a)print re.split(r'(\d)', a) >>>['a', 'b', 'c'] >>>['a', '1', 'b', '1', 'c']
Gibt nicht überlappende Teilzeichenfolgen zurück, die mit dem Muster in der Zeichenfolge übereinstimmen, in Form einer Liste.
import re a = 'a1b2c3d4'print re.findall('\d', a) >>>['1', '2', '3', '4']
Wenn re.match() und re.search() erfolgreich übereinstimmen, geben sie ein Match-Objekt zurück, das viele Informationen über die Übereinstimmung enthält . Sie können die von Match bereitgestellten Eigenschaften oder Methoden verwenden, um diese Informationen abzurufen. Zum Beispiel:
>>>import re >>>str = 'he has 2 books and 1 pen' >>>ob = re.search('(\d+)', str) >>>print ob.string # 匹配时使用的文本 he has 2 books and 1 pen >>>print ob.re # 匹配时使用的Pattern对象 re.compile(r'(\d+)') >>>print ob.group() # 获得一个或多个分组截获的字符串 2 >>>print ob.groups() # 以元组形式返回全部分组截获的字符串 ('2',)
Das Musterobjektobjekt wird von re.compile() zurückgegeben. Es verfügt über viele Methoden mit demselben Namen wie das re-Modul Methoden haben ähnliche Funktionen. Zum Beispiel:
>>>import re >>>pa = re.compile('(d\+)') >>>print pa.split('he has 2 books and 1 pen') ['he has ', '2', ' books and ', '1', ' pen'] >>>print pa.findall('he has 2 books and 1 pen') ['2', '1'] >>>print pa.sub('much', 'he has 2 books and 1 pen') he has much books and much pen
Der Wert des Übereinstimmungsmusters kann den bitweisen ODER-Operator '|' verwenden, um anzugeben, dass er gleichzeitig wirksam wird B. re.I |. re.M, im Folgenden sind einige häufige Flags aufgeführt.
re.I(re.IGNORECASE): Groß-/Kleinschreibung ignorieren
>>>pa = re.compile('abc', re.I) >>>pa.findall('AbCdEfG') >>>['AbC']
re.L(re . LOCALE): Zeichensatzlokalisierung
Diese Funktion dient zur Unterstützung mehrsprachiger Zeichensatzverwendungsumgebungen, wie z. B. des Escape-Zeichens w
, in einem englischen Kontext , es steht für [a-zA-Z0-9]
, was alle englischen Zeichen und Zahlen bedeutet. Bei Verwendung in einer französischen Umgebung stimmen einige französische Zeichenfolgen nicht überein. Fügen Sie diese L-Option hinzu und Sie können eine Übereinstimmung erzielen. Dies scheint jedoch für die chinesische Umgebung wenig nützlich zu sein und chinesische Schriftzeichen können immer noch nicht erkannt werden.
re.M(re.MULTILINE): Mehrzeilenmodus, ändern Sie das Verhalten von '^' und '$'
>>>pa = re.compile('^\d+') >>>pa.findall('123 456\n789 012\n345 678') >>>['123'] >>>pa_m = re.compile('^\d+', re.M) >>>pa_m.findall('123 456\n789 012\n345 678') >>>['123', '789', '345']
re.S(re.DOTALL): Klicken Sie auf ein beliebiges passendes Muster, um das Verhalten von „.“ zu ändern
.
号将匹配所有的字符。缺省情况下.
匹配除换行符\n
外的所有字符,使用这一选项以后,点号就能匹配包括换行符的任何字符。
re.U(re.UNICODE): 根据Unicode字符集解析字符
re.X(re.VERBOSE): 详细模式
# 这个模式下正则表达式可以是多行,忽略空白字符,并可以加入注释。以下两个正则表达式是等价的a = re.compile(r"""\d + # the integral part \. # the decimal point \d * # some fractional digits""", re.X) b = re.compile(r"\d+\.\d*")# 但是在这个模式下,如果你想匹配一个空格,你必须用'/ '的形式('/'后面跟一个空格)
Das obige ist der detaillierte Inhalt vonEine ausführliche Einführung zum Erlernen des re-Moduls der Python-Standardbibliothek. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!