Mehrzeilige Blöcke mit regulären Ausdrücken abgleichen
Beim Abgleich mit Text, der sich über mehrere Zeilen erstreckt, können mit den regulären Ausdrücken von Python Schwierigkeiten auftreten. Betrachten Sie den folgenden Beispieltext:
some Varying TEXT DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF [more of the above, ending with a newline] [yep, there is a variable number of lines here] (repeat the above a few hundred times).
Das Ziel besteht darin, zwei Komponenten zu erfassen:
Mehrere Ansätze wurden erfolglos versucht:
<code class="python">re.compile(r"^>(\w+)$$(\n[.$]+)^$", re.MULTILINE) # Capture both parts re.compile(r"([^>][\w\s]+)$", re.MULTILINE|re.DOTALL) # Just textlines</code>
Um dieses Problem zu beheben, verwenden Sie den folgenden regulären Ausdruck:
<code class="python">re.compile(r"^(.+)\n((?:\n.+)+)", re.MULTILINE)</code>
Beachten Sie, dass die Anker „^“ und „$“ nicht mit Zeilenumbrüchen übereinstimmen. Daher folgt im Mehrzeilenmodus „^“ einem Zeilenumbruch und „$“ geht einem Zeilenumbruch voran.
Achten Sie außerdem auf verschiedene Zeilenumbruchformate. Für Text, der Zeilenvorschübe, Wagenrückläufe oder beides enthalten kann, verwenden Sie diesen umfassenderen regulären Ausdruck:
<code class="python">re.compile(r"^(.+)(?:\n|\r\n?)((?:(?:\n|\r\n?).+)+)", re.MULTILINE)</code>
Der Modifikator DOTALL ist hier unnötig, da der Punkt bereits Zeilenumbrüche ausschließt.
Das obige ist der detaillierte Inhalt vonWie ordne ich mehrzeilige Blöcke in Python mithilfe regulärer Ausdrücke zu?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!