Wie ordne ich mehrzeilige Textblöcke mit regulären Ausdrücken in Python zu?-Python-Tutorial-php.cn

Wie ordne ich mehrzeilige Textblöcke mit regulären Ausdrücken in Python zu?

Mary-Kate Olsen

Freigeben： 2024-10-25 10:25:17

Original

716 Leute haben es durchsucht

How to Match Multi-Line Text Blocks with Regular Expressions in Python?

Mehrzeilige Textblöcke mit regulären Ausdrücken in Python abgleichen

In Python kann der Regex-Abgleich beim Umgang mit mehrzeiligem Text eine Herausforderung darstellen . Betrachten Sie zum Beispiel den folgenden Text, bei dem „n“ einen Zeilenumbruch darstellt:

some Varying TEXT

DSJFKDAFJKDAFJDSAKFJADSFLKDLAFKDSAF
[more of the above, ending with a newline]
[yep, there is a variable number of lines here]
[repeat the above a few hundred times].

Nach dem Login kopieren

Das Ziel besteht darin, zwei Elemente zu erfassen:

„irgendein variierender TEXT“
Alle Zeilen mit Großbuchstaben, die zwei Zeilen unter dem ersten Element beginnen, als einzelne Erfassungsgruppe (Zeilenumbrüche können später entfernt werden).

Frühere Versuche mit Variationen der folgenden regulären Ausdrücke wurden durchgeführt erfolglos:

re.compile(r"^>(\w+)$$(\[.$]+)^$", re.MULTILINE)
re.compile(r"(^[^>]\[\w\s]+)$", re.MULTILINE|re.DOTALL)

Nach dem Login kopieren

Lösung:

Um den mehrzeiligen Text korrekt abzugleichen, verwenden Sie den folgenden regulären Ausdruck:

re.compile(r"^(.+)\n((?:\n.+)+)", re.MULTILINE)

Nach dem Login kopieren

Dies Das Muster stimmt mit Folgendem überein:

Gruppe 1: „einiger variierender TEXT“
Gruppe 2: Alle Zeilen mit Großbuchstaben beginnend mit zwei Zeilen darunter „etwas variierender TEXT“

Wichtige Punkte:

^- und $-Anker stimmen mit Positionen unmittelbar nach bzw. vor Zeilenumbrüchen überein.
Der ?:-Operator sorgt dafür, dass die Newline-Gruppe nicht erfasst wird.
Der .*-Quantifizierer erfasst eine oder mehrere Zeilen Großbuchstaben.

Alternative Lösung:

Wenn der Zieltext neben Zeilenvorschüben (n) auch andere Arten von Zeilenumbrüchen enthalten kann, verwenden Sie die folgende umfassendere Version:

re.compile(r"^(.+)(?:\n|\r\n?)((?:(?:\n|\r\n?).+)+)", re.MULTILINE)

Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonWie ordne ich mehrzeilige Textblöcke mit regulären Ausdrücken in Python zu?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!