Wie kann ich beim Extrahieren von Inhalten aus HTML-Tags Newline-Zeichen in Regex zuordnen?-PHP-Tutorial-php.cn

Wie kann ich beim Extrahieren von Inhalten aus HTML-Tags Newline-Zeichen in Regex zuordnen?

Susan Sarandon

Freigeben： 2024-11-01 01:31:28

Original

425 Leute haben es durchsucht

How Can I Match Newline Characters in Regex When Extracting Content from HTML Tags?

Neue Zeilenzeichen mit DOTALL-Regex-Modifikator abgleichen

Wenn Sie mit einer Zeichenfolge arbeiten, die normale Zeichen, Leerzeichen und Zeilenumbrüche enthält, die in HTML-Div-Tags eingeschlossen sind, Das Ziel besteht darin, den Inhalt zwischen

und

Verwendung regulärer Ausdrücke. Ein häufiges Problem tritt auf, wenn das Standard-Metazeichen .* nicht mit Zeilenumbrüchen übereinstimmt.

Um dieses Problem zu beheben, muss der Modifikator DOTALL (/s) verwendet werden. Dieser Modifikator stellt sicher, dass das Punktzeichen (. im regulären Ausdruck) mit allen Zeichen übereinstimmt, einschließlich Zeilenumbrüchen. Durch die Einbindung dieses Modifikators in den regulären Ausdruck wird es möglich, den Inhalt innerhalb der div-Tags genau zu erfassen:

'/<div>(.*)<\/div>/s'

Nach dem Login kopieren

Dieser Ansatz kann jedoch zu gierigen Übereinstimmungen führen. Um dieses Problem zu beheben, wird die Verwendung eines Non-Greedy-Matches empfohlen:

'/<div>(.*?)<\/div>/s'

Nach dem Login kopieren

Alternativ: Alles außer < kann auch eine Lösung sein, wenn keine anderen Tags vorhanden sind:

'/<div>([^<]*)<\/div>/'

Nach dem Login kopieren

Es ist erwähnenswert, dass die Verwendung eines anderen Zeichens als / als Regex-Trennzeichen die Lesbarkeit verbessern kann und die Notwendigkeit entfällt, / in . Hier ist ein Beispiel mit # als Trennzeichen:

'#<div>([^<]*)</div>#'

Nach dem Login kopieren

Während diese Lösungen für einfache Fälle ausreichen können, ist es wichtig zu erkennen, dass HTML komplex ist und die Regex-Analyse allein möglicherweise nicht ausreicht. Um eine umfassende und zuverlässige Analyse zu gewährleisten, empfiehlt es sich, die Verwendung eines dedizierten HTML-Parsers in Betracht zu ziehen.

Das obige ist der detaillierte Inhalt vonWie kann ich beim Extrahieren von Inhalten aus HTML-Tags Newline-Zeichen in Regex zuordnen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!