Wie gehe ich mit optionalen Leerzeichen in regulären Ausdrücken um, um eine genaue Datenextraktion zu ermöglichen?

Susan Sarandon
Freigeben: 2024-10-24 08:20:30
Original
386 Leute haben es durchsucht

How to Handle Optional Whitespace in Regular Expressions for Accurate Data Extraction?

Optionale Leerzeichen-Regex: Leerzeichen in Attributwerten ignorieren

In der Programmierung gibt es Szenarien, in denen Sie mit Instanzen umgehen müssen, in denen Zeichenfolgen optionale Leerzeichen enthalten . Dies kann eine Herausforderung sein, wenn Sie reguläre Ausdrücke schreiben, um Daten genau zu extrahieren.

Bedenken Sie den folgenden Code:

# Get Image data
preg_match('#<a href=&quot;(.*?)&quot; title=&quot;(.*?)&quot;><img alt=&quot;(.*?)&quot; src=&quot;(.*?)&quot;[\s*]width=&quot;150&quot;[\s*]height=&quot;(.*?)&quot;></a>#', $data, $imagematch);
$image = $imagematch[4];
Nach dem Login kopieren

Dieser Code extrahiert das src-Attribut eines Bildes aus dem HTML-Markup. Allerdings werden Fälle nicht behandelt, in denen zwischen bestimmten Attributen kein Leerzeichen vorhanden ist, z. B.:

<code class="html"><a href=&quot;/wiki/File:Sky1.png&quot; title=&quot;File:Sky1.png&quot;><img alt=&quot;Sky1.png&quot; src=&quot;http://media-mcw.cursecdn.com/thumb/5/56/Sky1.png/150px-Sky1.png&quot;width=&quot;150&quot; height=&quot;84&quot;></a></code>
Nach dem Login kopieren

oder

<code class="html"><a href=&quot;/wiki/File:TallGrass.gif&quot; title=&quot;File:TallGrass.gif&quot;><img alt=&quot;TallGrass.gif&quot; src=&quot;http://media-mcw.cursecdn.com/3/34/TallGrass.gif&quot; width=&quot;150&quot;height=&quot;150&quot;></a></code>
Nach dem Login kopieren

Um dieses Problem zu beheben, können wir optionale Leerzeichen-Regex verwenden. Dadurch können wir Leerzeichen zwischen Zeichen ignorieren. So geht's:

#<a href\s?=&quot;(.*?)&quot; title\s?=&quot;(.*?)"><img alt\s?=&quot;(.*?)&quot; src\s?=&quot;(.*?)&quot;[\s*]width\s?=&quot;150&quot;[\s*]height\s?=&quot;(.*?)"></a>#
Nach dem Login kopieren

In diesem aktualisierten regulären Ausdruck:

  • s? before = bedeutet, dass ein Leerzeichen zulässig, aber optional ist.
  • s* nach dem Attributwert ermöglicht ein optionales Leerzeichen nach dem Attributnamen und -wert.

Das obige ist der detaillierte Inhalt vonWie gehe ich mit optionalen Leerzeichen in regulären Ausdrücken um, um eine genaue Datenextraktion zu ermöglichen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!