Wie können DOMDocument und XPath verwendet werden, um bestimmte Textinhalte gezielt aus HTML zu extrahieren?

Mary-Kate Olsen
Freigeben: 2024-10-30 09:51:27
Original
948 Leute haben es durchsucht

How can DOMDocument and XPath be used to Target and Extract Specific Text Content from HTML?

DOMDocument-Parsing zur gezielten Ausrichtung auf bestimmte Inhalte

Die Verwendung von „DOMDocument“, einer leistungsstarken PHP-Bibliothek, ermöglicht das präzise Parsen von HTML-Dokumenten. Im Gegensatz zu „getElementsByTagName“, das alle Tags mit einem bestimmten Namen abruft, nutzt diese Methode XPath-Abfragen, um gewünschte Elemente effektiv anzusprechen.

Textknoten in bestimmten Kontexten erfassen

Zu Um bestimmte Textinhalte zu extrahieren, umfasst der Prozess Folgendes:

  • Laden der HTML-Zeichenfolge in ein DOM-Objekt mit „DOMDocument::loadHTML“.
  • Initiieren eines „XPath“-Objekts mit „new DOMXPath ($dom)".
  • Verwendung einer XPath-Abfrage, die die Zielknoten angibt. Zum Beispiel:
$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');
Nach dem Login kopieren

Diese Abfrage ruft alle

Tags mit der Klasse „text“, die in
verschachtelt sind Tags mit der „main“-Klasse.

Das Durchlaufen der resultierenden Liste von Elementen mithilfe einer „foreach“-Schleife ermöglicht die Extraktion von „nodeValue“, das den eigentlichen Text enthält:

foreach ($tags as $tag) {
    var_dump(trim($tag->nodeValue));
}
Nach dem Login kopieren

Beispielimplementierung

Betrachten Sie das folgende HTML-Snippet:

<code class="html"><div class="main">
    <div class="text">
    Capture this text 1
    </div>
</div>

<div class="main">
    <div class="text">
    Capture this text 2
    </div>
</div></code>
Nach dem Login kopieren

Mit der bereitgestellten Abfrage wäre die Ausgabe:

string 'Capture this text 1' (length=19)
string 'Capture this text 2' (length=19)
Nach dem Login kopieren

Dies demonstriert die Fähigkeit, mithilfe von „DOMDocument“ und XPath bestimmte Textinhalte innerhalb einer hierarchischen HTML-Struktur präzise zu extrahieren.

Das obige ist der detaillierte Inhalt vonWie können DOMDocument und XPath verwendet werden, um bestimmte Textinhalte gezielt aus HTML zu extrahieren?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage