Comment extraire le texte de balises HTML spécifiques à l'aide de DOMDocument et XPath ?-tutoriel php-php.cn

Maison

développement back-end

tutoriel php

Comment extraire le texte de balises HTML spécifiques à l'aide de DOMDocument et XPath ?

Oct 31, 2024 pm 01:14 PM

How to Extract Text from Specific HTML Tags Using DOMDocument and XPath?

Analyse HTML avec DOMDocument et XPath de PHP

Lorsque vous essayez d'analyser du HTML à l'aide du DOMDocument de PHP, un problème courant est de trouver du texte spécifique dans les balises de classes particulières. L'utilisation de DOMDocument::getElementsByTagName seule peut ne pas suffire dans de tels cas.

Pour capturer un texte spécifique dans les balises d'une classe cible, une approche alternative utilisant DOMDocument et DOMXPath est recommandée. DOMXPath permet de puissantes requêtes XPath pour localiser des éléments en fonction de leurs attributs et de leur structure.

Considérez le code HTML suivant :

&lt;div class=&quot;main&quot;&gt;
    &lt;div class=&quot;text&quot;&gt;
    Capture this text 1
    &lt;/div&gt;
&lt;/div&gt;

&lt;div class=&quot;main&quot;&gt;
    &lt;div class=&quot;text&quot;&gt;
    Capture this text 2
    &lt;/div&gt;
&lt;/div&gt;

Copier après la connexion

Pour récupérer le texte dans le fichier <div> balises avec class="text" qui sont des descendants des balises <div> balises avec class="main", suivez ces étapes :

php
$html = <<<HTML
&lt;div class=&quot;main&quot;&gt;
    &lt;div class=&quot;text&quot;&gt;
    Capture this text 1
    &lt;/div&gt;
&lt;/div&gt;

&lt;div class=&quot;main&quot;&gt;
    &lt;div class=&quot;text&quot;&gt;
    Capture this text 2
    &lt;/div&gt;
&lt;/div&gt;
HTML;

$dom = new DOMDocument();
$dom->loadHTML($html);

$xpath = new DOMXPath($dom);

$tags = $xpath->query('//div[@class="main"]/div[@class="text"]');
foreach ($tags as $tag) {
    var_dump(trim($tag->nodeValue));
}

Copier après la connexion

Cet extrait de code affichera :

string 'Capture this text 1' (length=19)
string 'Capture this text 2' (length=19)

Copier après la connexion

En utilisant DOMDocument et DOMXPath, vous pouvez localiser et récupérer avec précision les éléments contenus dans une structure HTML, même lorsqu'il s'agit de hiérarchies de classes et d'exigences de contenu spécifiques.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn