Maison > développement back-end > tutoriel php > Explication détaillée de l'utilisation du composant Crawler de Symfony pour analyser les instances HTML dans Laravel

Explication détaillée de l'utilisation du composant Crawler de Symfony pour analyser les instances HTML dans Laravel

怪我咯
Libérer: 2023-03-12 15:14:01
original
1533 Les gens l'ont consulté

Cet article présente principalement l'utilisation du composant Crawler de Symfony pour analyser le HTML dans Laravel. Les amis dans le besoin peuvent s'y référer

Le nom complet de Crawler est DomCrawler, qui est un composant du framework Symfony. Ce qui est scandaleux, c'est que DomCrawler n'a pas de documentation en chinois et que Symfony n'a pas traduit cette partie, donc le développement avec DomCrawler ne peut être exploré que petit à petit. Je vais maintenant résumer l'expérience du processus d'utilisation.

La première chose est d'installer

composer require symfony/dom-crawler
composer require symfony/css-selector
Copier après la connexion

css-seelctor est le sélecteur CSS, certaines fonctions seront utilisées lors de la sélection des nœuds avec css

L'exemple utilisé dans le manuel est

use Symfony\Component\DomCrawler\Crawler;
$html = <<<‘HTML‘
Hello World!
Hello Crawler!
HTML;
$crawler = new Crawler($html);
foreach ($crawler as $domElement)
{
var_dump($domElement->nodeName);
}
Copier après la connexion

Le résultat imprimé est

string ‘html‘ (length=4)
Copier après la connexion

Parce que le nodeName de ce code html est html, et mon anglais est pas bon, alors quand j'ai commencé à l'utiliser, j'ai pensé que le programme n'était pas bon. . .

Dans le processus d'utilisation réel, si le nouveau Crawler ($html) a un problème de code tronqué, cela doit être lié à l'encodage de la page, vous pouvez donc utiliser la méthode suivante, initialisez d'abord le robot d'exploration, puis ajoutez un nœud

$crawler = new Crawler();
$crawler->addHtmlContent($html);
Copier après la connexion

Le deuxième paramètre de addHtmlContent est charset, et la valeur par défaut est utf-8.

Pour d'autres exemples, veuillez vous référer à la documentation officielle, http://symfony.com/doc/current/components/dom_crawler.html

Enregistrez et essayez-le peu à peu au travail. Utilisation de la méthode

filterXPath(string $xpath) Selon le manuel, le paramètre de cette méthode est $xpath, et p, p et d'autres blocs sont souvent utilisés.

echo $crawler->filterXPath(‘//body/p‘)->text();
echo $crawler->filterXPath(‘//body/p‘)->last()->text();
Copier après la connexion

La sortie est le texte du premier et du prochain bloc de balises p

var_dump($crawler->filterXPath(‘//body‘)->html());
Copier après la connexion

Sortie du code HTML dans le corps

foreach ($crawler->filterXPath(‘//body/p‘) as $i => $node) {
$c = new Crawler($node);
echo $c->filter(‘p‘)->text();
}
Copier après la connexion

filterXPath obtient le tableau DOMElement de blocs, chaque bloc DOMElement peut utiliser un nouvel objet robot pour continuer l'analyse

$nodeValues =
$crawler->filterXPath(‘//body/p‘)->each(function (Crawler $node, $i) {
return $node->text();
});
Copier après la connexion

le robot fournit une boucle each, en utilisant des fonctions de fermeture pour simplifier le code, mais notez que cette façon d'écrire $nodeValues ​​​​obtient est un tableau et nécessite un traitement ultérieur.

Autres usages

echo $crawler->filterXPath(‘//body/p‘)->attr(‘class‘);
Copier après la connexion

Vous pouvez obtenir la valeur "message" de l'attribut de classe correspondant à la première balise p

$crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a‘)->attr(‘href‘);
$crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a>img‘)->extract(array(‘alt‘, ‘href‘))
Copier après la connexion

Ci-dessus sont quelques méthodes pour obtenir les attributs d'étiquette

le filtre est différent du filtre Il doit être essayé dans le développement réel.

De manière générale, j'ai l'impression que DomCrawler est plus facile à utiliser qu'un simple dom HTML. C'est peut-être parce que je l'utilise plus facilement.

Ce qui précède ne sont que les fonctions de base de Crawler. Pour plus d'utilisation, veuillez vous référer aux fonctions dans la partie Crawler du manuel symfony

http://api.symfony.com/3.2. /Symfony/Component/DomCrawler/Crawler .html

Le principal problème avec Crawler est qu'il y a trop peu d'exemples. Il n'y a pas d'exemples d'utilisation dans le manuel des fonctions, vous ne pouvez donc l'explorer qu'en utilisation réelle. . . .

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal