Heim > Backend-Entwicklung > PHP-Tutorial > Detaillierte Erläuterung der Verwendung der Crawler-Komponente von Symfony zur Analyse von HTML-Instanzen in Laravel

Detaillierte Erläuterung der Verwendung der Crawler-Komponente von Symfony zur Analyse von HTML-Instanzen in Laravel

怪我咯
Freigeben: 2023-03-12 15:14:01
Original
1524 Leute haben es durchsucht

In diesem Artikel wird hauptsächlich die Verwendung der Crawler-Komponente von Symfony zum Analysieren von HTML in Laravel vorgestellt.

Crawlers vollständiger Name ist DomCrawler, eine Komponente des Symfony-Frameworks. Was empörend ist, ist, dass DomCrawler keine chinesische Dokumentation hat und Symfony diesen Teil nicht übersetzt hat, sodass die Entwicklung mit DomCrawler nur Stück für Stück erkundet werden kann. Jetzt werde ich die Erfahrungen im Verwendungsprozess zusammenfassen.

Das erste, was zu installieren ist

composer require symfony/dom-crawler
composer require symfony/css-selector
Nach dem Login kopieren

css-seelctor ist der CSS-Selektor, einige Funktionen werden bei der Auswahl von Knoten mit verwendet css

Das im Handbuch verwendete Beispiel ist

use Symfony\Component\DomCrawler\Crawler;
$html = <<<‘HTML‘
Hello World!
Hello Crawler!
HTML;
$crawler = new Crawler($html);
foreach ($crawler as $domElement)
{
var_dump($domElement->nodeName);
}
Nach dem Login kopieren

Das gedruckte Ergebnis ist

string ‘html‘ (length=4)
Nach dem Login kopieren

Weil der Knotenname dieses HTML-Codes html ist und mein Englisch es ist nicht gut, also dachte ich, als ich anfing, es zu benutzen, das Programm sei falsch. . .

Wenn im tatsächlichen Verwendungsprozess ein neuer Crawler ($html) ein Problem mit verstümmeltem Code aufweist, sollte dies mit der Seitencodierung zusammenhängen, sodass Sie die folgende Methode verwenden und zunächst initialisieren können Der Crawler und dann den Knoten hinzufügen

$crawler = new Crawler();
$crawler->addHtmlContent($html);
Nach dem Login kopieren

Der zweite Parameter von addHtmlContent ist der Zeichensatz und der Standardwert ist utf-8.

Weitere Beispiele finden Sie in der offiziellen Dokumentation, http://symfony.com/doc/current/components/dom_crawler.html

Notieren Sie die Arbeit und Probieren Sie es Stück für Stück aus. Verwendung der Methode

filterXPath(string $xpath) Laut Handbuch ist der Parameter dieser Methode $xpath, und häufig werden p, p und andere Blöcke verwendet.

echo $crawler->filterXPath(‘//body/p‘)->text();
echo $crawler->filterXPath(‘//body/p‘)->last()->text();
Nach dem Login kopieren

Die Ausgabe ist der Text des ersten und nächsten p-Tag-Blocks

var_dump($crawler->filterXPath(‘//body‘)->html());
Nach dem Login kopieren

HTML im Textkörper ausgeben

foreach ($crawler->filterXPath(‘//body/p‘) as $i => $node) {
$c = new Crawler($node);
echo $c->filter(‘p‘)->text();
}
Nach dem Login kopieren

filterXPath ruft das DOMElement-Array ab von Blöcken kann jeder DOMElement-Block ein neues Crawler-Objekt verwenden, um mit dem Parsen fortzufahren

$nodeValues =
$crawler->filterXPath(‘//body/p‘)->each(function (Crawler $node, $i) {
return $node->text();
});
Nach dem Login kopieren

Crawler stellt eine Each-Schleife bereit und verwendet Abschlussfunktionen, um den Code zu vereinfachen. Beachten Sie jedoch, dass diese Schreibweise $nodeValues ​​​​erhält ist ein Array und muss weiter verarbeitet werden.

Andere Verwendungen

echo $crawler->filterXPath(‘//body/p‘)->attr(‘class‘);
Nach dem Login kopieren

Sie können den Wert „Nachricht“ des Klassenattributs erhalten, das dem ersten p-Tag

entspricht
$crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a‘)->attr(‘href‘);
$crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a>img‘)->extract(array(‘alt‘, ‘href‘))
Nach dem Login kopieren

Die oben genannten Methoden sind einige Methoden zum Erhalten von Etikettenattributen.

Filter unterscheidet sich von Filter. Es muss in der tatsächlichen Entwicklung ausprobiert werden.

Generell habe ich das Gefühl, dass DomCrawler einfacher zu verwenden ist als einfaches HTML-Dom, vielleicht liegt es daran, dass ich es einfacher verwende.

Die oben genannten sind nur die Grundfunktionen von Crawler. Weitere Informationen zur Verwendung finden Sie in den Funktionen im Crawler-Teil des Symfony-Handbuchs

http://api.symfony.com/3.2 /Symfony/Component/DomCrawler/Crawler .html

Das Hauptproblem bei Crawler besteht darin, dass es zu wenige Anwendungsbeispiele im Funktionshandbuch gibt, sodass Sie es nur in der tatsächlichen Verwendung erkunden können. . . .

Das obige ist der detaillierte Inhalt vonDetaillierte Erläuterung der Verwendung der Crawler-Komponente von Symfony zur Analyse von HTML-Instanzen in Laravel. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage