In diesem Artikel wird hauptsächlich die Verwendung der Crawler-Komponente von Symfony zum Analysieren von HTML in Laravel vorgestellt.
Crawlers vollständiger Name ist DomCrawler, eine Komponente des Symfony-Frameworks. Was empörend ist, ist, dass DomCrawler keine chinesische Dokumentation hat und Symfony diesen Teil nicht übersetzt hat, sodass die Entwicklung mit DomCrawler nur Stück für Stück erkundet werden kann. Jetzt werde ich die Erfahrungen im Verwendungsprozess zusammenfassen.
Zuerst installieren Sie
composer require symfony/dom-crawler composer require symfony/css-selector
css-seelctor ist ein CSS-Selektor. Einige Funktionen werden bei der Auswahl von Knoten verwendet css. Das im
-Handbuch verwendete Beispiel ist
use Symfony\Component\DomCrawler\Crawler; $html = <<<‘HTML‘ Hello World! Hello Crawler! HTML; $crawler = new Crawler($html); foreach ($crawler as $domElement) { var_dump($domElement->nodeName); }
und das gedruckte Ergebnis ist
string ‘html‘ (length=4)
Da der Knotenname dieses HTML-Codes html ist und mein Englisch nicht gut ist, dachte ich, das Programm sei falsch, als ich anfing, es zu verwenden. . .
Wenn im tatsächlichen Verwendungsprozess der neue Crawler ($html) verstümmelte Zeichen aufweist, sollte dies mit der Seitencodierung zusammenhängen. Sie können also die folgende Methode verwenden: Initialisieren Sie zuerst den Crawler und fügen Sie dann den Knoten < hinzu 🎜>
$crawler = new Crawler(); $crawler->addHtmlContent($html);
echo $crawler->filterXPath(‘//body/p‘)->text(); echo $crawler->filterXPath(‘//body/p‘)->last()->text();
var_dump($crawler->filterXPath(‘//body‘)->html());
foreach ($crawler->filterXPath(‘//body/p‘) as $i => $node) { $c = new Crawler($node); echo $c->filter(‘p‘)->text(); }
$nodeValues = $crawler->filterXPath(‘//body/p‘)->each(function (Crawler $node, $i) { return $node->text(); });
Andere Verwendungen
echo $crawler->filterXPath(‘//body/p‘)->attr(‘class‘);
$crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a‘)->attr(‘href‘); $crawler->filterXPath(‘//p[@class="样式"]‘)->filter(‘a>img‘)->extract(array(‘alt‘, ‘href‘))
Das obige ist der detaillierte Inhalt vonVerwenden Sie die Crawler-Komponente, um HTML in Laravel zu analysieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!