Scraping dynamischer Inhalte mit Node.js
Beim Scraping von Websites ist es nicht ungewöhnlich, auf dynamische Inhalte zu stoßen, die möglicherweise nicht sofort sichtbar sind, wenn die Seite lädt. Um effektiv Daten aus diesen Seiten zu extrahieren, müssen Sie verstehen, wie solche Inhalte erstellt werden.
Beispiel mit Cheerio
Bedenken Sie den folgenden Codeausschnitt:
var request = require('request'); var cheerio = require('cheerio'); var url = "http://www.bdtong.co.kr/index.php?c_category=C02"; request(url, function (err, res, html) { var $ = cheerio.load(html); $('.listMain > li').each(function () { console.log($(this).find('a').attr('href')); }); });
Dieser Code versucht, eine Website mit Cheerio zu crawlen, gibt jedoch leere Ergebnisse zurück, da die Elemente, die Sie extrahieren möchten (
Lösung: Verwendung von PhantomJS
Um dynamische Inhalte zu scrapen, benötigen Sie eine Lösung, die JavaScript ausführen und einen Browser simulieren kann. Hier kommt PhantomJS ins Spiel. PhantomJS ist eine Headless-Browser-Engine, mit der Sie JavaScript-Befehle ausführen und Webseiten rendern können.
So können Sie Ihren Code mit PhantomJS ändern:
var phantom = require('phantom'); phantom.create(function (ph) { ph.createPage(function (page) { var url = "http://www.bdtong.co.kr/index.php?c_category=C02"; page.open(url, function() { page.includeJs("http://ajax.googleapis.com/ajax/libs/jquery/1.6.1/jquery.min.js", function() { page.evaluate(function() { $('.listMain > li').each(function () { console.log($(this).find('a').attr('href')); }); }, function(){ ph.exit() }); }); }); }); });Durch die Einbindung von PhantomJS können Sie jetzt JavaScript auf der Seite ausführen und das DOM manipulieren, um den benötigten dynamischen Inhalt zu extrahieren.
Das obige ist der detaillierte Inhalt vonWie kann ich dynamische Website-Inhalte mit Node.js und PhantomJS scrapen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!