Points de base
<ul>request
cheerio
combinant request
cheerio
request
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
module Cheerio
Bien que Node.js ne dispose pas de DOM intégré, il existe des modules qui peuvent construire DOM à partir des chaînes de code source HTML. Deux modules DOM populaires sont
et. Cet article se concentre sur <code>cheerio, qui peut être installé en utilisant la commande suivante: jsdom
cheerio
Le module
npm install cheerio
est très similaire à jQuery, et il est facile de vous retrouver à essayer d'utiliser la fonction jQuery non implémentée dans <code>cheerio. L'exemple suivant montre comment analyser les chaînes HTML en utilisant <code>cheerio. La première ligne importera <code>cheerio dans le programme. <code>cheerio La variable enregistre le fragment HTML à analyser. Sur la ligne 3, analysez HTML en utilisant <code>cheerio. Le résultat est attribué à la variable html
. Le signe du dollar a été choisi car il était traditionnellement utilisé dans jQuery. La ligne 4 utilise le sélecteur de style CSS pour sélectionner l'élément <code>cheerio
. Enfin, utilisez la méthode $
pour imprimer le HTML interne de la liste. <ul>
var request = require("request"); request({ uri: "http://www.sitepoint.com", }, function(error, response, body) { console.log(body); });
<code>cheerio est en cours de développement actif et s'améliore constamment. Cependant, il a encore certaines limites. <code>cheerio L'aspect le plus frustrant est l'analyseur HTML. L'analyse HTML est un problème difficile, et il existe de nombreuses pages Web qui contiennent un mauvais HTML. Bien que <code>cheerio ne se bloque pas sur ces pages, vous pouvez vous retrouver incapable de sélectionner des éléments. Cela rend difficile de déterminer si l'erreur est votre sélecteur ou la page elle-même.
Crawl jspro
L'exemple suivant combine request
et <code>cheerio pour créer un robot Web complet. Cet échantillon de chenilles extrait le titre et l'URL de tous les articles sur la page d'accueil JSPRO. Les deux premières lignes importent le module requis dans l'exemple. Téléchargez le code source de la page d'accueil JSPRO des lignes 3 à 5. Ensuite, passez le code source à <code>cheerio pour l'analyse.
npm install cheerio
Si vous regardez le code source JSPRO, vous remarquerez que chaque titre de publication est un lien contenu dans l'élément entry-title
avec la classe <a></a>
. Le sélecteur de la ligne 7 sélectionne tous les liens de l'article. Ensuite, utilisez la fonction each()
pour parcourir tous les articles. Enfin, le titre de l'article et l'URL sont obtenus à partir du texte du lien et des propriétés href
, respectivement.
Conclusion
Cet article vous montre comment créer un simple robot Web dans Node.js. Notez que ce n'est pas le seul moyen d'explorer une page Web. Il existe d'autres technologies, telles que l'utilisation de navigateurs sans tête, qui sont plus puissants mais peuvent affecter la simplicité et / ou la vitesse. Veuillez suivre les prochains articles sur le navigateur sans tête Phantomjs.
NODE.JS FAQ CRAWLING WEB (FAQ)
Gestion du contenu dynamique dans Node.js peut être un peu délicat car le contenu est chargé de manière asynchrone. Vous pouvez utiliser une bibliothèque comme Puppeteer, qui est une bibliothèque Node.js qui fournit une API de haut niveau pour contrôler Chrome ou Chromium via le protocole Devtools. Puppeteer s'exécute en mode sans tête par défaut, mais peut être configuré pour exécuter le chrome ou le chrome complet (non sans tête). Cela vous permet de ramper le contenu dynamique en simulant les interactions utilisateur.
Si le site Web détecte un trafic anormal, la rampe Web peut parfois provoquer l'interdiction de votre IP. Pour éviter cela, vous pouvez utiliser des techniques telles que la rotation de votre adresse IP, l'utilisation de retards et même l'utilisation d'une API rampante qui gère automatiquement ces problèmes.
Pour faire craquer les données du site Web que vous devez vous connecter, vous pouvez utiliser des marionnetsteer. Le marionnettiste peut simuler le processus de connexion en remplissant le formulaire de connexion et en le soumettant. Une fois connecté, vous pouvez naviguer vers la page que vous souhaitez et ramper les données.
Après avoir rampé les données, vous pouvez utiliser le client de la base de données de la base de données de votre choix. Par exemple, si vous utilisez MongoDB, vous pouvez utiliser le client MongoDB Node.js pour vous connecter à votre base de données et enregistrer les données.
Pour explorer les données d'un site Web avec pagination, vous pouvez utiliser une boucle pour parcourir la page. Dans chaque itération, vous pouvez ramper les données à partir de la page actuelle et cliquer sur le bouton de la page suivante pour accéder à la page suivante.
Pour explorer les données d'un site Web avec un défilement infini, vous pouvez utiliser des marionnetsteer pour simuler le défilement vers le bas. Vous pouvez utiliser une boucle pour faire défiler en continu jusqu'à ce que de nouvelles données ne soient plus chargées.
La gestion des erreurs est cruciale dans la rampe Web. Vous pouvez utiliser le bloc d'essai pour gérer les erreurs. Dans le bloc Catch, vous pouvez enregistrer les messages d'erreur, ce qui vous aidera à déboguer le problème.
Pour explorer les données d'un site Web qui utilise AJAX, vous pouvez utiliser Puppeteer. Le marionnettiste peut attendre que l'appel Ajax se termine, puis saisir les données.
Pour accélérer le robinet Web, vous pouvez utiliser des techniques telles que le traitement parallèle pour ouvrir plusieurs pages dans différents onglets et en tirer des données en même temps. Cependant, veillez à ne pas surcharger le site Web avec trop de demandes car cela peut faire interdire votre IP.
Les données rampantes des sites Web utilisant CAPTCHA peuvent être difficiles. Vous pouvez utiliser des services comme 2CAPTCHA, qui fournissent une API pour résoudre CAPTCHA. Cependant, n'oubliez pas que dans certains cas, cela peut être illégal ou immoral. Respectez toujours les conditions d'utilisation du site Web.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!