Stracage sur le Web dans Node.js-js tutoriel-php.cn

Web Scraping in Node.js

Points de base

<ul>

> La rampe Web de Node.js implique le téléchargement du code source à partir d'un serveur distant et l'extraction de données. <code>cheerio Le module request

implémente un sous-ensemble de jQuery qui peut construire et analyser Dom à partir de chaînes HTML, mais il peut être difficile de gérer le HTML mal structuré.

cheerio combinant

peut créer un robot Web complet pour extraire des éléments spécifiques d'une page Web, mais gérer le contenu dynamique, éviter les interdictions et manipuler les sites Web qui nécessitent une connexion ou utiliser le captcha sera plus compliqué et peut nécessiter Outils ou stratégies supplémentaires. request cheerio

Le Crawler Web est un logiciel qui accéde à des pages Web et en extrait des données. En raison de problèmes tels que la duplication du contenu, le compromis Web est un sujet quelque peu controversé. La plupart des propriétaires de sites Web préfèrent accéder à leurs données via des API accessibles au public. Malheureusement, de nombreux sites Web offrent une mauvaise qualité d'API et même pas du tout API. Cela a forcé de nombreux développeurs à se tourner vers le compromis Web. Cet article vous apprendra à implémenter votre propre robot Web dans Node.js. La première étape de la rampe Web consiste à télécharger le code source à partir du serveur distant. Dans "Faire des demandes HTTP dans Node.js", les lecteurs ont appris à utiliser la page de téléchargement du module . L'exemple suivant examine rapidement comment faire une demande de get dans node.js.

request

La deuxième étape du flux Web, qui est également une étape plus difficile, consiste à extraire les données du code source téléchargé. Côté client, cette tâche peut être facilement accomplie à l'aide de bibliothèques telles que l'API sélecteur ou JQuery. Malheureusement, ces solutions reposent sur des hypothèses selon lesquelles Dom peut être interrogé. Malheureusement, Node.js ne fournit pas DOM. Ou y en a-t-il?

var request = require("request");

request({
  uri: "http://www.sitepoint.com",
}, function(error, response, body) {
  console.log(body);
});

Copier après la connexion

module Cheerio

Bien que Node.js ne dispose pas de DOM intégré, il existe des modules qui peuvent construire DOM à partir des chaînes de code source HTML. Deux modules DOM populaires sont

. Cet article se concentre sur <code>cheerio, qui peut être installé en utilisant la commande suivante: jsdom cheerio Le module

npm install cheerio

Copier après la connexion

implémente un sous-ensemble de jQuery, ce qui signifie que de nombreux développeurs peuvent démarrer rapidement. En fait,

est très similaire à jQuery, et il est facile de vous retrouver à essayer d'utiliser la fonction jQuery non implémentée dans <code>cheerio. L'exemple suivant montre comment analyser les chaînes HTML en utilisant <code>cheerio. La première ligne importera <code>cheerio dans le programme. <code>cheerio La variable enregistre le fragment HTML à analyser. Sur la ligne 3, analysez HTML en utilisant <code>cheerio. Le résultat est attribué à la variable html. Le signe du dollar a été choisi car il était traditionnellement utilisé dans jQuery. La ligne 4 utilise le sélecteur de style CSS pour sélectionner l'élément <code>cheerio . Enfin, utilisez la méthode $ pour imprimer le HTML interne de la liste. <ul>

var request = require("request");

request({
  uri: "http://www.sitepoint.com",
}, function(error, response, body) {
  console.log(body);
});

Copier après la connexion

limitations

<code>cheerio est en cours de développement actif et s'améliore constamment. Cependant, il a encore certaines limites. <code>cheerio L'aspect le plus frustrant est l'analyseur HTML. L'analyse HTML est un problème difficile, et il existe de nombreuses pages Web qui contiennent un mauvais HTML. Bien que <code>cheerio ne se bloque pas sur ces pages, vous pouvez vous retrouver incapable de sélectionner des éléments. Cela rend difficile de déterminer si l'erreur est votre sélecteur ou la page elle-même.

Crawl jspro

L'exemple suivant combine request et <code>cheerio pour créer un robot Web complet. Cet échantillon de chenilles extrait le titre et l'URL de tous les articles sur la page d'accueil JSPRO. Les deux premières lignes importent le module requis dans l'exemple. Téléchargez le code source de la page d'accueil JSPRO des lignes 3 à 5. Ensuite, passez le code source à <code>cheerio pour l'analyse.

npm install cheerio

Copier après la connexion

Si vous regardez le code source JSPRO, vous remarquerez que chaque titre de publication est un lien contenu dans l'élément entry-title avec la classe <a></a>. Le sélecteur de la ligne 7 sélectionne tous les liens de l'article. Ensuite, utilisez la fonction each() pour parcourir tous les articles. Enfin, le titre de l'article et l'URL sont obtenus à partir du texte du lien et des propriétés href, respectivement.

Conclusion

Cet article vous montre comment créer un simple robot Web dans Node.js. Notez que ce n'est pas le seul moyen d'explorer une page Web. Il existe d'autres technologies, telles que l'utilisation de navigateurs sans tête, qui sont plus puissants mais peuvent affecter la simplicité et / ou la vitesse. Veuillez suivre les prochains articles sur le navigateur sans tête Phantomjs.

NODE.JS FAQ CRAWLING WEB (FAQ)

Comment gérer le contenu dynamique dans Node.js Web Crawl?

Gestion du contenu dynamique dans Node.js peut être un peu délicat car le contenu est chargé de manière asynchrone. Vous pouvez utiliser une bibliothèque comme Puppeteer, qui est une bibliothèque Node.js qui fournit une API de haut niveau pour contrôler Chrome ou Chromium via le protocole Devtools. Puppeteer s'exécute en mode sans tête par défaut, mais peut être configuré pour exécuter le chrome ou le chrome complet (non sans tête). Cela vous permet de ramper le contenu dynamique en simulant les interactions utilisateur.

Comment éviter d'être banni lors de la rampe d'une page Web?

Si le site Web détecte un trafic anormal, la rampe Web peut parfois provoquer l'interdiction de votre IP. Pour éviter cela, vous pouvez utiliser des techniques telles que la rotation de votre adresse IP, l'utilisation de retards et même l'utilisation d'une API rampante qui gère automatiquement ces problèmes.

Comment explorer les données du site Web que vous devez vous connecter?

Pour faire craquer les données du site Web que vous devez vous connecter, vous pouvez utiliser des marionnetsteer. Le marionnettiste peut simuler le processus de connexion en remplissant le formulaire de connexion et en le soumettant. Une fois connecté, vous pouvez naviguer vers la page que vous souhaitez et ramper les données.

Comment enregistrer les données rampantes dans la base de données?

Après avoir rampé les données, vous pouvez utiliser le client de la base de données de la base de données de votre choix. Par exemple, si vous utilisez MongoDB, vous pouvez utiliser le client MongoDB Node.js pour vous connecter à votre base de données et enregistrer les données.

Comment explorer les données d'un site Web avec pagination?

Pour explorer les données d'un site Web avec pagination, vous pouvez utiliser une boucle pour parcourir la page. Dans chaque itération, vous pouvez ramper les données à partir de la page actuelle et cliquer sur le bouton de la page suivante pour accéder à la page suivante.

Comment explorer les données d'un site Web avec défilement infini?

Pour explorer les données d'un site Web avec un défilement infini, vous pouvez utiliser des marionnetsteer pour simuler le défilement vers le bas. Vous pouvez utiliser une boucle pour faire défiler en continu jusqu'à ce que de nouvelles données ne soient plus chargées.

Comment gérer les erreurs dans le flux Web?

La gestion des erreurs est cruciale dans la rampe Web. Vous pouvez utiliser le bloc d'essai pour gérer les erreurs. Dans le bloc Catch, vous pouvez enregistrer les messages d'erreur, ce qui vous aidera à déboguer le problème.

Comment explorer les données d'un site Web à l'aide de l'AJAX?

Pour explorer les données d'un site Web qui utilise AJAX, vous pouvez utiliser Puppeteer. Le marionnettiste peut attendre que l'appel Ajax se termine, puis saisir les données.

Comment accélérer le compromis Web dans Node.js?

Pour accélérer le robinet Web, vous pouvez utiliser des techniques telles que le traitement parallèle pour ouvrir plusieurs pages dans différents onglets et en tirer des données en même temps. Cependant, veillez à ne pas surcharger le site Web avec trop de demandes car cela peut faire interdire votre IP.

Comment explorer les données d'un site Web à l'aide de CAPTCHA?

Les données rampantes des sites Web utilisant CAPTCHA peuvent être difficiles. Vous pouvez utiliser des services comme 2CAPTCHA, qui fournissent une API pour résoudre CAPTCHA. Cependant, n'oubliez pas que dans certains cas, cela peut être illégal ou immoral. Respectez toujours les conditions d'utilisation du site Web.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!