Maison interface Web js tutoriel Comment utiliser le robot d'exploration Node.js pour implémenter des requêtes de pages Web

Comment utiliser le robot d'exploration Node.js pour implémenter des requêtes de pages Web

Jun 12, 2018 pm 02:54 PM
node.js

Cet article présente principalement le module de requête Web du robot Node.js. Maintenant, je le partage avec vous et le donne comme référence.

Cet article présente le module de requête Web du robot d'exploration Node.js et le partage avec tout le monde. Les détails sont les suivants :

Remarque : si vous téléchargez la dernière version de Nodegrass, car certaines méthodes l'ont fait. a été mis à jour, les exemples de cet article ne conviennent plus. Veuillez consulter les exemples dans l'adresse open source pour plus de détails.

1. Pourquoi devrais-je écrire un tel module ?

L'auteur souhaitait utiliser Node.js pour écrire un robot. Bien que la méthode de demande de ressources distantes fournie par l'API officielle Node.js soit très simple, veuillez vous référer à

. http:// nodejs.org/api/http.html Parmi elles, deux méthodes sont proposées pour les requêtes Http : http.get(options, callback) et http.request(options, callback

Vous le ferez). sachez en regardant la méthode, get La méthode est utilisée pour les requêtes get, tandis que la méthode de requête fournit plus de paramètres, tels que d'autres méthodes de requête, le port de l'hôte demandeur, etc. Les requêtes Https sont similaires à Http. L'exemple le plus simple :

var https = require('https');
https.get('https://encrypted.google.com/', function(res) {
 console.log("statusCode: ", res.statusCode);
 console.log("headers: ", res.headers);

 res.on('data', function(d) {
  process.stdout.write(d);
 });

}).on('error', function(e) {
 console.error(e);
});
Copier après la connexion

Pour le code ci-dessus, nous voulons simplement demander à l'hôte distant et obtenir les informations de réponse, telles que l'état de la réponse, l'en-tête de la réponse et le contenu du corps de la réponse. Le deuxième paramètre de la méthode get est une fonction de rappel. Nous obtenons les informations de réponse de manière asynchrone, et vous obtenez d (le deuxième paramètre de la méthode on. informations de réponse que vous avez demandées), il est très probable que des rappels seront à nouveau introduits lors de son utilisation, couche par couche, et finalement s'évanouiront. . . Pour la programmation asynchrone, certains étudiants habitués à écrire du code de manière synchrone sont très confus. Bien sûr, d'excellentes bibliothèques de synchronisation ont été fournies au pays et à l'étranger, comme Wind.js de Lao Zhao... Il semble que c'est un peu. farfelu. En fait, ce que nous voulons finalement obtenir en appelant get, ce sont les informations de réponse, et nous ne nous soucions pas du processus de surveillance tel que res.on car il est trop paresseux. Je ne veux pas res.on('data',func) à chaque fois, donc le nodegrass que je veux présenter aujourd'hui est né.

2. Nodegrass demande des ressources, comme $.get(url,func) de Jquery

L'exemple le plus simple :

var nodegrass = require('nodegrass');
nodegrass.get("http://www.baidu.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'gbk').on('error', function(e) {
  console.log("Got error: " + e.message);
});
Copier après la connexion

À première vue , il n'y a aucune différence avec l'original officiel, c'est en effet presque la même chose =. =! Il lui manque juste une couche de rappels de surveillance des événements de res.on('data',func). Croyez-le ou non, de toute façon, je me sens beaucoup plus à l'aise. Le deuxième paramètre est également une fonction de rappel, dans laquelle les données du paramètre sont le contenu du corps de la réponse, le statut est l'état de la réponse et les en-têtes sont les en-têtes de la réponse. Après avoir obtenu le contenu de la réponse, nous pouvons extraire toutes les informations qui nous intéressent des ressources obtenues. Bien entendu, dans cet exemple, il ne s’agit que d’une simple console imprimée. Le troisième paramètre est le codage des caractères. Actuellement, Node.js ne prend pas en charge gbk en interne, fait référence à iconv-lite pour le traitement. Par conséquent, si le codage de la page Web que vous demandez est gbk, comme Baidu. Ajoutez simplement ce paramètre.

Et les requêtes https ? S'il s'agit d'une API officielle, vous devez introduire le module https, mais la méthode request get est similaire à http, donc nodegrass les intègre d'ailleurs. Regardez l'exemple :

var nodegrass = require('nodegrass');
nodegrass.get("https://github.com",function(data,status,headers){
  console.log(status);
  console.log(headers);
  console.log(data);
},'utf8').on('error', function(e) {
  console.log("Got error: " + e.message);
});
Copier après la connexion

nodegrass identifiera automatiquement s'il s'agit de http ou de https en fonction de l'url. Bien sûr, votre URL doit l'avoir. Vous ne pouvez pas simplement écrire www.baidu.com/ mais http. https://www.baidu.com/.

Pour les demandes de publication, nodegrass fournit la méthode post, voir l'exemple :

var ng=require('nodegrass');
ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){
  var accessToken = JSON.parse(data);
  var err = null;
  if(accessToken.error){
     err = accessToken;
  }
  callback(err,accessToken);
  },headers,options,'utf8');
Copier après la connexion

Ce qui précède fait partie de Sina Weibo Auth2.0 demandant accessToken, dans lequel la demande de publication de nodegrass access_token est utilisée API.

La méthode post fournit plus de paramètres et d'options d'en-tête de demande d'en-tête - données de publication que la méthode get, qui sont tous des types de littéraux d'objet :

var headers = {
    'Content-Type': 'application/x-www-form-urlencoded',
    'Content-Length':data.length
  };

var options = {
       client_id : 'id',
     client_secret : 'cs',
     grant_type : 'authorization_code',
     redirect_uri : 'your callback url',
     code: acode
  };
Copier après la connexion

3. comme serveur proxy ? ...**

Regardez l'exemple :

var ng = require('nodegrass'),
   http=require('http'),
   url=require('url');

   http.createServer(function(req,res){
    var pathname = url.parse(req.url).pathname;
    
    if(pathname === '/'){
      ng.get('http://www.cnblogs.com/',function(data){
        res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'});
        res.write(data+"\n");
        res.end();
        },'utf8');
      }
   }).listen(8088);
   console.log('server listening 8088...');
Copier après la connexion

C'est aussi simple que cela, bien sûr, le serveur proxy est beaucoup plus compliqué, cela ne compte pas, mais. au moins vous accédez au port local 8088. Voyez-vous la page du blog ?

L'adresse open source de nodegrass : https://github.com/scottkiss/nodegrass

Ce qui précède est ce que j'ai compilé pour tout le monde. J'espère que cela sera utile à tout le monde à l'avenir. .

Articles connexes :

Parcours récursif JavaScript et parcours non récursif

Comment utiliser le composant de téléchargement Upload d'element-ui dans vue

Comment implémenter les appels entre méthodes dans vue

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Un article pour parler du contrôle de la mémoire dans Node Un article pour parler du contrôle de la mémoire dans Node Apr 26, 2023 pm 05:37 PM

Le service Node construit sur une base non bloquante et piloté par les événements présente l'avantage d'une faible consommation de mémoire et est très adapté à la gestion de requêtes réseau massives. Dans le contexte de demandes massives, les questions liées au « contrôle de la mémoire » doivent être prises en compte. 1. Le mécanisme de récupération de place du V8 et les limitations de mémoire Js sont contrôlés par la machine de récupération de place

Explication graphique détaillée de la mémoire et du GC du moteur Node V8 Explication graphique détaillée de la mémoire et du GC du moteur Node V8 Mar 29, 2023 pm 06:02 PM

Cet article vous donnera une compréhension approfondie de la mémoire et du garbage collector (GC) du moteur NodeJS V8. J'espère qu'il vous sera utile !

Parlons en profondeur du module File dans Node Parlons en profondeur du module File dans Node Apr 24, 2023 pm 05:49 PM

Le module de fichiers est une encapsulation des opérations de fichiers sous-jacentes, telles que l'ajout de lecture/écriture/ouverture/fermeture/suppression de fichiers, etc. La plus grande caractéristique du module de fichiers est que toutes les méthodes fournissent deux versions de **synchrone** et ** asynchrone**, with Les méthodes avec le suffixe sync sont toutes des méthodes de synchronisation, et celles qui n'en ont pas sont toutes des méthodes hétérogènes.

Parlons de la façon de choisir la meilleure image Docker Node.js ? Parlons de la façon de choisir la meilleure image Docker Node.js ? Dec 13, 2022 pm 08:00 PM

Le choix d'une image Docker pour Node peut sembler trivial, mais la taille et les vulnérabilités potentielles de l'image peuvent avoir un impact significatif sur votre processus CI/CD et votre sécurité. Alors, comment choisir la meilleure image Docker Node.js ?

Node.js 19 est officiellement sorti, parlons de ses 6 fonctionnalités majeures ! Node.js 19 est officiellement sorti, parlons de ses 6 fonctionnalités majeures ! Nov 16, 2022 pm 08:34 PM

Node 19 est officiellement publié. Cet article vous donnera une explication détaillée des 6 fonctionnalités majeures de Node.js 19. J'espère qu'il vous sera utile !

Parlons du mécanisme GC (garbage collection) dans Node.js Parlons du mécanisme GC (garbage collection) dans Node.js Nov 29, 2022 pm 08:44 PM

Comment Node.js fait-il le GC (garbage collection) ? L’article suivant vous guidera à travers cela.

Parlons de la boucle d'événements dans Node Parlons de la boucle d'événements dans Node Apr 11, 2023 pm 07:08 PM

La boucle d'événements est un élément fondamental de Node.js et permet une programmation asynchrone en garantissant que le thread principal n'est pas bloqué. Comprendre la boucle d'événements est crucial pour créer des applications efficaces. L'article suivant vous donnera une compréhension approfondie de la boucle d'événements dans Node. J'espère qu'il vous sera utile !

Que dois-je faire si le nœud ne peut pas utiliser la commande npm ? Que dois-je faire si le nœud ne peut pas utiliser la commande npm ? Feb 08, 2023 am 10:09 AM

La raison pour laquelle le nœud ne peut pas utiliser la commande npm est que les variables d'environnement ne sont pas configurées correctement. La solution est la suivante : 1. Ouvrez "Propriétés système" ; 2. Recherchez "Variables d'environnement" -> "Variables système", puis modifiez l'environnement. variables ; 3. Recherchez l'emplacement du dossier nodejs ; 4. Cliquez sur "OK".

See all articles