


Comment utiliser le robot d'exploration Node.js pour implémenter des requêtes de pages Web
Cet article présente principalement le module de requête Web du robot Node.js. Maintenant, je le partage avec vous et le donne comme référence.
Cet article présente le module de requête Web du robot d'exploration Node.js et le partage avec tout le monde. Les détails sont les suivants :
Remarque : si vous téléchargez la dernière version de Nodegrass, car certaines méthodes l'ont fait. a été mis à jour, les exemples de cet article ne conviennent plus. Veuillez consulter les exemples dans l'adresse open source pour plus de détails.
1. Pourquoi devrais-je écrire un tel module ?
L'auteur souhaitait utiliser Node.js pour écrire un robot. Bien que la méthode de demande de ressources distantes fournie par l'API officielle Node.js soit très simple, veuillez vous référer à
. http:// nodejs.org/api/http.html Parmi elles, deux méthodes sont proposées pour les requêtes Http : http.get(options, callback) et http.request(options, callback
Vous le ferez). sachez en regardant la méthode, get La méthode est utilisée pour les requêtes get, tandis que la méthode de requête fournit plus de paramètres, tels que d'autres méthodes de requête, le port de l'hôte demandeur, etc. Les requêtes Https sont similaires à Http. L'exemple le plus simple :
var https = require('https'); https.get('https://encrypted.google.com/', function(res) { console.log("statusCode: ", res.statusCode); console.log("headers: ", res.headers); res.on('data', function(d) { process.stdout.write(d); }); }).on('error', function(e) { console.error(e); });
Pour le code ci-dessus, nous voulons simplement demander à l'hôte distant et obtenir les informations de réponse, telles que l'état de la réponse, l'en-tête de la réponse et le contenu du corps de la réponse. Le deuxième paramètre de la méthode get est une fonction de rappel. Nous obtenons les informations de réponse de manière asynchrone, et vous obtenez d (le deuxième paramètre de la méthode on. informations de réponse que vous avez demandées), il est très probable que des rappels seront à nouveau introduits lors de son utilisation, couche par couche, et finalement s'évanouiront. . . Pour la programmation asynchrone, certains étudiants habitués à écrire du code de manière synchrone sont très confus. Bien sûr, d'excellentes bibliothèques de synchronisation ont été fournies au pays et à l'étranger, comme Wind.js de Lao Zhao... Il semble que c'est un peu. farfelu. En fait, ce que nous voulons finalement obtenir en appelant get, ce sont les informations de réponse, et nous ne nous soucions pas du processus de surveillance tel que res.on car il est trop paresseux. Je ne veux pas res.on('data',func) à chaque fois, donc le nodegrass que je veux présenter aujourd'hui est né.
2. Nodegrass demande des ressources, comme $.get(url,func) de Jquery
L'exemple le plus simple :
var nodegrass = require('nodegrass'); nodegrass.get("http://www.baidu.com",function(data,status,headers){ console.log(status); console.log(headers); console.log(data); },'gbk').on('error', function(e) { console.log("Got error: " + e.message); });
À première vue , il n'y a aucune différence avec l'original officiel, c'est en effet presque la même chose =. =! Il lui manque juste une couche de rappels de surveillance des événements de res.on('data',func). Croyez-le ou non, de toute façon, je me sens beaucoup plus à l'aise. Le deuxième paramètre est également une fonction de rappel, dans laquelle les données du paramètre sont le contenu du corps de la réponse, le statut est l'état de la réponse et les en-têtes sont les en-têtes de la réponse. Après avoir obtenu le contenu de la réponse, nous pouvons extraire toutes les informations qui nous intéressent des ressources obtenues. Bien entendu, dans cet exemple, il ne s’agit que d’une simple console imprimée. Le troisième paramètre est le codage des caractères. Actuellement, Node.js ne prend pas en charge gbk en interne, fait référence à iconv-lite pour le traitement. Par conséquent, si le codage de la page Web que vous demandez est gbk, comme Baidu. Ajoutez simplement ce paramètre.
Et les requêtes https ? S'il s'agit d'une API officielle, vous devez introduire le module https, mais la méthode request get est similaire à http, donc nodegrass les intègre d'ailleurs. Regardez l'exemple :
var nodegrass = require('nodegrass'); nodegrass.get("https://github.com",function(data,status,headers){ console.log(status); console.log(headers); console.log(data); },'utf8').on('error', function(e) { console.log("Got error: " + e.message); });
nodegrass identifiera automatiquement s'il s'agit de http ou de https en fonction de l'url. Bien sûr, votre URL doit l'avoir. Vous ne pouvez pas simplement écrire www.baidu.com/ mais http. https://www.baidu.com/.
Pour les demandes de publication, nodegrass fournit la méthode post, voir l'exemple :
var ng=require('nodegrass'); ng.post("https://api.weibo.com/oauth2/access_token",function(data,status,headers){ var accessToken = JSON.parse(data); var err = null; if(accessToken.error){ err = accessToken; } callback(err,accessToken); },headers,options,'utf8');
Ce qui précède fait partie de Sina Weibo Auth2.0 demandant accessToken, dans lequel la demande de publication de nodegrass access_token est utilisée API.
La méthode post fournit plus de paramètres et d'options d'en-tête de demande d'en-tête - données de publication que la méthode get, qui sont tous des types de littéraux d'objet :
var headers = { 'Content-Type': 'application/x-www-form-urlencoded', 'Content-Length':data.length }; var options = { client_id : 'id', client_secret : 'cs', grant_type : 'authorization_code', redirect_uri : 'your callback url', code: acode };
3. comme serveur proxy ? ...**
Regardez l'exemple :
var ng = require('nodegrass'), http=require('http'), url=require('url'); http.createServer(function(req,res){ var pathname = url.parse(req.url).pathname; if(pathname === '/'){ ng.get('http://www.cnblogs.com/',function(data){ res.writeHeader(200,{'Content-Type':'text/html;charset=utf-8'}); res.write(data+"\n"); res.end(); },'utf8'); } }).listen(8088); console.log('server listening 8088...');
C'est aussi simple que cela, bien sûr, le serveur proxy est beaucoup plus compliqué, cela ne compte pas, mais. au moins vous accédez au port local 8088. Voyez-vous la page du blog ?
L'adresse open source de nodegrass : https://github.com/scottkiss/nodegrass
Ce qui précède est ce que j'ai compilé pour tout le monde. J'espère que cela sera utile à tout le monde à l'avenir. .
Articles connexes :
Parcours récursif JavaScript et parcours non récursif
Comment utiliser le composant de téléchargement Upload d'element-ui dans vue
Comment implémenter les appels entre méthodes dans vue
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le service Node construit sur une base non bloquante et piloté par les événements présente l'avantage d'une faible consommation de mémoire et est très adapté à la gestion de requêtes réseau massives. Dans le contexte de demandes massives, les questions liées au « contrôle de la mémoire » doivent être prises en compte. 1. Le mécanisme de récupération de place du V8 et les limitations de mémoire Js sont contrôlés par la machine de récupération de place

Cet article vous donnera une compréhension approfondie de la mémoire et du garbage collector (GC) du moteur NodeJS V8. J'espère qu'il vous sera utile !

Le module de fichiers est une encapsulation des opérations de fichiers sous-jacentes, telles que l'ajout de lecture/écriture/ouverture/fermeture/suppression de fichiers, etc. La plus grande caractéristique du module de fichiers est que toutes les méthodes fournissent deux versions de **synchrone** et ** asynchrone**, with Les méthodes avec le suffixe sync sont toutes des méthodes de synchronisation, et celles qui n'en ont pas sont toutes des méthodes hétérogènes.

Le choix d'une image Docker pour Node peut sembler trivial, mais la taille et les vulnérabilités potentielles de l'image peuvent avoir un impact significatif sur votre processus CI/CD et votre sécurité. Alors, comment choisir la meilleure image Docker Node.js ?

Node 19 est officiellement publié. Cet article vous donnera une explication détaillée des 6 fonctionnalités majeures de Node.js 19. J'espère qu'il vous sera utile !

Comment Node.js fait-il le GC (garbage collection) ? L’article suivant vous guidera à travers cela.

La boucle d'événements est un élément fondamental de Node.js et permet une programmation asynchrone en garantissant que le thread principal n'est pas bloqué. Comprendre la boucle d'événements est crucial pour créer des applications efficaces. L'article suivant vous donnera une compréhension approfondie de la boucle d'événements dans Node. J'espère qu'il vous sera utile !

La raison pour laquelle le nœud ne peut pas utiliser la commande npm est que les variables d'environnement ne sont pas configurées correctement. La solution est la suivante : 1. Ouvrez "Propriétés système" ; 2. Recherchez "Variables d'environnement" -> "Variables système", puis modifiez l'environnement. variables ; 3. Recherchez l'emplacement du dossier nodejs ; 4. Cliquez sur "OK".
