Comment écrire un robot en utilisant JavaScript

WBOY
Libérer: 2023-05-29 13:42:08
original
1305 Les gens l'ont consulté

Avec le développement continu de la technologie Internet, les robots d'exploration (Web Crawler) sont devenus l'une des méthodes les plus populaires pour explorer des informations. Grâce à la technologie des robots d'exploration, nous pouvons facilement obtenir des données sur Internet et les utiliser dans de nombreux domaines tels que l'analyse de données, l'exploration de données et la modélisation. Le langage JavaScript attire de plus en plus d’attention en raison de ses puissants outils de développement front-end. Alors, comment écrire un robot en utilisant JavaScript ? Ensuite, cet article vous l'expliquera en détail.

1. Qu'est-ce qu'un reptile ?

Un robot d'exploration fait référence à un programme automatisé qui simule le comportement d'un navigateur pour accéder à divers sites Web du réseau et en extraire des informations. Un robot d'exploration peut générer une requête vers un site Web, obtenir une réponse correspondante, puis extraire les informations requises de la réponse. Sur Internet, de nombreux sites Web fournissent des interfaces API, mais certains sites Web ne fournissent pas de telles interfaces. Nous devons donc utiliser des robots d'exploration pour récupérer les données requises.

2. Principe et avantages du robot JavaScript

  1. Principe

Le principe du robot JavaScript est très simple. Il utilise principalement l'objet Window fourni par le navigateur pour simuler le comportement de requête d'une page Web via la fonction XMLHttpRequest ou Fetch. , puis utilise l'objet Document pour effectuer les opérations DOM afin d'obtenir l'arborescence DOM de la page, puis extraire les informations utiles sur la page Web.

  1. Avantages

Par rapport à d'autres langages de programmation, les avantages des robots d'exploration JavaScript sont :

(1) Facile à apprendre et à utiliser

La syntaxe du langage JavaScript est très concise et claire, et elle est largement utilisée devant -fin de développement Certaines de ses méthodes et techniques, également applicables à l'exploration Web.

(2) Possibilité de mettre en œuvre une exploration dynamique

Certains sites Web disposent de mécanismes anti-crawler. Pour les requêtes non dynamiques, la page peut renvoyer un message de refus d'accès. L'utilisation de JavaScript peut simuler le comportement du navigateur, facilitant ainsi l'exploration de certains sites Web dynamiques.

(3) Large application

JavaScript peut s'exécuter sur plusieurs terminaux et propose un large éventail de scénarios d'application.

3. Le processus d'utilisation de JavaScript pour écrire un robot d'exploration

Pour écrire un robot d'exploration JavaScript afin d'obtenir des données de page Web, vous devez suivre le processus suivant :

  1. Envoyer une demande : le robot d'exploration générera d'abord une URL et enverra une requête HTTP à cette URL pour obtenir les données demandées. Cela peut être fait en utilisant Ajax, fetch et d'autres méthodes.
  2. Obtenir le contenu HTML : les ressources de la page ont été téléchargées. À ce stade, nous devons analyser les données dans le HTML et obtenir le DOM après l'analyse, afin de pouvoir effectuer des opérations ultérieures sur diverses données.
  3. Analyser les données : comprenez les données qui doivent être explorées sur la page, ainsi que l'emplacement et le type de données où ces données apparaissent sur la page. Vous devrez peut-être utiliser des bibliothèques externes, telles que jQuery, cheerio, htmlparser2 et d'autres bibliothèques, qui peuvent analyser rapidement les données de la page.
  4. Enregistrer les données : vous devez utiliser le système de fichiers pour enregistrer les informations que nous avons récupérées.

Ci-dessous, nous utilisons un exemple pour expliquer le processus ci-dessus.

4. Apprenez à écrire des robots JavaScript à travers des exemples

Dans notre exemple, nous utiliserons Node.js, jQuery et cheerio. Voici le site Web que nous allons explorer : http://www.example.com

  1. Installer Node.js

Si Node.js n'est pas installé, vous devez d'abord télécharger la dernière version de Node.js. Exécutez la commande suivante pour vérifier que Node.js est installé avec succès.

node --version
Copier après la connexion

S'il est installé avec succès, le numéro de version de Node.js sera affiché sur la ligne de commande.

  1. Créer des répertoires et des fichiers

Créez un nouveau répertoire localement et créez un fichier JavaScript dans ce répertoire à l'aide du terminal. Par exemple, nous créons un répertoire nommé crawler et créons un fichier nommé crawler.js dans ce répertoire.

  1. Installez jQuery et cheerio

Nous utilisons jQuery léger dans Node.js au lieu de js natif pour faire fonctionner le DOM (document) et utilisons le module cheerio pour les opérations DOM. Exécutez les commandes suivantes pour installer la bibliothèque légère jQuery et le module cheerio.

npm install cheerio 
npm install jquery 
Copier après la connexion
  1. Écriture du code du robot JavaScript

Dans le fichier crawler.js, nous écrivons le code suivant.

Création d'un fichier JavaScript et importation de deux bibliothèques, cheerio et jQuery, qui nous permettent de manipuler le contenu HTML plus facilement. Ensuite, créez la bibliothèque express et construisez le serveur. Nous récupérons le site Web et demandons au module cheerio de charger le contenu HTML dans des variables, puis trouvons les éléments qui nous intéressent dans le contenu HTML et les publions sur la console.

Le code est le suivant :

// 导入库 
const cheerio = require('cheerio'); 
const express = require('express'); 
const request = require('request'); 

const app = express(); 

app.get('/', async (req, res, next) => { 
  try { 
    await request('http://www.example.com', (error, response, html) => { 
    
      const $ = cheerio.load(html); 
    
      const headings = $('h1'); 
    
      res.json(headings.text()); 
    }); 
  } catch (err) { 
    next(err); 
  } 
}); 

app.listen(3000); 

console.log('Server running at http://127.0.0.1:3000/');
Copier après la connexion

Analyse du code :

Demandez le contenu HTML du site http://www.example.com via la méthode get de la bibliothèque de requête La variable $ est une instance de cheerio. A travers cet exemple, utilisez les méthodes $() de manipulation du DOM et les méthodes de manipulation du HTML pour récupérer la balise H1 dans la balise BODY. Utilisez la méthode res.json pour afficher notre contenu HTML sur la console.

Remarque :

  1. Le contenu du site Web que le robot doit obtenir doit être public. Si une authentification de base est impliquée, le robot ne peut pas obtenir automatiquement les données.
  2. La vitesse du robot doit être appropriée, et il est préférable de ne pas être trop rapide, sinon le serveur pourrait penser que vous accédez anormalement.

5.Résumé

Cet article présente comment utiliser JavaScript pour écrire un robot ainsi que les avantages et les principes. L’avantage des robots d’exploration JavaScript est qu’ils sont faciles à apprendre et à utiliser, et qu’ils peuvent implémenter une exploration dynamique. Pour l'exploration dynamique de sites Web, l'utilisation de JavaScript est très pratique et simple en raison de ses avantages multiplateformes et de sa large application. Si vous souhaitez obtenir des données sur Internet et les utiliser dans l'analyse de données, l'exploration de données, la modélisation et dans d'autres domaines, les robots d'exploration JavaScript sont un bon choix.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal
À propos de nous Clause de non-responsabilité Sitemap
Site Web PHP chinois:Formation PHP en ligne sur le bien-être public,Aidez les apprenants PHP à grandir rapidement!