Maison > interface Web > js tutoriel > le corps du texte

L'ensemble du processus de création d'un robot avec NodeJS_node.js

WBOY
Libérer: 2016-05-16 16:25:03
original
1814 Les gens l'ont consulté

Aujourd'hui, apprenons également le tutoriel crawler de Tang, puis suivons l'exploration simple de CNode.

Créer un projet craelr-demo
Nous créons d'abord un projet Express, puis supprimons tout le contenu du fichier app.js, car nous n'avons pas besoin d'afficher le contenu sur le Web pour le moment. Bien entendu, on peut aussi directement npm install express dans un dossier vide pour utiliser les fonctions Express dont nous avons besoin.

Analyse du site Web cible
Comme le montre l'image, cela fait partie de la balise div sur la page d'accueil de CNode. Nous utilisons cette série d'identifiants et de classes pour localiser les informations dont nous avons besoin.

Utilisez le superagent pour obtenir les données sources

superagent est une bibliothèque Http utilisée par l'API ajax Son utilisation est similaire à jQuery Nous lançons une requête get via celle-ci et affichons le résultat dans la fonction de rappel.

Copier le code Le code est le suivant :

var express = require('express');
var url = require('url'); //Analyser l'url de l'opération
var superagent = require('superagent'); //N'oubliez pas de npm install
pour ces trois dépendances externes var cheerio = require('cheerio');
var eventproxy = require('eventproxy');
var targetUrl = 'https://cnodejs.org/';
superagent.get(targetUrl)
.end(function (err, res) {
console.log(res);
});

Son résultat res est un objet contenant des informations sur l'URL cible, et le contenu du site Web est principalement dans son texte (chaîne).

Utilisez cheerio pour analyser

cheerio agit comme une fonction jQuery côté serveur. Nous utilisons d'abord son .load() pour charger du HTML, puis filtrons les éléments via le sélecteur CSS.

Copier le code Le code est le suivant :

var $ = cheerio.load(res.text);
//Filtrer les données via le sélecteur CSS
$('#topic_list .topic_title').each(function (idx, element) {
console.log(élément);
});

Le résultat est un objet. Appelez la fonction .each(function(index, element)) pour parcourir chaque objet et renvoyer les éléments HTML DOM.

Le résultat de la sortie console.log($element.attr('title')); est 广州 2014年12月06日 NodeParty 之 UC 场
Les titres comme console.log($element.attr('href')); sont affichés sous forme d'URL comme /topic/545c395becbcb78265856eb2. Utilisez ensuite la fonction url.resolve() de NodeJS1 pour compléter l'URL complète.

Copier le code Le code est le suivant :

superagent.get(tUrl)
.end(function (err, res) {
Si (erreur) {
                return console.error(err);
>
        var topicUrls = [];
      var $ = cheerio.load(res.text);
//Obtenez tous les liens sur la page d'accueil
           $('#topic_list .topic_title').each(function (idx, element) {
            var $element = $(element);
            var href = url.resolve(tUrl, $element.attr('href'));
console.log(href);
                     //topicUrls.push(href);
        });
});

Utilisez eventproxy pour explorer simultanément le contenu de chaque sujet
Le didacticiel montre des exemples de méthodes (séries) profondément imbriquées et de méthodes de compteur. Eventproxy utilise des méthodes d'événement (parallèles) pour résoudre ce problème. Lorsque toute l'exploration est terminée, eventproxy reçoit le message d'événement et appelle automatiquement la fonction de traitement pour vous.

Copier le code Le code est le suivant :

//Première étape : obtenir une instance d'eventproxy
var ep = new eventproxy();
//Étape 2 : Définir la fonction de rappel pour les événements d'écoute.
//La méthode after est une surveillance répétée
//params : eventname(String) nom de l'événement, times(Number) nombre de temps d'écoute, fonction de rappel
ep.after('topic_html', topicUrls.length, function(topics){
// topic est un tableau contenant les 40 paires
dans ep.emit('topic_html', pair) 40 fois //.map
sujets = sujets.map(fonction(topicPair){
            //utiliser cheerio
        var topicUrl = topicPair[0];
        var topicHtml = topicPair[1];
        var $ = cheerio.load(topicHtml);
         retour ({
               titre : $('.topic_full_title').text().trim(),
            href : topicUrl,
               commentaire1 : $('.reply_content').eq(0).text().trim()
        });
});
//résultat
console.log('résultat :');
console.log(sujets);
});
//Étape 3 : Déterminez le
qui libère le message d'événement topicUrls.forEach (fonction (topicUrl) {
Superagent.get(topicUrl)
        .end(function (err, res) {
console.log('fetch 'topicUrl 'avec succès');
             ep.emit('topic_html', [topicUrl, res.text]);
        });
});

Les résultats sont les suivants

Exercice prolongé (défi)

Obtenir le nom d'utilisateur et les points du message

Recherchez le nom de classe de l'utilisateur qui a commenté dans le code source de la page de l'article. Le nom de classe est réponse_auteur. Comme vous pouvez le voir dans le premier élément de console.log $('.reply_author').get(0), tout ce dont nous avons besoin est ici.

Tout d’abord, explorons un article et obtenons tout ce dont nous avons besoin en même temps.

Copier le code Le code est le suivant :

var userHref = url.resolve(tUrl, $('.reply_author').get(0).attribs.href);
console.log(userHref);
console.log($('.reply_author').get(0).children[0].data);

Nous pouvons capturer des informations sur les points via https://cnodejs.org/user/username

Copier le code Le code est le suivant :

$('.reply_author').each(function (idx, element) {
var $élément = $(élément);
console.log($element.attr('href'));
});

Sur la page d'informations utilisateur $('.big').text().trim() se trouvent les informations sur les points.

Utilisez la fonction .get(0) de cheerio pour obtenir le premier élément.

Copier le code Le code est le suivant :

var userHref = url.resolve(tUrl, $('.reply_author').get(0).attribs.href);
console.log(userHref);

Ceci n'est qu'une capture d'un seul article, il en reste encore 40 qui doivent être modifiés.

Étiquettes associées:
source:php.cn
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal