Aujourd'hui, apprenons également le tutoriel crawler de Tang, puis suivons l'exploration simple de CNode.
Créer un projet craelr-demo
Nous créons d'abord un projet Express, puis supprimons tout le contenu du fichier app.js, car nous n'avons pas besoin d'afficher le contenu sur le Web pour le moment. Bien entendu, on peut aussi directement npm install express
dans un dossier vide pour utiliser les fonctions Express dont nous avons besoin.
Analyse du site Web cible
Comme le montre l'image, cela fait partie de la balise div sur la page d'accueil de CNode. Nous utilisons cette série d'identifiants et de classes pour localiser les informations dont nous avons besoin.
Utilisez le superagent pour obtenir les données sources
superagent est une bibliothèque Http utilisée par l'API ajax Son utilisation est similaire à jQuery Nous lançons une requête get via celle-ci et affichons le résultat dans la fonction de rappel.
Son résultat res est un objet contenant des informations sur l'URL cible, et le contenu du site Web est principalement dans son texte (chaîne).
Utilisez cheerio pour analyser
cheerio agit comme une fonction jQuery côté serveur. Nous utilisons d'abord son .load() pour charger du HTML, puis filtrons les éléments via le sélecteur CSS.
Le résultat est un objet. Appelez la fonction .each(function(index, element))
pour parcourir chaque objet et renvoyer les éléments HTML DOM.
Le résultat de la sortie console.log($element.attr('title'));
est 广州 2014年12月06日 NodeParty 之 UC 场
Les titres comme console.log($element.attr('href'));
sont affichés sous forme d'URL comme /topic/545c395becbcb78265856eb2
. Utilisez ensuite la fonction url.resolve() de NodeJS1 pour compléter l'URL complète.
Utilisez eventproxy pour explorer simultanément le contenu de chaque sujet
Le didacticiel montre des exemples de méthodes (séries) profondément imbriquées et de méthodes de compteur. Eventproxy utilise des méthodes d'événement (parallèles) pour résoudre ce problème. Lorsque toute l'exploration est terminée, eventproxy reçoit le message d'événement et appelle automatiquement la fonction de traitement pour vous.
Les résultats sont les suivants
Exercice prolongé (défi)
Obtenir le nom d'utilisateur et les points du message
Recherchez le nom de classe de l'utilisateur qui a commenté dans le code source de la page de l'article. Le nom de classe est réponse_auteur. Comme vous pouvez le voir dans le premier élément de console.log $('.reply_author').get(0)
, tout ce dont nous avons besoin est ici.
Tout d’abord, explorons un article et obtenons tout ce dont nous avons besoin en même temps.
Nous pouvons capturer des informations sur les points via https://cnodejs.org/user/username
Sur la page d'informations utilisateur $('.big').text().trim()
se trouvent les informations sur les points.
Utilisez la fonction .get(0) de cheerio pour obtenir le premier élément.
Ceci n'est qu'une capture d'un seul article, il en reste encore 40 qui doivent être modifiés.