


Une brève introduction au framework de robot d'exploration Python Scrapy
Cet article vous apporte une brève introduction au framework de robot d'exploration Python Scrapy. Il a une certaine valeur de référence. Les amis dans le besoin peuvent s'y référer.
Framework Scrapy
Scrapy est un framework d'application écrit en Python pur pour explorer les données de sites Web et extraire des données structurelles. Il a un large éventail d'utilisations.
Grâce à la puissance du framework, les utilisateurs n'ont besoin que de personnaliser et de développer quelques modules pour implémenter facilement un robot pour explorer le contenu Web et diverses images, ce qui est très pratique.
Scrapy utilise le framework réseau asynchrone Twisted'twɪstɪd pour gérer la communication réseau, ce qui peut accélérer nos téléchargements sans avoir à implémenter le framework asynchrone nous-mêmes. Il contient également diverses interfaces middleware et peut répondre de manière flexible à divers besoins.
Schéma d'architecture Scrapy (la ligne verte est le sens du flux de données) :
95625f65089e4bc98a269cfda6701597.png
Scrapy Engine : Responsable de la communication entre Spider, ItemPipeline, Downloader et Scheduler . Signaux, transfert de données, etc.
Planificateur : il est chargé d'accepter les demandes de requête envoyées par le moteur, de les trier d'une certaine manière, de les mettre en file d'attente et de les renvoyer au moteur lorsque celui-ci en a besoin.
Téléchargeur : responsable du téléchargement de toutes les demandes envoyées par Scrapy Engine et du renvoi des réponses obtenues à Scrapy Engine, qui sont transmises à Spider pour traitement.
Spider (crawler) : il est responsable de. traiter toutes les réponses, analyser et extraire les données, obtenir les données requises par le champ Article et soumettre l'URL qui doit être suivie au moteur, puis entrer à nouveau dans le planificateur (planificateur),
Item Pipeline ( pipeline) : Il est responsable du traitement des éléments obtenus à partir du Spider et d'effectuer le post-traitement (analyse détaillée, filtrage, stockage, etc.
Downloader Middlewares (middleware de téléchargement) : Vous Il peut être considéré comme). un composant qui peut être personnalisé pour étendre la fonction de téléchargement.
Spider Middlewares (Spider middleware) : vous pouvez le comprendre comme un composant fonctionnel qui peut personnaliser l'extension et exploiter la communication intermédiaire entre le moteur et Spider (telle que les réponses entrant dans Spider ; et les requêtes sortant de Spider)
b847d7fa404a404ca0a656028ada63b5.png
Si vous rencontrez de nombreuses questions et problèmes dans le processus d'apprentissage de Python, vous pouvez ajouter -q-u-n 227 -435-450 Il existe du matériel vidéo logiciel gratuit
Scrapy Le processus de fonctionnement
Le code est écrit et le programme commence à s'exécuter...
Moteur : Salut ! Spider, sur quel site travaillez-vous ?
Spider : Le patron veut que je m'occupe de xxxx.com.
Moteur : Donnez-moi la première URL qui doit être traitée.
Spider : Et voilà, la première URL est xxxxxxx.com.
Moteur : Salut ! Planificateur, j'ai une requête ici pour vous demander de m'aider à trier les files d'attente.
Planificateur : OK, traitement Veuillez patienter.
Moteur : Salut ! Planificateur, donnez-moi la demande que vous avez traitée.
Planificateur : Voilà, c'est la demande que j'ai traitée
Moteur : Salut ! Téléchargeur, aidez-moi s'il vous plaît à télécharger cette demande en fonction des paramètres du middleware de téléchargement du patron
Téléchargeur : OK ! Voilà, voici le téléchargement. (En cas d'échec : désolé, le téléchargement de cette requête a échoué. Ensuite, le moteur indique au planificateur que le téléchargement de cette requête a échoué. Vous l'enregistrez et nous la téléchargerons plus tard)
Moteur : Salut ! Spider, c'est quelque chose qui a été téléchargé et traité selon le middleware de téléchargement du patron. Vous pouvez le gérer vous-même (remarque ! Les réponses ici sont gérées par la fonction def parse() par défaut)
Spider. : (pour l'URL qui doit être suivie après le traitement des données), Salut ! Moteur, j'ai deux résultats ici, c'est l'URL que je dois suivre et voici les données d'article que j'ai obtenues.
Moteur : Salut ! Pipeline J'ai un objet ici. S'il vous plaît, aidez-moi à le gérer ! Planificateur ! Il s'agit d'une URL qui doit être suivie. Veuillez m'aider à la gérer. Recommencez ensuite le cycle à partir de l'étape 4 jusqu'à ce que vous ayez obtenu toutes les informations dont le patron a besoin.
Pipeline `` Scheduler : OK, faites-le maintenant !
Attention ! Ce n'est que lorsqu'il n'y a aucune requête dans le planificateur que l'ensemble du programme s'arrêtera (c'est-à-dire que Scrapy téléchargera à nouveau l'URL dont le téléchargement a échoué.)
Un total de 4 étapes sont nécessaires pour créer un robot d'exploration Scrapy. :
Nouveau projet (scrapy startproject xxx) : Créez un nouveau projet de robot
Effacer l'objectif (écrire items.py) : Effacez la cible que vous souhaitez explorer
Créer un robot d'exploration (spiders/xxspider.py) : créez un robot d'exploration pour commencer à explorer les pages Web
Contenu de stockage (pipelines.py) : concevez des pipelines pour stocker le contenu analysé
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

PHP et Python ont chacun leurs propres avantages et choisissent en fonction des exigences du projet. 1.Php convient au développement Web, en particulier pour le développement rapide et la maintenance des sites Web. 2. Python convient à la science des données, à l'apprentissage automatique et à l'intelligence artificielle, avec syntaxe concise et adaptée aux débutants.

Python excelle dans les jeux et le développement de l'interface graphique. 1) Le développement de jeux utilise Pygame, fournissant des fonctions de dessin, audio et d'autres fonctions, qui conviennent à la création de jeux 2D. 2) Le développement de l'interface graphique peut choisir Tkinter ou Pyqt. Tkinter est simple et facile à utiliser, PYQT a des fonctions riches et convient au développement professionnel.

La fonction ReadDir dans le système Debian est un appel système utilisé pour lire le contenu des répertoires et est souvent utilisé dans la programmation C. Cet article expliquera comment intégrer ReadDir avec d'autres outils pour améliorer sa fonctionnalité. Méthode 1: combinant d'abord le programme de langue C et le pipeline, écrivez un programme C pour appeler la fonction readdir et sortir le résultat: # include # include # include # includeIntmain (intargc, char * argv []) {dir * dir; structDirent * entrée; if (argc! = 2) {

Pour maximiser l'efficacité de l'apprentissage de Python dans un temps limité, vous pouvez utiliser les modules DateTime, Time et Schedule de Python. 1. Le module DateTime est utilisé pour enregistrer et planifier le temps d'apprentissage. 2. Le module de temps aide à définir l'étude et le temps de repos. 3. Le module de planification organise automatiquement des tâches d'apprentissage hebdomadaires.

Cet article vous guidera sur la façon de mettre à jour votre certificat NGINXSSL sur votre système Debian. Étape 1: Installez d'abord CERTBOT, assurez-vous que votre système a des packages CERTBOT et Python3-CERTBOT-NGINX installés. Si ce n'est pas installé, veuillez exécuter la commande suivante: Sudoapt-getUpDaSuDoapt-GetInstallCertBotpyThon3-Certerbot-Nginx Étape 2: Obtenez et configurez le certificat Utilisez la commande Certbot pour obtenir le certificat LETSCRYPT et configure

La configuration d'un serveur HTTPS sur un système Debian implique plusieurs étapes, notamment l'installation du logiciel nécessaire, la génération d'un certificat SSL et la configuration d'un serveur Web (tel qu'Apache ou Nginx) pour utiliser un certificat SSL. Voici un guide de base, en supposant que vous utilisez un serveur Apacheweb. 1. Installez d'abord le logiciel nécessaire, assurez-vous que votre système est à jour et installez Apache et OpenSSL: SudoaptupDaSuDoaptupgradeSudoaptinsta

Développer un plugin Gitlab sur Debian nécessite des étapes et des connaissances spécifiques. Voici un guide de base pour vous aider à démarrer avec ce processus. Installation de GitLab Tout d'abord, vous devez installer GitLab sur votre système Debian. Vous pouvez vous référer au manuel d'installation officiel de Gitlab. Obtenez un jeton d'accès API avant d'effectuer l'intégration de l'API, vous devez d'abord obtenir le jeton d'accès API de GitLab. Ouvrez le tableau de bord GitLab, recherchez l'option "AccessTokens" dans les paramètres utilisateur et générez un nouveau jeton d'accès. Sera généré

Apache est le héros derrière Internet. Ce n'est pas seulement un serveur Web, mais aussi une plate-forme puissante qui prend en charge un trafic énorme et fournit un contenu dynamique. Il offre une flexibilité extrêmement élevée grâce à une conception modulaire, permettant l'expansion de diverses fonctions au besoin. Cependant, la modularité présente également des défis de configuration et de performance qui nécessitent une gestion minutieuse. Apache convient aux scénarios de serveur qui nécessitent des besoins complexes hautement personnalisables.
