Les dix chapitres précédents des notes sur les robots d'exploration ont successivement enregistré quelques connaissances simples sur les robots d'exploration Python,
utilisées pour résoudre de simples téléchargements Tieba, et le calcul des notes est naturellement une évidence.
Cependant, si vous souhaitez télécharger une grande quantité de contenu par lots, comme toutes les questions et réponses sur Zhihu, cela semble un peu difficile.
Depuis, le framework crawler Scrapy est apparu !
Scrapy = Scrach Python, le mot Scrach signifie gratter,
Pour l'instant on peut l'appeler : Scratch.
Adresse du site officiel de Xiaozhua : Cliquez sur moi, cliquez sur moi.
Ensuite, montrons brièvement le processus d'installation de Scrapy.
Pour les procédures spécifiques, veuillez vous référer à : Tutoriel du site officiel
Rappel amical : Assurez-vous de télécharger selon la version de Python, sinon il vous sera rappelé que Python est introuvable pendant installation. Il est recommandé d'installer la version 32 bits car certaines versions 64 bits des logiciels essentiels sont difficiles à trouver.
1. Installez Python (32 bits recommandé)
Il est recommandé d'installer Python2.7.x, 3.x ne semble pas être encore pris en charge.
Après l'installation, pensez à configurer l'environnement et à ajouter le répertoire python et le répertoire Scripts sous le répertoire python au Chemin de la variable d'environnement système.
Entrez python dans cmd. Si les informations de version apparaissent, la configuration est terminée.
2. Installer lxml
lxml est une bibliothèque écrite en Python qui peut traiter le XML de manière rapide et flexible. Cliquez ici pour sélectionner la version Python correspondante à installer.
3. Installer setuptools
est utilisé pour installer le fichier egg Cliquez ici pour télécharger la version correspondante de setuptools pour python2.7.
4. Installez zope.interface
Vous pouvez utiliser les outils de configuration téléchargés à la troisième étape pour installer le fichier egg. Il existe également une version exe maintenant. . Cliquez ici pour télécharger.
5. Installer Twisted
Twisted est un framework de moteur de réseau basé sur les événements implémenté en Python Cliquez ici pour télécharger.
6. Installez pyOpenSSL
pyOpenSSL est l'interface OpenSSL de Python, cliquez ici pour télécharger.
7. Installez win32py
fournit win32api, cliquez ici pour télécharger
8 .Installez Scrapy
Enfin, il est temps de s'enthousiasmer ! Après avoir installé autant de widgets, c’est enfin au tour du protagoniste.
Entrez directement easy_install scrapy dans cmd et appuyez sur Entrée.
9. Vérifiez l'installation
Ouvrez une fenêtre cmd, exécutez la commande scrapy n'importe où et obtenez la page suivante, ce qui signifie que la configuration de l'environnement est réussie. .
Ce qui précède est [Python] Web Crawler (11) : Montrez votre épée ! Le framework crawler Scrapy fait ses débuts ! Pour plus de contenu connexe, veuillez prêter attention au site Web PHP chinois (www.php.cn) !