Quel livre le robot d'exploration Python devrait-il lire ?-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Quel livre le robot d'exploration Python devrait-il lire ?

爱喝马黛茶的安东尼

Jun 12, 2019 am 10:52 AM

python 爬虫

La technologie des robots d'exploration Web devient de plus en plus utile en tant que moyen pratique de collecter des informations en ligne et d'en extraire des informations utilisables. En utilisant un langage de programmation simple comme Python, vous pouvez explorer des sites Web complexes en utilisant un minimum de compétences en programmation.

Quel livre le robot d'exploration Python devrait-il lire ?

"Writing Web Crawler in Python" est un excellent guide d'utilisation de Python pour explorer les données réseau. Il explique comment explorer les données des pages statiques et utiliser le cache pour gérer les serveurs. méthode de chargement. De plus, ce livre explique comment récupérer des données à l'aide d'URL AJAX et d'extensions Firebug, ainsi que d'autres informations sur les techniques de scraping telles que l'utilisation du rendu du navigateur, la gestion des cookies et la soumission de formulaires à partir de sites Web complexes protégés par des CAPTCHA. Extraire des données, etc. Ce livre utilise Scrapy pour créer un robot d'exploration Web avancé et explorer de vrais sites Web.

Recommandations associées : "Tutoriel vidéo Python"

Quel livre le robot d'exploration Python devrait-il lire ?

"Écrire un robot d'exploration Web en Python" présente le contenu suivant :

Explorez le site Web en suivant les liens ;

Utilisez lxml pour extraire les données de la page

Créez un robot d'exploration threadé pour explorer la page en parallèle ; >

Cache le contenu téléchargé pour réduire la consommation de bande passante ;

Analyse les sites Web qui s'appuient sur JavaScript

Interagit avec les formulaires et les sessions

Résout les problèmes de CAPTCHA des pages protégées ; 🎜>

Ingénierie inverse des appels AJAX ;

Utilisez Scrapy pour créer des robots d'exploration avancés.

Qui lit ce livre

Ce livre est écrit pour les développeurs qui souhaitent créer des solutions fiables d'exploration de données. Ce livre suppose que les lecteurs ont une certaine connaissance de la programmation Python. expérience. Bien entendu, les lecteurs ayant de l'expérience dans le développement d'autres langages de programmation peuvent également lire ce livre et comprendre les concepts et principes qu'il implique.

À propos de l'auteur · · · · · ·

Richard Lawson est originaire d'Australie et est diplômé de l'Université de Melbourne avec une spécialisation en informatique. Après avoir obtenu son diplôme, il a fondé une entreprise spécialisée dans l'exploration du Web, proposant du travail à distance à des entreprises dans plus de 50 pays. Il maîtrise l'espéranto, peut converser en chinois et en coréen et est activement impliqué dans les logiciels open source. Il étudie actuellement à l’Université d’Oxford et consacre son temps libre au développement de drones autonomes.

Table des matières · · · · · · ·

Table des matières

Chapitre 1 Introduction au Web Crawler 1

1.1 Quand les robots d'exploration Web sont-ils utiles1

1.2 Les robots d'exploration Web sont-ils légaux2

1.3 Recherche de base3

1.3.1 Vérifiez le fichier robots.txt 3

1.3.2 Vérifier le plan du site4

1.3.3 Estimer la taille du site Internet5

1.3.4 Identifier la technologie utilisée sur le site Internet7

1.3.5 Trouver le propriétaire du site Web7

1.4 Écriture du premier robot d'exploration Web 8

1.4.1 Téléchargement de pages Web 9

1.4.2 Robot d'exploration du plan du site 12

1.4. 3 Crawler de traversée d'ID 13

1.4.4 Link Crawler 15

1.5 Résumé du chapitre 22

Chapitre 2 Capture de données

2.1 Analyse des pages Web 23

2.2　Trois méthodes de scraping Web 26

2.2.1 Expression régulière 26

2.2.2 Beautiful Soup　28

2.2.3 Lxml 30

2.2.4 Comparaison des performances 32

2.2.5 Conclusion 35

2.2.6 Ajouter un rappel d'exploration pour le robot d'exploration de liens 35

2.3 Résumé de ceci chapitre 38

Chapitre 3 Mise en cache des téléchargements 39

3.1 Ajouter la prise en charge de la mise en cache pour le robot d'exploration de liens 39

3.2 Mise en cache disque 42

3.2 . 1. Implémentation 44

3.2.2 Test du cache 46

3.2.3 Économie d'espace disque 46

3.2.4 Nettoyage des données expirées 47

3.2.5 Inconvénients 48

3.3 Mise en cache de la base de données 49

3.3.1 Qu'est-ce que NoSQL50

3.3.2 Installation de MongoDB 50

3.3.3 Présentation de MongoDB 50

3.3.4 Implémentation du cache MongoDB 52

3.3.5 Compression 54

3.3.6 Test du cache 54

3.4 Résumé de ce chapitre 55

Chapitre 4 Téléchargement simultané 57

4.1 1 million de pages Web 57

4.2 Robot d'exploration en série 60

4.3 Robot d'exploration multithread 60

4.3.1 Fonctionnement des threads et des processus61

4.3.2 Implémentation61

4.3.3 Robot d'exploration multi-processus63

4.4 Performance67

4.5 Résumé de ce chapitre 68

Chapitre 5 Contenu dynamique 69

5.1 Exemples de pages Web dynamiques 69

5.2 Ingénierie inverse du Web dynamique Pages 72

5.3 Rendu de pages Web dynamiques 77

5.3.1 PyQt ou PySide 78

5.3.2 Exécution de JavaScript 78

5.3.3 Utilisation de WebKit pour interagir avec le site Web 80

5.3.4 Sélénium 85

5.4 Résumé du chapitre 88

Chapitre 6 Interaction avec le formulaire 89

6.1 Formulaire de connexion 90

6.2 Extension de script de connexion qui prend en charge les mises à jour de contenu 97

6.3 Utilisation du module Mechanize pour implémenter le traitement automatisé des formulaires 100

6.4 Résumé de ce chapitre 102

Chapitre 7 Traitement du code de vérification 103

7.1 Création d'un compte 103

7.2 Reconnaissance optique de caractères 106

7.3 Traitement du code de vérification complexe 111

7.3.1 Utiliser le service de traitement du code de vérification 112

7.3.2　9kw Mise en route 112

7.3.3 Intégration avec la fonction d'enregistrement 119

7.4 Résumé de ce chapitre 120

Chapitre 8 Scrapy 121

8.1 Installation 121

8.2 Démarrer le projet 122

8.2.1 Définir le modèle 123

8.2.2 Créer un robot 124

8.2.3 Utiliser les commandes shell pour explorer 128

8.2.4 Vérifier les résultats 129

8.2.5 Interrompre et reprendre les robots 132

8.3 Utiliser Portia pour écrire des robots visuels 133

8.3.1 Installation 133

8.3.2 Annotation 136

8.3.3 Optimisation des robots d'exploration 138

8.3.4 Vérification des résultats 140

8.4 Utiliser Scrapely pour réaliser une exploration automatisée 141

8.5 Résumé de ce chapitre 142

Résumé du chapitre 9 143

9.1 Moteur de recherche Google 143

9.2 Facebook 148

9.2. 1. Site Web 148

9.2.2 API 150

9.3 Gap 151

9.4 BMW 153

9.5 Résumé de ceci chapitre 157

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Afficher plus

Article chaud

Assassin's Creed Shadows: Solution d'énigmes de coquille

3 Il y a quelques semaines By DDD

Quoi de neuf dans Windows 11 KB5054979 et comment résoudre les problèmes de mise à jour

2 Il y a quelques semaines By DDD

Où trouver la courte de la grue à atomide atomique

3 Il y a quelques semaines By DDD

<🎜>: Dead Rails - Comment relever chaque défi

4 Il y a quelques semaines By DDD

Guide de l'atomfall: emplacements des articles, guides de quête et conseils

1 Il y a quelques mois By DDD

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7677

Tutoriel CakePHP

1393

Tutoriel C#

1207

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

Afficher plus

Related knowledge

PHP et Python: différents paradigmes expliqués Apr 18, 2025 am 12:26 AM

PHP est principalement la programmation procédurale, mais prend également en charge la programmation orientée objet (POO); Python prend en charge une variété de paradigmes, y compris la POO, la programmation fonctionnelle et procédurale. PHP convient au développement Web, et Python convient à une variété d'applications telles que l'analyse des données et l'apprentissage automatique.

Choisir entre PHP et Python: un guide Apr 18, 2025 am 12:24 AM

PHP convient au développement Web et au prototypage rapide, et Python convient à la science des données et à l'apprentissage automatique. 1.Php est utilisé pour le développement Web dynamique, avec une syntaxe simple et adapté pour un développement rapide. 2. Python a une syntaxe concise, convient à plusieurs champs et a un écosystème de bibliothèque solide.

Python vs JavaScript: la courbe d'apprentissage et la facilité d'utilisation Apr 16, 2025 am 12:12 AM

Python convient plus aux débutants, avec une courbe d'apprentissage en douceur et une syntaxe concise; JavaScript convient au développement frontal, avec une courbe d'apprentissage abrupte et une syntaxe flexible. 1. La syntaxe Python est intuitive et adaptée à la science des données et au développement back-end. 2. JavaScript est flexible et largement utilisé dans la programmation frontale et côté serveur.

Le code Visual Studio peut-il être utilisé dans Python Apr 15, 2025 pm 08:18 PM

VS Code peut être utilisé pour écrire Python et fournit de nombreuses fonctionnalités qui en font un outil idéal pour développer des applications Python. Il permet aux utilisateurs de: installer des extensions Python pour obtenir des fonctions telles que la réalisation du code, la mise en évidence de la syntaxe et le débogage. Utilisez le débogueur pour suivre le code étape par étape, trouver et corriger les erreurs. Intégrez Git pour le contrôle de version. Utilisez des outils de mise en forme de code pour maintenir la cohérence du code. Utilisez l'outil de liaison pour repérer les problèmes potentiels à l'avance.

Peut-on exécuter le code sous Windows 8 Apr 15, 2025 pm 07:24 PM

VS Code peut fonctionner sur Windows 8, mais l'expérience peut ne pas être excellente. Assurez-vous d'abord que le système a été mis à jour sur le dernier correctif, puis téléchargez le package d'installation VS Code qui correspond à l'architecture du système et l'installez comme invité. Après l'installation, sachez que certaines extensions peuvent être incompatibles avec Windows 8 et doivent rechercher des extensions alternatives ou utiliser de nouveaux systèmes Windows dans une machine virtuelle. Installez les extensions nécessaires pour vérifier si elles fonctionnent correctement. Bien que le code VS soit possible sur Windows 8, il est recommandé de passer à un système Windows plus récent pour une meilleure expérience de développement et une meilleure sécurité.

L'extension VScode est-elle malveillante? Apr 15, 2025 pm 07:57 PM

Les extensions de code vs posent des risques malveillants, tels que la cachette de code malveillant, l'exploitation des vulnérabilités et la masturbation comme des extensions légitimes. Les méthodes pour identifier les extensions malveillantes comprennent: la vérification des éditeurs, la lecture des commentaires, la vérification du code et l'installation avec prudence. Les mesures de sécurité comprennent également: la sensibilisation à la sécurité, les bonnes habitudes, les mises à jour régulières et les logiciels antivirus.

PHP et Python: une plongée profonde dans leur histoire Apr 18, 2025 am 12:25 AM

PHP est originaire en 1994 et a été développé par Rasmuslerdorf. Il a été utilisé à l'origine pour suivre les visiteurs du site Web et a progressivement évolué en un langage de script côté serveur et a été largement utilisé dans le développement Web. Python a été développé par Guidovan Rossum à la fin des années 1980 et a été publié pour la première fois en 1991. Il met l'accent sur la lisibilité et la simplicité du code, et convient à l'informatique scientifique, à l'analyse des données et à d'autres domaines.

Comment exécuter des programmes dans Terminal Vscode Apr 15, 2025 pm 06:42 PM

Dans VS Code, vous pouvez exécuter le programme dans le terminal via les étapes suivantes: Préparez le code et ouvrez le terminal intégré pour vous assurer que le répertoire de code est cohérent avec le répertoire de travail du terminal. Sélectionnez la commande Run en fonction du langage de programmation (tel que Python de Python your_file_name.py) pour vérifier s'il s'exécute avec succès et résoudre les erreurs. Utilisez le débogueur pour améliorer l'efficacité du débogage.

See all articles