Les robots d'exploration Web (également appelés araignées Web, robots Web et plus communément appelés chasseurs de pages Web dans la communauté FOAF) sont un type de robot d'exploration Web qui suit automatiquement certaines règles A. programme ou script qui analyse les informations du World Wide Web. Découvrons ensemble ci-dessous.
1. Scrapy
Scrapy est un framework d'application écrit pour explorer les données de sites Web et extraire des données structurelles. Il peut être utilisé dans une série de programmes, notamment l’exploration de données, le traitement de l’information ou le stockage de données historiques. . Grâce à ce framework, vous pouvez facilement analyser des données telles que les informations sur les produits Amazon.
Adresse du projet : https://scrapy.org/
2. PySpider
pyspider est un. Un puissant système d'exploration de sites Web implémenté en Python. Il peut écrire des scripts, planifier des fonctions et afficher les résultats de l'exploration en temps réel sur l'interface du navigateur. Le backend utilise des bases de données couramment utilisées pour stocker les résultats de l'exploration et peut également définir les tâches et les priorités des tâches, etc. .
Adresse du projet : https://github.com/binux/pyspider
3.Crawley
Crawley peut explorer le contenu du site Web correspondant à grande vitesse, prend en charge les bases de données relationnelles et non relationnelles et les données peuvent être exportées vers JSON, XML, etc.
Adresse du projet : http://project.crawley-cloud.com/
4.Portia
Portia est un outil d'exploration visuelle open source qui vous permet d'explorer des sites Web sans aucune connaissance en programmation ! Annotez simplement les pages qui vous intéressent et Portia créera une araignée pour extraire les données des pages similaires.
Adresse du projet : https://github.com/scrapinghub/portia
Journal
Le journal peut être utilisé pour extraire des actualités, des articles et des analyses de contenu. Utilisez le multi-threading, prenez en charge plus de 10 langues, etc.
Adresse du projet : https://github.com/codelucas/newspaper
6.Belle soupe
Beautiful Soup est une bibliothèque Python qui peut extraire des données à partir de fichiers HTML ou XML. Elle peut réaliser la manière habituelle de navigation, de recherche et de modification de documents via votre convertisseur préféré, vous faisant gagner des heures, voire des jours.
Adresse du projet : https://www.crummy.com/software/BeautifulSoup/bs4/doc/
7.Grab
Grab est un framework Python pour créer des web scrapers. Avec Grab, vous pouvez créer des scrapers Web de complexité variable, depuis de simples scripts de 5 lignes jusqu'à des scrapers de sites Web asynchrones complexes qui gèrent des millions de pages Web. Grab fournit une API pour effectuer des requêtes réseau et traiter le contenu reçu, comme interagir avec l'arborescence DOM d'un document HTML.
Adresse du projet : http://docs.grablib.org/en/latest/#grab-spider-user-manual
8 .Cola
Cola est un framework de robots distribués. Pour les utilisateurs, il leur suffit d'écrire quelques fonctions spécifiques sans prêter attention aux détails du fonctionnement distribué. Les tâches sont automatiquement réparties sur plusieurs machines et l'ensemble du processus est transparent pour l'utilisateur.
Adresse du projet : https://github.com/chineking/cola
Merci d'avoir lu, j'espère que vous en bénéficierez beaucoup.
Réimprimé sur : https://www.toutiao.com/i6560240315519730190/
Tutoriel recommandé : "tutoriel python"
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!