Python Crawler, le nom complet du Python Web Crawler, est un programme ou un script qui explore automatiquement les informations du World Wide Web selon certaines règles. Il est principalement utilisé pour explorer les données de négociation de titres et. données météorologiques, données utilisateur du site Web et données d'image, etc. Afin de prendre en charge les fonctions normales des robots d'exploration Web, Python dispose d'un grand nombre de bibliothèques intégrées, principalement de plusieurs types. L’article suivant vous le présentera.
1. Bibliothèque réseau de robots d'exploration Python
La bibliothèque réseau de robots d'exploration Python comprend principalement : urllib, requêtes, grab, pycurl, urllib3, httplib2, RoboBrowser, MechanicalSoup, mécanisme, socket, Unirest pour Python, hyper , PySocks, treq et aiohttp, etc.
2. Framework de robot d'exploration Web Python
Le framework de robot d'exploration Web Python comprend principalement : grab, scrapy, pyspider, cola, portia, restkit et démiurge, etc.
3. Analyseur HTML/XML
Quantity lxml : Une bibliothèque de traitement HTML/XML efficace écrite en langage C. Prend en charge XPath.
● cssselect : analyser l'arborescence DOM et le sélecteur CSS.
● Pyquery : analyser l'arborescence DOM et le sélecteur jQuery.
●BeautifulSoup : bibliothèque de traitement HTML/XML inefficace, implémentée en Python pur.
Quantity html5lib : Génère le DOM des documents HTML/XML selon la spécification WHATWG. Cette spécification est utilisée dans tous les navigateurs actuels.
● Feedparser : analyse les flux RSS/ATOM.
● MarkupSafe : fournit des chaînes d'échappement sécurisées pour XML/HTML/XHTML.
● xmltodict : un module Python qui donne l'impression que le traitement du XML ressemble à du JSON.
● xhtml2pdf : Convertissez HTML/CSS en PDF.
●untangle : convertissez facilement des fichiers XML en objets Python.
4. Traitement de texte
Une bibliothèque pour analyser et manipuler du texte simple.
Quantity difflib : (bibliothèque standard Python) aide aux comparaisons différentielles.
Quantity Levenshtein : calculez rapidement la distance de Levenshtein et la similarité des cordes.
● fuzzywuzzy : correspondance de chaînes floues.
● esmre : Accélérateur d'expressions régulières.
Quantity ftfy : Organisez automatiquement le texte Unicode pour réduire la fragmentation.
5. Traitement de fichiers de formats spécifiques
Une bibliothèque pour analyser et traiter des formats de texte spécifiques.
● tablib : Un module qui exporte des données vers XLS, CSV, JSON, YAML et d'autres formats.
Quantitytext: Extrayez le texte de divers fichiers, tels que Word, PowerPoint, PDF, etc.
● Messytables : un outil pour analyser des données tabulaires désordonnées.
● lignes : une interface de données commune qui prend en charge de nombreux formats (prend actuellement en charge CSV, HTML, XLS, TXT : d'autres seront fournis à l'avenir !).
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!