Avec le développement rapide d'Internet, de plus en plus de données inondent cette époque. L'obtention et le traitement de données sont devenus une partie essentielle de nos vies, et les robots d'exploration ont émergé au fur et à mesure que les temps l'exigent.
De nombreuses langues peuvent être utilisées pour explorer, mais les robots basés sur python sont plus concis et pratiques. Crawler est également devenu un élément essentiel du langage python. Alors, quel type de données pouvons-nous obtenir grâce aux robots d'exploration ? Quel type de méthode d’analyse existe-t-il ?
Dans l'article précédent, je vous ai présenté l'introduction de le processus de base du robot de requête et de réponse, Ce que cet article vous apporte, c'est le type de données que le robot d'exploration peut obtenir et sa méthode d'analyse spécifique.
Quels types de données peuvent être capturés ?
Texte de la page Web : tel qu'un document HTML, texte au format Json chargé par Ajax, etc.
Images, vidéos, etc. : Les fichiers binaires obtenus sont enregistrés sous forme de photos ou de vidéos;
D'autres peuvent être obtenus à condition de pouvoir les demander.
Démonstration
import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'} resp = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif',headers=headers) print(resp.content) # 二进制文件使用content # 保存图片 with open('logo.gif','wb') as f: f.write(resp.content) print('Ok')
Après une opération réussie, vous pouvez voir les données binaires de l'image imprimée et vous pouvez enregistrer l'image imprimée OK après succès, à ce moment nous pouvons voir les images téléchargées lorsque nous ouvrons le dossier. Ces quelques lignes de code démontrent simplement le processus d’enregistrement des fichiers par le robot.
Quelles sont les méthodes d'analyse ?
Le traitement direct, tel que les documents de page simples, supprime simplement certaines données spatiales
Analyse et traitement Json Ajax ; page chargée ;
expression régulière
Bibliothèque BeautifulSoup
PyQuery ;
XPath.
Résumé
Voir ici, Do vous avez déjà une compréhension claire des principes de fonctionnement de base des robots d'exploration ? Bien sûr, Rome ne s’est pas construite en un jour. Tant que vous accumulez suffisamment d’expérience, vous deviendrez certainement un maître des reptiles. Je crois que tout le monde réussira après avoir lu les informations pertinentes que j'ai partagées.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!