Quel type de données le robot d'exploration peut-il obtenir et quelle méthode d'analyse spécifique ?

爱喝马黛茶的安东尼
Libérer: 2019-06-05 13:12:32
avant
4885 Les gens l'ont consulté

Avec le développement rapide d'Internet, de plus en plus de données inondent cette époque. L'obtention et le traitement de données sont devenus une partie essentielle de nos vies, et les robots d'exploration ont émergé au fur et à mesure que les temps l'exigent.

De nombreuses langues peuvent être utilisées pour explorer, mais les robots basés sur python sont plus concis et pratiques. Crawler est également devenu un élément essentiel du langage python. Alors, quel type de données pouvons-nous obtenir grâce aux robots d'exploration ? Quel type de méthode d’analyse existe-t-il ?

Dans l'article précédent, je vous ai présenté l'introduction de le processus de base du robot de requête et de réponse, Ce que cet article vous apporte, c'est le type de données que le robot d'exploration peut obtenir et sa méthode d'analyse spécifique.

Quel type de données le robot dexploration peut-il obtenir et quelle méthode danalyse spécifique ?


Quels types de données peuvent être capturés ?

Texte de la page Web : tel qu'un document HTML, texte au format Json chargé par Ajax, etc.

Images, vidéos, etc. : Les fichiers binaires obtenus sont enregistrés sous forme de photos ou de vidéos;

D'autres peuvent être obtenus à condition de pouvoir les demander.

Démonstration

import requests
 
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}
resp = requests.get('http://www.baidu.com/img/baidu_jgylogo3.gif',headers=headers)
print(resp.content) # 二进制文件使用content
# 保存图片
with open('logo.gif','wb') as f:
    f.write(resp.content)
    print('Ok')
Copier après la connexion

Après une opération réussie, vous pouvez voir les données binaires de l'image imprimée et vous pouvez enregistrer l'image imprimée OK après succès, à ce moment nous pouvons voir les images téléchargées lorsque nous ouvrons le dossier. Ces quelques lignes de code démontrent simplement le processus d’enregistrement des fichiers par le robot.



Quelles sont les méthodes d'analyse ?

Le traitement direct, tel que les documents de page simples, supprime simplement certaines données spatiales

Analyse et traitement Json Ajax ; page chargée ;

expression régulière

Bibliothèque BeautifulSoup

PyQuery ;

XPath.


Résumé

Voir ici, Do vous avez déjà une compréhension claire des principes de fonctionnement de base des robots d'exploration ? Bien sûr, Rome ne s’est pas construite en un jour. Tant que vous accumulez suffisamment d’expérience, vous deviendrez certainement un maître des reptiles. Je crois que tout le monde réussira après avoir lu les informations pertinentes que j'ai partagées.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:csdn.net
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal