Qu'est-ce qu'un robot d'exploration ?
Un robot d'exploration Web est un programme qui extrait automatiquement des pages Web. Il télécharge des pages Web du World Wide Web pour les moteurs de recherche et constitue un composant important des moteurs de recherche. Le robot d'exploration traditionnel part de l'URL d'une ou plusieurs pages Web initiales et obtient l'URL sur la page Web initiale. Pendant le processus d'exploration de la page Web, il extrait en permanence de nouvelles URL de la page actuelle et les met dans la file d'attente jusqu'à ce qu'elles soient certaines. les conditions d'arrêt du système sont remplies
A quoi servent les robots d'exploration ?
Agit comme un collecteur Web de moteur de recherche universel. (google, baidu) est un moteur de recherche vertical. Recherche scientifique : le comportement humain en ligne, l'évolution de la communauté en ligne, la recherche sur la dynamique humaine, la sociologie économétrique, les réseaux complexes, l'exploration de données et d'autres domaines nécessitent une grande quantité de données. outil de collecte de données pertinentes. Peeping, hacking, spamming...
Crawler est la première et la plus simple étape pour les moteurs de recherche
Quel langage devez-vous utiliser pour écrire un robot ?
C, C++. Très efficace et rapide, adapté aux moteurs de recherche généraux pour explorer l'ensemble du Web. Inconvénients : le développement est lent et l'écriture est longue et puante, par exemple : code source de recherche Skynet. Langage de script : Perl, Python, Java, Ruby. Un traitement de texte simple, facile à apprendre et de qualité peut faciliter l'extraction détaillée du contenu Web, mais l'efficacité n'est souvent pas élevée. Le C# est-il adapté à l'exploration ciblée d'un petit nombre de sites Web ? (Cela ressemble à un langage que les gens dans la gestion de l'information préfèrent)
Les raisons du choix de Python comme robot d'exploration :
Multiplateforme, il prend bien en charge Linux et fenêtres.
Calcul scientifique, ajustement numérique : Numpy, Scipy
Visualisation : 2d : Matplotlib (les dessins sont très beaux), 3d : Mayavi2
Réseau complexe : Statistiques Networkx : et Interface en langage R : Rpy
Terminal interactif
Développement rapide du site Web
Un simple robot d'exploration Python
import urllib import urllib.request def loadPage(url,filename): """ 作用:根据url发送请求,获取html数据; :param url: :return: """ request=urllib.request.Request(url) html1= urllib.request.urlopen(request).read() return html1.decode('utf-8') def writePage(html,filename): """ 作用将html写入本地 :param html: 服务器相应的文件内容 :return: """ with open(filename,'w') as f: f.write(html) print('-'*30) def tiebaSpider(url,beginPage,endPage): """ 作用贴吧爬虫调度器,负责处理每一个页面url; :param url: :param beginPage: :param endPage: :return: """ for page in range(beginPage,endPage+1): pn=(page - 1)*50 fullurl=url+"&pn="+str(pn) print(fullurl) filename='第'+str(page)+'页.html' html= loadPage(url,filename) writePage(html,filename) if __name__=="__main__": kw=input('请输入你要需要爬取的贴吧名:') beginPage=int(input('请输入起始页')) endPage=int(input('请输入结束页')) url='https://tieba.baidu.com/f?' kw1={'kw':kw} key = urllib.parse.urlencode(kw1) fullurl=url+key tiebaSpider(fullurl,beginPage,endPage)
Pour plus d'articles techniques liés à Python, veuillez visiter le Colonne Tutoriel Python pour apprendre !
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!