基python实现多线程网页爬虫
一般来说,使用线程有两种模式, 一种是创建线程要执行的函数, 把这个函数传递进Thread对象里,让它来执行. 另一种是直接从Thread继承,创建一个新的class,把线程执行的代码放到这个新的class里。
实现多线程网页爬虫,采用了多线程和锁机制,实现了广度优先算法的网页爬虫。
先给大家简单介绍下我的实现思路:
对于一个网络爬虫,如果要按广度遍历的方式下载,它是这样的:
1.从给定的入口网址把第一个网页下载下来
2.从第一个网页中提取出所有新的网页地址,放入下载列表中
3.按下载列表中的地址,下载所有新的网页
4.从所有新的网页中找出没有下载过的网页地址,更新下载列表
5.重复3、4两步,直到更新后的下载列表为空表时停止
python代码如下:
#!/usr/bin/env python #coding=utf-8 import threading import urllib import re import time g_mutex=threading.Condition() g_pages=[] #从中解析所有url链接 g_queueURL=[] #等待爬取的url链接列表 g_existURL=[] #已经爬取过的url链接列表 g_failedURL=[] #下载失败的url链接列表 g_totalcount=0 #下载过的页面数 class Crawler: def __init__(self,crawlername,url,threadnum): self.crawlername=crawlername self.url=url self.threadnum=threadnum self.threadpool=[] self.logfile=file("log.txt",'w') def craw(self): global g_queueURL g_queueURL.append(url) depth=0 print self.crawlername+" 启动..." while(len(g_queueURL)!=0): depth+=1 print 'Searching depth ',depth,'...\n\n' self.logfile.write("URL:"+g_queueURL[0]+"........") self.downloadAll() self.updateQueueURL() content='\n>>>Depth '+str(depth)+':\n' self.logfile.write(content) i=0 while i<len(g_queueURL): content=str(g_totalcount+i)+'->'+g_queueURL[i]+'\n' self.logfile.write(content) i+=1 def downloadAll(self): global g_queueURL global g_totalcount i=0 while i<len(g_queueURL): j=0 while j<self.threadnum and i+j < len(g_queueURL): g_totalcount+=1 threadresult=self.download(g_queueURL[i+j],str(g_totalcount)+'.html',j) if threadresult!=None: print 'Thread started:',i+j,'--File number =',g_totalcount j+=1 i+=j for thread in self.threadpool: thread.join(30) threadpool=[] g_queueURL=[] def download(self,url,filename,tid): crawthread=CrawlerThread(url,filename,tid) self.threadpool.append(crawthread) crawthread.start() def updateQueueURL(self): global g_queueURL global g_existURL newUrlList=[] for content in g_pages: newUrlList+=self.getUrl(content) g_queueURL=list(set(newUrlList)-set(g_existURL)) def getUrl(self,content): reg=r'"(http://.+?)"' regob=re.compile(reg,re.DOTALL) urllist=regob.findall(content) return urllist class CrawlerThread(threading.Thread): def __init__(self,url,filename,tid): threading.Thread.__init__(self) self.url=url self.filename=filename self.tid=tid def run(self): global g_mutex global g_failedURL global g_queueURL try: page=urllib.urlopen(self.url) html=page.read() fout=file(self.filename,'w') fout.write(html) fout.close() except Exception,e: g_mutex.acquire() g_existURL.append(self.url) g_failedURL.append(self.url) g_mutex.release() print 'Failed downloading and saving',self.url print e return None g_mutex.acquire() g_pages.append(html) g_existURL.append(self.url) g_mutex.release() if __name__=="__main__": url=raw_input("请输入url入口:\n") threadnum=int(raw_input("设置线程数:")) crawlername="小小爬虫" crawler=Crawler(crawlername,url,threadnum) crawler.craw()
以上代码就是给大家分享的基python实现多线程网页爬虫,希望大家喜欢。

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Ce tutoriel montre comment utiliser Python pour traiter le concept statistique de la loi de Zipf et démontre l'efficacité de la lecture et du tri de Python de gros fichiers texte lors du traitement de la loi. Vous vous demandez peut-être ce que signifie le terme distribution ZIPF. Pour comprendre ce terme, nous devons d'abord définir la loi de Zipf. Ne vous inquiétez pas, je vais essayer de simplifier les instructions. La loi de Zipf La loi de Zipf signifie simplement: dans un grand corpus en langage naturel, les mots les plus fréquents apparaissent environ deux fois plus fréquemment que les deuxième mots fréquents, trois fois comme les troisième mots fréquents, quatre fois comme quatrième mots fréquents, etc. Regardons un exemple. Si vous regardez le corpus brun en anglais américain, vous remarquerez que le mot le plus fréquent est "th

Cet article explique comment utiliser la belle soupe, une bibliothèque Python, pour analyser HTML. Il détaille des méthodes courantes comme find (), find_all (), select () et get_text () pour l'extraction des données, la gestion de diverses structures et erreurs HTML et alternatives (Sel

Traiter avec des images bruyantes est un problème courant, en particulier avec des photos de téléphones portables ou de caméras basse résolution. Ce tutoriel explore les techniques de filtrage d'images dans Python à l'aide d'OpenCV pour résoudre ce problème. Filtrage d'image: un outil puissant Filtre d'image

Les fichiers PDF sont populaires pour leur compatibilité multiplateforme, avec du contenu et de la mise en page cohérents sur les systèmes d'exploitation, les appareils de lecture et les logiciels. Cependant, contrairement aux fichiers de texte brut de traitement Python, les fichiers PDF sont des fichiers binaires avec des structures plus complexes et contiennent des éléments tels que des polices, des couleurs et des images. Heureusement, il n'est pas difficile de traiter les fichiers PDF avec les modules externes de Python. Cet article utilisera le module PYPDF2 pour montrer comment ouvrir un fichier PDF, imprimer une page et extraire du texte. Pour la création et l'édition des fichiers PDF, veuillez vous référer à un autre tutoriel de moi. Préparation Le noyau réside dans l'utilisation du module externe PYPDF2. Tout d'abord, l'installez en utilisant PIP: pip is p

Ce tutoriel montre comment tirer parti de la mise en cache Redis pour augmenter les performances des applications Python, en particulier dans un cadre Django. Nous couvrirons l'installation redis, la configuration de Django et les comparaisons de performances pour mettre en évidence le bien

Cet article compare TensorFlow et Pytorch pour l'apprentissage en profondeur. Il détaille les étapes impliquées: préparation des données, construction de modèles, formation, évaluation et déploiement. Différences clés entre les cadres, en particulier en ce qui concerne le raisin informatique

Ce didacticiel montre la création d'une structure de données de pipeline personnalisée dans Python 3, en tirant parti des classes et de la surcharge de l'opérateur pour une fonctionnalité améliorée. La flexibilité du pipeline réside dans sa capacité à appliquer une série de fonctions à un ensemble de données, GE

Python, un favori pour la science et le traitement des données, propose un écosystème riche pour l'informatique haute performance. Cependant, la programmation parallèle dans Python présente des défis uniques. Ce tutoriel explore ces défis, en se concentrant sur l'interprète mondial
