Optimisation de la répartition des requêtes HTTP en Python
La gestion des requêtes HTTP à grande échelle peut poser un défi en Python, en particulier pour les tâches impliquant des milliers d'URL . Cet article explore une solution très efficace pour distribuer 100 000 requêtes HTTP dans Python 2.6, en tirant parti de la concurrence et du threading pour maximiser les performances.
Solution Twistedless :
L'extrait de code suivant fournit une méthode rapide et efficace pour envoyer des requêtes HTTP simultanément :
from urlparse import urlparse from threading import Thread import httplib, sys from Queue import Queue concurrent = 200 def doWork(): while True: url = q.get() status, url = getStatus(url) doSomethingWithResult(status, url) q.task_done() def getStatus(ourl): try: url = urlparse(ourl) conn = httplib.HTTPConnection(url.netloc) conn.request("HEAD", url.path) res = conn.getresponse() return res.status, ourl except: return "error", ourl def doSomethingWithResult(status, url): print status, url q = Queue(concurrent * 2) for i in range(concurrent): t = Thread(target=doWork) t.daemon = True t.start() try: for url in open('urllist.txt'): q.put(url.strip()) q.join() except KeyboardInterrupt: sys.exit(1)
Explication :
Cette approche s'est avérée plus rapide que la solution basée sur Twisted tout en réduisant également l'utilisation du processeur. Il fournit un moyen très efficace et fiable de gérer les requêtes HTTP à grande échelle dans Python 2.6.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!