Python 2.6에서 100,000개의 URL에 대한 HTTP 요청 전달을 어떻게 최적화할 수 있나요?

Susan Sarandon
풀어 주다: 2024-11-17 16:27:02
원래의
933명이 탐색했습니다.

How can I optimize HTTP request dispatch for 100,000 URLs in Python 2.6?

Python에서 HTTP 요청 디스패치 최적화

Python에서는 대규모 HTTP 요청을 처리하는 것이 어려울 수 있으며, 특히 수천 개의 URL과 관련된 작업의 경우 더욱 그렇습니다. . 이 기사에서는 동시성과 스레딩을 활용하여 성능을 최대화하면서 Python 2.6에서 100,000개의 HTTP 요청을 전달하는 매우 효율적인 솔루션을 살펴봅니다.

Twistedless 솔루션:

다음 코드 스니펫은 다음을 제공합니다. HTTP 요청을 동시에 보내는 빠르고 효과적인 방법:

from urlparse import urlparse
from threading import Thread
import httplib, sys
from Queue import Queue

concurrent = 200

def doWork():
    while True:
        url = q.get()
        status, url = getStatus(url)
        doSomethingWithResult(status, url)
        q.task_done()

def getStatus(ourl):
    try:
        url = urlparse(ourl)
        conn = httplib.HTTPConnection(url.netloc)   
        conn.request("HEAD", url.path)
        res = conn.getresponse()
        return res.status, ourl
    except:
        return "error", ourl

def doSomethingWithResult(status, url):
    print status, url

q = Queue(concurrent * 2)
for i in range(concurrent):
    t = Thread(target=doWork)
    t.daemon = True
    t.start()
try:
    for url in open('urllist.txt'):
        q.put(url.strip())
    q.join()
except KeyboardInterrupt:
    sys.exit(1)
로그인 후 복사

설명:

  • 스레드 풀은 구성 가능한 동시성 수준으로 생성됩니다( 이 경우 200).
  • 풀의 각 스레드는 대기열에서 URL을 가져오고 상태 코드를 얻기 위해 HTTP HEAD 요청을 보내는 doWork 함수를 실행합니다.
  • 결과는 다음에서 처리됩니다. 응답에 따라 다른 작업을 기록하거나 수행하도록 사용자 정의할 수 있는 doSomethingWithResult 함수.
  • 대기열은 작업이 스레드 간에 균등하게 분산되도록 보장하여 경합을 최소화하고 처리량을 높입니다.

이 접근 방식은 Twisted 기반 솔루션보다 빠르면서 CPU 사용량도 줄이는 것으로 나타났습니다. Python 2.6에서 대규모 HTTP 요청을 처리하는 매우 효율적이고 안정적인 방법을 제공합니다.

위 내용은 Python 2.6에서 100,000개의 URL에 대한 HTTP 요청 전달을 어떻게 최적화할 수 있나요?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

원천:php.cn
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿