Probleme mit der Python-Multithread-Aufgabenverteilung-PHP-Tutorial-php.cn

Probleme mit der Python-Multithread-Aufgabenverteilung

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Freigeben： 2023-03-02 07:50:02

Original

1320 Leute haben es durchsucht

Ich möchte jetzt den Inhalt einer Website mit mehreren Threads crawlen. Angenommen, der Website-Inhalt hat 105 Seiten, aber aufgrund von Maschinenbeschränkungen können nur zehn Threads für das Crawlen aktiviert werden Seiten 1-10?, der zweite Thread deckt die Seiten 11-20 ab und so weiter, bis der zehnte Thread für die Seiten 91-105 verantwortlich ist. Wie sollte diese Idee in Python-Code geschrieben werden?

Antwortinhalt:

Ich möchte jetzt den Inhalt einer Website mit mehreren Threads crawlen, aber aufgrund von Maschinenbeschränkungen können nur zehn Threads für das Crawlen aktiviert werden Seiten 1-10?, der zweite Thread deckt die Seiten 11-20 ab und so weiter, bis der zehnte Thread für die Seiten 91-105 verantwortlich ist. Wie sollte diese Idee in Python-Code geschrieben werden?

python3

import urllib
import queue
import threading

def download(queue,lck):
    """
    工作者，当队列中没有任务的时候就执行退出。
    """
    while not queue.empty():
        pg = queue.get()
        
        #在此写 抓取网页的代码
        #然后把抓到的内容写入文件
        
        lck.acquire()
        print ('第 %d 页已完成'%pg) 
        lck.release()
        queue.task_done()


def main():
    """
    主线程， 
    """
    print ('开始下载……')
    lck = threading.Lock()
    q = queue.Queue()
    for pg in range(1,106): #网站内容有105页
        q.put(pg)
        
    for i in range(10):#十个线程
        t = threading.Thread(target=download, args=(q,lck))
        t.start()
    q.join()       # 等待所以任务完成
    print ('结束')

if __name__ == '__main__':
    main()

Nach dem Login kopieren