python指定生成器迭代的位置开始

Question

一个爬虫程序需要断点恢复的功能, 之前把循环位置作为[a, b, c]保存在json当中 每次进程启动后先从json读取历史位置然后继续遍历 但因为想改成多线程版本, 就试着换成生成器 但这样一来, 每次进程退出重启, 迭代...

阿神 · Answer

Saya tidak begitu faham apa yang anda ingin nyatakan, tetapi iterator boleh menentukan kedudukan permulaan dengan cara ini:

from itertools import islice
for x in islice(iterms, 3, None)        # 这里跳过了前面3个元素

PHPz · Answer

Saya masih tidak begitu memahami maksud anda, tetapi saya akan memberikan anda tekaan kasar. Sila beritahu saya jika saya salah.

Saya rasa anda mahu merangkak bentuk url ini:

-init-page-line

Jadi anda mempunyai tiga senarai yang mungkin kelihatan seperti ini:

self.lst[0] = ['init', 'a', 'b', 'end']
self.lst[1] = ['page', 'paragraph', 'row']
self.lst[2] = ['line', 'face', 'point']

Kemudian anda mempunyai index dan limit masing-masing untuk merekodkan kedudukan anda sekarang dan indeks maksimum setiap lst:

self.index = [0, 0, 0]  # in the begining
self.limit = [3, 2, 2]

Kemudian anda menggabungkan semua url:

while self.index[0] <= self.limit[0]:
    while self.index[1] <= self.limit[1]:
        while self.index[2] <= self.limit[2]: # P.S. 你這裡是不是打錯了
             name1 = self.lst[0][self.index[0]]
             name2 = self.lst[1][self.index[1]]
             name3 = self.lst[2][self.index[2]]
             # get page "-name1-name2-name3" and download someting
             # update self.index

Di atas adalah tekaan peribadi saya Jika anda ingin menyelesaikan perkara ini, saya cadangkan anda melakukan ini:

from itertools import product, dropwhile

def gen_url(self):
    return '-' + '-'.join(product(*self.lst))

for i, url in enumerate(gen_url())
    # get page by url and downloading something
    # if you want to stop, save i+1 to your json as a save point s

# next time you conitnue the task, just load s from json as start point
for i, url in dropwhile(lambda t: t[0]




itertools.product
itertools.dropwhile


Soalan yang saya jawab: Python-QA