Perayap web - Bagaimana cara merangkak gambar dalam blog Blog Park menggunakan python?

Question

Saya menulis sekeping kod kecil untuk merangkak gambar dalam blog Taman Blog Kod ini berkesan untuk beberapa pautan, tetapi beberapa pautan melaporkan ralat sebaik sahaja ia dirangkak. {code...} Seperti yang ditunjukkan dalam rajah, imej boleh dirangkak dengan betul Jika url ditukar kepada {code...}, ralat akan dilaporkan dengan segera.

我想大声告诉你 · Answer

Mesej ralat sudah sangat jelas Jika anda melihat pada kod sumber halaman web, imej pertama yang dipadankan adalah dalam format GIF, dan ia masih laluan relatif, jadi anda tidak boleh memuat turunnya, jadi ia menggesa IOerror, walaupun. jika anda telah memuat turunnya, kerana anda menetapkan format sebagai JPG, anda tidak boleh membukanya. Jadi anda hanya perlu menilai dan menapis

for imgurl in imglist:
    if "gif" not in imgurl:
        urllib.urlretrieve(imgurl, '%s.jpg' % x)
        x += 1

Lihat apa yang saya tambah Sudah tentu, ini hanyalah penilaian yang paling mudah, tetapi ia boleh memastikan bahawa program kedua anda tidak akan melaporkan ralat, dan ia juga memberi anda idea!