Bagaimana untuk menggunakan Python untuk mengumpul data imej?-Tutorial Python-php.cn

Bagaimana untuk menggunakan Python untuk mengumpul data imej?

PHPz

Lepaskan： 2023-05-09 09:34:16

ke hadapan

1726 orang telah melayarinya

Hantar permintaan

Bagaimana untuk menggunakan Python untuk mengumpul data imej?

Kami mula-mula menentukan URL Kami mula-mula menggunakan alat pembangun untuk mencari data yang kami inginkan. Didapati bahawa kandungannya berada dalam kod sumber halaman web.

url = &#39;https://www.hexuexiao.cn/tj/WuJiayi/&#39;

res = requests.get(url)

# print(res.text)
html_url = re.findall(&#39;<a href="https://www.hexuexiao.cn/a/(\d+).html" rel="external nofollow"  >&#39;,res.text,re.S)
urls = sorted(list(set(html_url)), key=html_url.index)

Salin selepas log masuk

Nilai pembolehubah html_url kami di sini ialah objek ungkapan biasa, digunakan untuk memadankan pautan ke imej tapak web. Blok kod list(set(html_url)) menukar objek senarai kepada objek koleksi menggunakan kaedah set(), iaitu kaedah yang menukar elemen dalam senarai kepada koleksi. html_url.index ialah objek integer yang mewakili bilangan kali setiap elemen dalam html_url muncul dalam rentetan HTML asal untuk mencapai pengisihan.

Simpan data

for url1 in urls:
    for page in range(0,10):
        url2 = f&#39;https://www.hexuexiao.cn/a/{url1}-{page}.html&#39;
        # print(url2)
        res1 = requests.get(url2)
        # print(res1.text)
        url3 = re.findall(&#39;<img  src=(.*?)/ alt="Bagaimana untuk menggunakan Python untuk mengumpul data imej?" ></a>&#39;,res1.text,re.S)[0]
        print(url3)
        url3=re.sub(&#39;&#39;,"",url3)
        print(url3)

Salin selepas log masuk

Senarai urls dalam kod kami ialah kamus, dengan kuncinya ialah URL dan nilainya ialah nombor halaman. Dalam gelung, kami menggunakan fungsi range() untuk mengulang nombor halaman dari 0 hingga 9. Seterusnya, kami menggunakan kaedah requests.get() untuk mendapatkan kod HTML setiap halaman dan menggunakan ungkapan biasa untuk memadankan semua pautan imej. Akhir sekali, kami menggunakan kaedah requests.get() untuk mendapatkan kandungan setiap pautan imej dan menulisnya pada fail.

Simpan imej

 content = requests.get(url3).content
        with open(&#39;图片\&#39; + str(num) + &#39;.jpg&#39;, mode=&#39;wb&#39;) as f:
            f.write(content)

Salin selepas log masuk

Nilai pembolehubah content dalam kod kami ialah kandungan yang diperoleh daripada pautan imej url3. Kemudian, gunakan pernyataan with open() untuk membuka fail binari dan tulis content pada fail tersebut. Dalam proses ini, nilai pembolehubah num ialah nombor siri imej dalam fail semasa. Mendapatkan gambar adalah sama seperti mendapatkan audio sebelum ini, dan disimpan sebagai fail binari.

Dengan cara ini, data imej kami disimpan. Di sini, saya tidak akan menunjukkan kesannya. Jika kita mencari alamat imej, kita boleh mendapatkannya.

Atas ialah kandungan terperinci Bagaimana untuk menggunakan Python untuk mengumpul data imej?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!