首頁 > 後端開發 > Python教學 > 如何利用Python來收集圖片資料?

如何利用Python來收集圖片資料?

PHPz
發布: 2023-05-09 09:34:16
轉載
1636 人瀏覽過

發送請求

如何利用Python來收集圖片資料?

我們先確定網址,我們先使用開發者工具,定位到我們要的資料。發現,內容就在網頁原始碼中。

url = 'https://www.hexuexiao.cn/tj/WuJiayi/'

res = requests.get(url)

# print(res.text)
html_url = re.findall(&#39;<a href="https://www.hexuexiao.cn/a/(\d+).html" rel="external nofollow"  >&#39;,res.text,re.S)
urls = sorted(list(set(html_url)), key=html_url.index)
登入後複製

我們這裡html_url 變數的值是一個正規表示式對象,用來符合網站圖片的連結。程式碼區塊 list(set(html_url)) 將清單物件轉換為集合對象,使用 set() 方法將清單物件轉換為集合對象,這是將清單中的元素轉換為集合的方法。 html_url.index 是整數對象,表示 html_url中各元素在原始 HTML 字串中出現的次數,以此來實現排序。

儲存資料

for url1 in urls:
    for page in range(0,10):
        url2 = f&#39;https://www.hexuexiao.cn/a/{url1}-{page}.html&#39;
        # print(url2)
        res1 = requests.get(url2)
        # print(res1.text)
        url3 = re.findall(&#39;<img  src=(.*?)/ alt="如何利用Python來收集圖片資料?" ></a>&#39;,res1.text,re.S)[0]
        print(url3)
        url3=re.sub(&#39;&#39;,"",url3)
        print(url3)
登入後複製

我們這段程式碼中的 urls 清單是一個字典,其中鍵是 URL,值是頁碼。在循環中,我們使用 range() 函數從 0 到 9 迭代頁碼。接下來,我們使用 requests.get() 方法分別取得每個頁面的 HTML 程式碼,並使用正規表示式來搭配所有的圖片連結。最後,我們使用 requests.get() 方法取得每個圖片連結的內容,並將其寫入一個檔案中。

儲存圖片

r​​rreee

我們這段程式碼中的 content 變數的值是從圖片連結 url3 中取得的內容。然後,使用 with open() 語句開啟一個二進位文件,並將 content 寫入檔案中。在這個過程中,num 變數的值是目前檔案中的圖片序號。取得圖片和我們之前取得音訊一樣,都是保存成二進位檔案。

這樣,我們的圖片資料就保存下來了。這裡,我就不展示效果了,原理都是一樣的,找到圖片的位址,我們就可以取得。

以上是如何利用Python來收集圖片資料?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:yisu.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板