クローラー | HD 壁紙のバッチダウンロード (ソースコード + ツールが含まれています)-Python チュートリアル-php.cn

クローラー | HD 壁紙のバッチダウンロード (ソースコード + ツールが含まれています)

リリース： 2023-08-10 15:46:01

転載

1582 人が閲覧しました

##Unsplash は無料の高品質写真ウェブサイトです #. これらはすべて本物の写真です. 写真の解像度も非常に大きいです. デザイナーの友人に非常に適しています. 素材はイラストのコピーライターの友人にも非常に便利で、壁紙としても機能します。対応する機能コードをexeツールにカプセル化してありますので、ご参考になれば幸いですコードツールの入手方法は記事の最後に載せております

#1. インポートモジュール

1.1 インポートモジュール

##コード:

クローラー | HD 壁紙のバッチダウンロード (ソースコード + ツールが含まれています)

##まず手動ダウンロードプロセスを見てみましょう。右クリックで保存する方法で得られる画像は、一定の比率で圧縮されており、鮮明度が大幅に低下します。

Nature を例に挙げると、無料ダウンロードをクリックしてダウンロードパスを選択します。画像サイズは 1.43M です。

クローラー | HD 壁紙のバッチダウンロード (ソースコード + ツールが含まれています)

次に、

特定の Web ページを分析します

まず、Web ページの下部にページ番号の選択オプションがあることに気付き、Web ページのスライダーをプルダウンしてみたところ、次のことがわかりました。

写真は動的にロードされました

つまり、Web ページをプルダウンすると、後続の写真が次々に表示されます。

#いくつかの操作の後、ページがプルダウンされると、Web ページが次のリクエストを発行することがわかりました。それらのいずれかをクリックすると、写真の総数
: 10000、総ページ数: 500

が表示されます。

いくつかの URL を見てみましょう:

上記のリンクは ページパラメータのみです は異なります、順番に増えていくので比較的分かりやすく、リクエストする際は順番にたどっていくだけです。

#ページ番号の問題は解決しました。次に、各画像のリンクを分析します。:

クローラー | HD 壁紙のバッチダウンロード (ソースコード + ツールが含まれています)

結果リスト length が次のとおりであることがわかります。ちょうど 20、リクエスト内の per_page 値が同じなので、探している各画像へのリンクがここにあることは間違いありません。

Web ページの分析には時間がかかることが多いですが、全体的には順調に進んでいます。現在、正式に画像をクロールしています。

#2 . 画像のクロール

##2.1 インポートモジュール

import time
import random
import json
import requests
from fake_useragent import UserAgent

ログイン後にコピー

fake_useragent：代理

2.2 获取图片

模拟代理，以网页的身份访问服务器，避免请求被服务器判定为机器爬虫而不响应请求。

ua = UserAgent(verify_ssl=False)
headers = {&#39;User-Agent&#39;: ua.random}

ログイン後にコピー

根据响应，获取所有图片链接：

def getpicurls(i,headers):
    picurls = []
    url = &#39;https://unsplash.com/napi/search/photos?query=nature&per_page=20&page={}&xp=feedback-loop-v2%3Aexperiment&#39;.format(i)
    r = requests.get(url, headers=headers, timeout=5)
    time.sleep(random.uniform(3.1, 4.5))
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    allinfo = json.loads(r.text)
    results = allinfo[&#39;results&#39;]
    for result in results:
        href = result[&#39;urls&#39;][&#39;full&#39;]
        picurls.append(href)
    return picurls

ログイン後にコピー

2.3 保存图片

保存图片文件：

def getpic(count,url):
    r = requests.get(url, headers=headers, timeout=5)
    with open(&#39;pictures/{}.jpg&#39;.format(count), &#39;wb&#39;) as f:
        f.write(r.content)

ログイン後にコピー

效果：