Python - クローラーを使用して Web ページから画像をバッチでクロールするにはどうすればよいですか?
给我你的怀抱
给我你的怀抱 2017-06-28 09:25:48
0
3
1181

図のように、画像を1枚ずつ右クリックして保存してネットワーク経由で閲覧・読み込みするのは非常に面倒なのですが、ここで画像を一括キャプチャするクローラを記述する方法はあるでしょうか?

给我你的怀抱
给我你的怀抱

全員に返信(3)
仅有的幸福

クロールの方法を知っていれば、この要件は実際には非常に簡単で、ほんの数ステップで完了します。

  1. ホームページまたは画像のあるページ、正規表現または他のフレームワークを通じて画像を取得しますurl

  2. requests库或者urllibライブラリから上記画像URLのアドレスにアクセス

  3. バイナリ形式でローカルハードディスクに書き込みます

参照コード:

リーリー

詳細については、公式ドキュメントを参照してください: リクエストドキュメントrequests

いいねを押す +0
女神的闺蜜爱上我

はい、
クローラーの 5 つの部分:
スケジューラー
URL 重複排除
ダウンローダー
Web ページの解析
データ ストレージ
画像をダウンロードするためのアイデアは次のとおりです:
画像が配置されている Web ページのコンテンツを取得し、img タグを解析します画像アドレスを取得してから、便利な画像 URL を取得し、各画像をダウンロードします。繰り返しのダウンロードを避けるために、ダウンロードした画像アドレスをブルーム フィルターに保存します。画像をダウンロードするたびに、その URL を通じてダウンロードされたかどうかを確認します。がローカルにダウンロードされている場合は、画像のパスをデータベースに保存し、画像ファイルをフォルダーに保存することも、画像をデータベースに直接保存することもできます。
Pythonはrequest+Beautifulsoup4を使用します
Javaはjsoupを使用します

いいねを押す +0
女神的闺蜜爱上我

複数の Web サイトまたは 1 つの Web サイトを非常に深くクロールする必要がある場合、上記の方法は直接再帰的または詳細なトラバーサルになります。

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート