図のように、画像を1枚ずつ右クリックして保存してネットワーク経由で閲覧・読み込みするのは非常に面倒なのですが、ここで画像を一括キャプチャするクローラを記述する方法はあるでしょうか?
クロールの方法を知っていれば、この要件は実際には非常に簡単で、ほんの数ステップで完了します。
ホームページまたは画像のあるページ、正規表現または他のフレームワークを通じて画像を取得しますurl
url
requests库或者urllibライブラリから上記画像URLのアドレスにアクセス
requests
urllib
バイナリ形式でローカルハードディスクに書き込みます
参照コード:
詳細については、公式ドキュメントを参照してください: リクエストドキュメントrequests
はい、クローラーの 5 つの部分: スケジューラー URL 重複排除 ダウンローダー Web ページの解析 データ ストレージ 画像をダウンロードするためのアイデアは次のとおりです: 画像が配置されている Web ページのコンテンツを取得し、img タグを解析します画像アドレスを取得してから、便利な画像 URL を取得し、各画像をダウンロードします。繰り返しのダウンロードを避けるために、ダウンロードした画像アドレスをブルーム フィルターに保存します。画像をダウンロードするたびに、その URL を通じてダウンロードされたかどうかを確認します。がローカルにダウンロードされている場合は、画像のパスをデータベースに保存し、画像ファイルをフォルダーに保存することも、画像をデータベースに直接保存することもできます。 Pythonはrequest+Beautifulsoup4を使用しますJavaはjsoupを使用します
複数の Web サイトまたは 1 つの Web サイトを非常に深くクロールする必要がある場合、上記の方法は直接再帰的または詳細なトラバーサルになります。
クロールの方法を知っていれば、この要件は実際には非常に簡単で、ほんの数ステップで完了します。
ホームページまたは画像のあるページ、正規表現または他のフレームワークを通じて画像を取得します
url
requests
库或者urllib
ライブラリから上記画像URLのアドレスにアクセスバイナリ形式でローカルハードディスクに書き込みます
参照コード:
リーリー詳細については、公式ドキュメントを参照してください: リクエストドキュメント
requests
はい、
クローラーの 5 つの部分:
スケジューラー
URL 重複排除
ダウンローダー
Web ページの解析
データ ストレージ
画像をダウンロードするためのアイデアは次のとおりです:
画像が配置されている Web ページのコンテンツを取得し、img タグを解析します画像アドレスを取得してから、便利な画像 URL を取得し、各画像をダウンロードします。繰り返しのダウンロードを避けるために、ダウンロードした画像アドレスをブルーム フィルターに保存します。画像をダウンロードするたびに、その URL を通じてダウンロードされたかどうかを確認します。がローカルにダウンロードされている場合は、画像のパスをデータベースに保存し、画像ファイルをフォルダーに保存することも、画像をデータベースに直接保存することもできます。
Pythonはrequest+Beautifulsoup4を使用します
Javaはjsoupを使用します
複数の Web サイトまたは 1 つの Web サイトを非常に深くクロールする必要がある場合、上記の方法は直接再帰的または詳細なトラバーサルになります。