この記事では主に Python クローラー、つまりキーワードを通じて Baidu 画像をクロールする方法を紹介します。非常に優れた参考値です。以下のエディターで見てみましょう
使用ツール: Python2.7、ダウンロードするにはここをクリックしてください
scrapyframework
sublime text3
One。 Python のビルド (Windows 版)
1. インストール python2.7 --- 次に、cmd に python と入力すると、インターフェイスは次のようになり、インストールは成功します
2. 統合Scrapy フレームワーク-- --コマンド ラインを入力します: pip install Scrapy
成功したインストール インターフェイスは次のとおりです:
多くの失敗がありますが、ここに例があります:
ソリューション:
その他のエラーは、Baidu 検索 で見つけることができます。
2つ。 プログラミングを始めましょう。
1. クローラー対策なしで 静的 の Web サイトをクロールします。たとえば、Baidu Tieba や Douban Reading などです。
例 - 「デスクトップバー」の投稿tieba.baidu.com/p/2460150866?red_tag=3569129009
Pythonコードは次のとおりです:
コードコメント: 2つのモジュールurllib、re 。 2 つの関数を定義します。最初の関数は、ターゲット Web ページのデータ全体を取得することであり、2 番目の関数は、ターゲット Web ページ内のターゲット画像を取得し、Web ページを横断し、取得した画像を 0 からソートすることです。
注: モジュールに関する知識ポイント:
クロール画像レンダリング:
デフォルトの画像保存パスは、作成された .py ファイルと同じディレクトリ ファイル内にあります。
2. クローラー対策で Baidu 画像をクロールします。百度写真など。
たとえば、キーワード検索「顔文字パッケージ」 https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9% B0% FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111
写真はローリング方式でロードされ、優先度の高い 30 個が表示されます写真が最初にクロールされます。
コードは次のとおりです:
コードのコメント: 4つのモジュールをインポートします。osモジュールは保存パスの指定に使用されます。最初の 2 つの関数は上記と同じです。 3 番目の関数は、if ステートメントと tryException 例外を使用します。
クロールのプロセスは次のとおりです:
クロール結果:
注: Python コードを記述するときは位置合わせに注意してください。エラーが発生しやすいため、タブとスペースを混在させることはできません。
【関連おすすめ】
以上がキーワードを使用して Web 画像をクロールする方法を教えますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。