ホームページ > バックエンド開発 > Python チュートリアル > 【Python】ウェブクローラー(11):剣を見せろ!クローラーフレームワークScrapyがデビュー!

【Python】ウェブクローラー(11):剣を見せろ!クローラーフレームワークScrapyがデビュー!

黄舟
リリース: 2017-01-21 14:48:03
オリジナル
1340 人が閲覧しました

これまでの 10 章のクローラー ノートでは、簡単な Python クローラーの知識を連続して記録しており、

簡単な Tieba ダウンロードを解決するために使用されており、成績ポイントの計算は当然簡単です。

しかし、Zhihuのすべての質問と回答など、大量のコンテンツを一括でダウンロードしたい場合は、少し難しいようです。

ということで、クローラーフレームワークScrapyが登場しました!

Scrapy = スクラッチ + Python。スクラッチという言葉はスクレイピングを意味します。

それをスクレイピーと呼びましょう。


Xiaozhuazhaoの公式ウェブサイトのアドレス: クリックしてください、クリックしてください。


それでは、Scrapy のインストールプロセスを簡単に説明しましょう。

具体的なプロセスについては、公式 Web サイトのチュートリアルを参照してください

フレンドリーな注意事項: 必ず Python のバージョンに従ってダウンロードしてください。そうしないと、インストール中に Python が見つからないという警告が表示されます。必須ソフトウェアの一部の 64 ビット バージョンは見つけにくいため、32 ビットをインストールすることをお勧めします。


1. Pythonをインストールします(32ビット推奨)

Python2.7.xをインストールすることをお勧めします、3.xはまだサポートされていないようです。

インストール後、忘れずに環境を設定し、Python ディレクトリとその下の Scripts ディレクトリをシステム環境変数の Path に追加してください。

cmdにpythonと入力し、バージョン情報が表示されれば設定は完了です。


2. lxmlをインストールする

lxmlは、XMLを高速かつ柔軟に処理できるPythonで書かれたライブラリです。ここをクリックして、インストールする対応する Python バージョンを選択します。


3. setuptools をインストールします

は、Python2.7 の対応するバージョンの setuptools をダウンロードするために使用されます。


4. zope.interface をインストールします

3 番目のステップでダウンロードした setuptools を使用して、egg ファイルをインストールすることもできます。ここをクリックしてダウンロードしてください。


5. Twisted をインストールします

Twisted は Python で実装されたイベント駆動型のネットワーク エンジン フレームワークです。ここをクリックしてダウンロードしてください。


6. pyOpenSSL をインストールします

pyOpenSSL は Python 用の OpenSSL インターフェイスです。ここをクリックしてダウンロードしてください。


7. win32pyをインストールします

ここをクリックしてダウンロードしてください


8. いよいよ楽しい時間です!たくさんのウィジェットをインストールしたら、いよいよ主人公の番です。

cmd に easy_installscrapy と直接入力して Enter を押します。

9. インストールを確認します

cmd ウィンドウを開き、scrapy コマンドを任意の場所で実行します。次のページが表示されます。これは、環境設定が成功したことを意味します。

以上、【Python】ウェブクローラー(11):剣を見せろ!クローラーフレームワークScrapyがデビュー!関連コンテンツの詳細については、PHP 中国語 Web サイト (www.php.cn) に注目してください。 【Python】ウェブクローラー(11):剣を見せろ!クローラーフレームワークScrapyがデビュー!

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート