1. クローラー フレームワーク Scarpy の紹介
Scrapy は、Web サイトをクロールし、Web サイトのページから構造化データを取得する、高速で高レベルの画面スクレイピングおよび Web クローラー フレームワークです。監視と自動テストについては、Scrapy は完全に Python で実装されており、コードは Github でホストされており、ネットワーク通信を処理するための Twisted の非同期ネットワーク ライブラリに基づいて Linux、Windows、Mac、BSD プラットフォームで実行できます。ユーザーは開発をカスタマイズするだけで済みます。いくつかのモジュールで、Web コンテンツやさまざまな画像をクロールするクローラーを簡単に実装できます。
2. Scrapy インストールガイド
インストール手順では、次のコンテンツがすでにインストールされていることを前提としています: <1>Python2.7<2>lxml<3>OpenSSL Scrapy をインストールするには、Python のパッケージ管理ツール pip または easy_install を使用します。
Pip インストール方法:
コードをコピー コードは次のとおりです:
pip install Scrapy
easy_install インストールメソッド:
コードをコピー コードは次のとおりです:
easy_install Scrapy
3. Ubuntu プラットフォームでの環境設定
1. Python パッケージ管理ツール
現在のパッケージ管理ツール チェーンは easy_install/pip + distribution/setuptools
distutils: 非常に単純なアプリケーション シナリオに適した Python 独自の基本インストール ツールです。 distutils には多くの拡張機能が作成されており、特にパッケージの依存関係メカニズムが一部の Python サブコミュニティで事実上の標準になっています。
distribute: setuptools の開発の進行が遅いため、Python 3 はサポートされていません。コードは混乱しており、setuptools を置き換えて公式の標準ライブラリとして受け入れられることを望んでいるプログラマが、コードを最初からリファクタリングし、関数を追加するのに役立ち、短期間でコミュニティに setuptools/distribute のみの配布を受け入れさせました。 distutils;
easy_install: setuptools と distribution に付属するインストール スクリプト。つまり、setuptools または distribution がインストールされると、easy_install も自動的に検出されます。これは、Python によって公式に保守されているパッケージ ソースです。サードパーティの Python パッケージをインストールするのに非常に便利です。
pip を使用します。pip の目的は非常に明確です。easy_install には多くの欠点があります。インストール トランザクションは非アトミックな操作であり、サポートされるのはsvn はアンインストール コマンドを提供せず、一連のパッケージをインストールするときにスクリプトを作成する必要があります。pip は上記の問題を解決し、新しい事実上の標準となった virtualenv は優れたパートナーとなっています。
インストールプロセス:
インストール、配布
コードのコピー
コードは次のとおりです: $curl -O http:/ /python-distribute.org/distribute_setup.py $ python distribution_setup.py
pip をインストールします:
コードをコピーします
コードは次のとおりです次のように: $curl -O https://raw.github.com/pypa/pip/master/contrib/get-pip.py $ [sudo] python get-pip.py
2. Scrapy のインストール Windows プラットフォームでは、パッケージ管理ツールを使用するか、さまざまな依存バイナリ パッケージを手動でダウンロードできます: pywin32、Twisted、zope.interface、lxml、pyOpenSSL (Ubuntu9.10 以降のバージョン) Ubuntu が提供する python-scrapy パッケージは最新の Scrapy に適合するには古すぎるか、遅すぎるため、使用しないことが公式に推奨されています。解決策は、すべての依存ライブラリを提供し、最新の Scrapy に適した公式の Ubuntu パッケージを使用することです。バグは継続的な更新と高い安定性を提供します。Ubuntu 9.10 以降のバージョンでの Scrapy のインストール方法は次のとおりです。
>
コードをコピー
コードは次のとおりです:sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 - -recv 627220E7
/etc/apt/sources.list.d/scrapy.list ファイルを作成
コードをコピー
コードは次のとおりです:echo 'deb http://archive.scrapy.org/ubuntuscrapy main' | sudo tee /etc/apt/sources.list.d/scrapy.list
<3> ;パッケージリストを更新し、scrapy バージョンをインストールします。VERSION は、scrapy-0.22 などの実際のバージョンに置き換えられます
コードをコピーします
コードは次のとおりです: sudo apt-get update && sudo apt-get installscrapy-VERSION
3. Scrapy 依存ライブラリのインストールubuntu12.04 での Scrapy 依存ライブラリのインストール
インポートエラー: w3lib.http という名前のモジュールがありません
コードをコピーします
コードは次のとおりです: pip install w3lib
ImportError: No module namesTwisted
コードをコピー
コードは次のとおりです。 pip installTwisted
ImportError: No module names lxml.html
Copy code
コードは次のとおりです:pip install lxml
解決策: エラー: libxml/xmlversion.h: そのようなファイルまたはディレクトリはありません
コードをコピーします コードは次のとおりです:
apt-get install libxml2-dev libxslt-dev
apt-get install python -lxml
解決策: ImportError: cssselect という名前のモジュールがありません
コードをコピー コードは次のとおりです:
pip install cssselect
ImportError: OpenSSL という名前のモジュールがありません
コードをコピーします コードは次のとおりです:
pip install pyOpenSSL
4. 独自のクローラ開発をカスタマイズします
ファイル ディレクトリに切り替えて、新しいプロジェクトを開きます