今日は、より効率的な Python クローラー フレームワークを皆さんにお勧めします。みんなと共有しましょう。
1.Scrapy
Scrapy は、Web サイトのデータをクロールし、構造データを抽出するために作成されたアプリケーション フレームワークです。データマイニング、情報処理、履歴データの保存などの一連のプログラムで使用できます。このフレームワークを使用すると、Amazon の商品情報などのデータを簡単にクロールできます。 (推奨される学習: Python ビデオ チュートリアル )
プロジェクト アドレス: https://scrapy.org/
2.PySpider
pyspider は、Python で実装された強力な Web クローラー システムです。スクリプトを作成し、関数をスケジュールし、ブラウザー インターフェイス上でリアルタイムでクロール結果を表示できます。バックエンドは、一般的に使用されるデータベースを使用してクロール結果を保存します。また、タスクやタスクを設定することもできます。タスクの優先順位を定期的に設定します。
プロジェクトアドレス: https://github.com/binux/pyspider
3.Crawley
Crawley は、対応する Web サイトのコンテンツをクロールできます高速で、リレーショナルおよび非リレーショナル データベースをサポートし、データを JSON、XML などにエクスポートできます。
プロジェクト アドレス: http://project.crawley-cloud.com/
4.Newspaper
新聞は、ニュースや情報を抽出するために使用できます。記事とコンテンツ分析。マルチスレッドの使用、10 を超える言語のサポートなど。
プロジェクトアドレス: https://github.com/codelucas/newspaper
5.Beautiful Soup
Beautiful Soup は、次のことができるツールです。 HTML または XML ファイルからデータを抽出するための Python ライブラリからダウンロードできます。お気に入りのコンバーターを使用して、慣例的なドキュメント ナビゲーション、検索、および変更方法が可能になります。Beautiful Soup を使用すると、数時間または数日の作業を節約できます。
プロジェクトアドレス: https://www.crummy.com/software/BeautifulSoup/bs4/doc/
##6.Grab
# # Grab は、Web スクレイパーを構築するための Python フレームワークです。 Grab を使用すると、単純な 5 行のスクリプトから数百万の Web ページを処理する複雑な非同期 Web サイト スクレイパーまで、さまざまな複雑さの Web スクレイパーを構築できます。 Grab は、ネットワーク リクエストを実行し、HTML ドキュメントの DOM ツリーと対話するなど、受信したコンテンツを処理するための API を提供します。
#プロジェクト アドレス: http://docs.grablib.org/en/latest/#grab-spider-user-manual
Cola は分散クローラー フレームワークであり、ユーザーは分散操作の詳細を意識することなく、特定の関数をいくつか記述するだけで済みます。タスクは複数のマシンに自動的に分散され、プロセス全体がユーザーに透過的に行われます。
プロジェクト アドレス: https://github.com/chineking/cola
Python 関連の技術記事の詳細については、
列にアクセスして学習してください。 !
以上がPython クローラー フレームワークとは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。