ホームページ > バックエンド開発 > Python チュートリアル > 史上最も効率的な Python クローラー フレームワーク (推奨)

史上最も効率的な Python クローラー フレームワーク (推奨)

烟雨青岚
リリース: 2020-07-02 13:20:27
転載
3650 人が閲覧しました

史上最も効率的な Python クローラー フレームワーク (推奨)

Web クローラー (Web スパイダー、Web ロボット、FOAF コミュニティでは一般に Web ページ チェイサーとも呼ばれます) は、特定のルールに自動的に従う Web クローラーの一種です。 World Wide Web から情報をクロールするプログラムまたはスクリプト。さあ、これを一緒に学びましょう。

1.Scrapy

Scrapy は、Web サイトのデータをクロールし、構造化データを抽出するために作成されたアプリケーション フレームワークです。データマイニング、情報処理、履歴データの保存などの一連のプログラムで使用できます。 。このフレームワークを使用すると、Amazon の商品情報などのデータを簡単にクロールできます。

史上最も効率的な Python クローラー フレームワーク (推奨)

プロジェクトアドレス: https://scrapy.org/

2.PySpider

pyspider はPython で実装された強力な Web クローラー システムです。スクリプトを作成し、機能をスケジュールし、ブラウザー インターフェイス上でリアルタイムでクロール結果を表示できます。バックエンドは一般的に使用されるデータベースを使用してクロール結果を保存し、タイミングも設定できます。タスクとタスクの優先順位など。

史上最も効率的な Python クローラー フレームワーク (推奨)

プロジェクトアドレス: https://github.com/binux/pyspider

3.Crawley

Crawley は、対応する Web サイトのコンテンツを高速にクロールでき、リレーショナルおよび非リレーショナル データベースをサポートし、データを JSON、XML などにエクスポートできます。

史上最も効率的な Python クローラー フレームワーク (推奨)

# プロジェクト アドレス: http://project.crawley-cloud.com/

4.Portia

Portia は、プログラミングの知識がなくても Web サイトをクロールできるオープンソースのビジュアル クローラー ツールです。興味のあるページに注釈を付けるだけで、Portia が同様のページからデータを抽出するスパイダーを作成します。

史上最も効率的な Python クローラー フレームワーク (推奨)

プロジェクトアドレス: https://github.com/scrapinghub/portia

5.Newspaper

新聞は、ニュース、記事の抽出、内容分析に使用できます。マルチスレッドの使用、10 を超える言語のサポートなど。

史上最も効率的な Python クローラー フレームワーク (推奨)#プロジェクトアドレス: https://github.com/codelucas/newspaper

6.美しいスープ

Beautiful Soup は、HTML または XML ファイルからデータを抽出できる Python ライブラリです。お気に入りのコンバータを通じて、ドキュメントのナビゲーション、検索、および変更の通常の方法を実現できます。Beautiful Soup を使用すると、数時間、さらには数日の作業時間を節約できます。

史上最も効率的な Python クローラー フレームワーク (推奨) プロジェクトアドレス: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

7.Grab

Grab は、Web スクレイパーを構築するための Python フレームワークです。 Grab を使用すると、単純な 5 行のスクリプトから数百万の Web ページを処理する複雑な非同期 Web サイト スクレイパーまで、さまざまな複雑さの Web スクレイパーを構築できます。 Grab は、ネットワーク リクエストを実行し、HTML ドキュメントの DOM ツリーと対話するなど、受信したコンテンツを処理するための API を提供します。

史上最も効率的な Python クローラー フレームワーク (推奨)プロジェクトアドレス: http://docs.grablib.org/en/latest/#grab-spider-user-manual

8 .Cola

Cola は分散クローラー フレームワークであり、ユーザーは分散操作の詳細を意識することなく、いくつかの特定の関数を記述するだけで済みます。タスクは複数のマシンに自動的に分散され、プロセス全体がユーザーに透過的に行われます。

史上最も効率的な Python クローラー フレームワーク (推奨)プロジェクト アドレス: https://github.com/chineking/cola

お読みいただきありがとうございます。多くのメリットがあることを願っています。

転載先: https://www.toutiao.com/i6560240315519730190/

推奨チュートリアル: "

python チュートリアル

"

以上が史上最も効率的な Python クローラー フレームワーク (推奨)の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:csdn.net
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート