ホームページ バックエンド開発 Python チュートリアル Python クローラー フレームワーク Scrapy の簡単な紹介

Python クローラー フレームワーク Scrapy の簡単な紹介

Oct 19, 2018 pm 05:04 PM
python

この記事では、Python クローラー フレームワーク Scrapy について簡単に紹介します。これには一定の参考価値があります。困っている友人は参照してください。お役に立てば幸いです。

Scrapy フレームワーク

Scrapy は、Web サイトのデータをクロールし、構造データを抽出するために純粋な Python で書かれたアプリケーション フレームワークであり、幅広い用途に使用できます。

フレームワークの機能を利用すると、ユーザーはいくつかのモジュールをカスタマイズして開発するだけで、Web コンテンツやさまざまな画像をクロールするクローラーを簡単に実装できるため、非常に便利です。

Scrapy は、Twisted'twɪstɪd 非同期ネットワーク フレームワークを使用してネットワーク通信を処理し、非同期フレームワークを自分で実装することなくダウンロードを高速化できます。また、さまざまなミドルウェア インターフェイスが含まれており、さまざまなニーズに柔軟に対応できます。

Scrapy アーキテクチャ図 (緑の線はデータ フローの方向):

95625f65089e4bc98a269cfda6701597.png

Scrapy エンジン: Spider、ItemPipeline、Downloader、および間の通信を担当します。スケジューラー、信号、データ転送など

スケジューラ (スケジューラ): エンジンによって送信されたリクエスト リクエストを受け取り、それらを特定の方法で分類し、キューに入力し、エンジンがリクエストを必要とするときにエンジンに返す責任があります。

ダウンローダー (ダウンローダー): Scrapy エンジン (エンジン) によって送信されたすべてのリクエストをダウンロードし、取得したレスポンスを Scrapy エンジン (エンジン) に返し、処理のために Spider に渡されます。

Spider (クローラー): すべてのレスポンスの処理、データの分析と抽出、項目フィールドで必要なデータの取得、および従う必要がある URL のエンジンへの送信を担当し、その後、スケジューラー (スケジューラー) に再度入ります。 ,

Item Pipeline (パイプライン): Spider から取得したアイテムの処理と後処理 (詳細な分析、フィルタリング、保存など) を実行します。

ダウンローダー ミドルウェア (ダウンロードミドルウェア):ダウンロード機能を拡張するためにカスタマイズできるコンポーネントとみなすことができます。

Spider Middlewares (スパイダーミドルウェア): 拡張機能と操作エンジン、およびスパイダー間の中間通信 (スパイダーに入るレスポンスやスパイダーからのリクエストなど) をカスタマイズできる機能コンポーネントとして理解できます。 )

b847d7fa404a404ca0a656028ada63b5.png

Python を学習する過程で多くの質問や問題が発生した場合は、-q-u-n 227 -435-450 を追加できます。ソフトウェアのビデオ資料は無料です。

Scrapy 操作プロセス

コードが記述され、プログラムが実行され始めます...

エンジン: こんにちは!スパイダー、どの Web サイトに取り組んでいますか?

スパイダー: 上司は私に xxxx.com を担当してほしいと思っています。

エンジン: 処理する必要がある最初の URL を教えてください。

スパイダー: はい、最初の URL は xxxxxxx.com です。

エンジン: こんにちは!スケジューラーさん、キューの整理を手伝ってほしいというお願いがあります。

スケジューラ: OK、処理中です。お待​​ちください。

エンジン: こんにちは!スケジューラさん、処理したリクエストを教えてください。

スケジューラ: どうぞ、これは私が処理したリクエストです

エンジン: こんにちは!ダウンローダーさん、ボスのダウンロード ミドルウェア設定に従ってこのリクエストをダウンロードするのを手伝ってください。リクエスト

ダウンローダー: OK!さあ、ダウンロードはこちらです。 (失敗した場合: 申し訳ありませんが、このリクエストのダウンロードは失敗しました。その後、エンジンはこのリクエストのダウンロードが失敗したことをスケジューラに伝えます。記録してください。後でダウンロードします。)

エンジン: こんにちは!スパイダー、これはダウンロードされ、ボスのダウンロード ミドルウェアに従って処理されたものです。自分で処理できます (注意! ここでの応答はデフォルトで def parse() 関数によって処理されます)

スパイダー: (データ処理後にフォローアップする必要がある URL の場合)、こんにちは!エンジン、ここには 2 つの結果があります。これはフォローアップする必要がある URL で、これは私が取得したアイテム データです。

エンジン: こんにちは!パイプライン ここにアイテムがあります。処理を手伝ってください。スケジューラー!これは、たどる必要がある URL です。対処を手伝ってください。次に、上司が必要とするすべての情報を取得するまで、ステップ 4 からのループを開始します。

パイプライン「スケジューラ: OK、今すぐ実行してください!」 ######知らせ!スケジューラにリクエストがない場合にのみ、プログラム全体が停止します (つまり、Scrapy はダウンロードに失敗した URL も再ダウンロードします)。

Scrapy クローラーを作成するには 4 つの手順が必要です。

新しいプロジェクト (scrapy startproject xxx): 新しいクローラー プロジェクトを作成します

目標をクリアします (items.py を書きます): クロールしたい目標をクリアします

Make aクローラー (spiders/xxspider.py): Web ページのクロールを開始するクローラーを作成します

ストレージ コンテンツ (pipelines.py): クロールされたコンテンツを保存するパイプラインを設計します

以上がPython クローラー フレームワーク Scrapy の簡単な紹介の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

PHPおよびPython:コードの例と比較 PHPおよびPython:コードの例と比較 Apr 15, 2025 am 12:07 AM

PHPとPythonには独自の利点と短所があり、選択はプロジェクトのニーズと個人的な好みに依存します。 1.PHPは、大規模なWebアプリケーションの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンスと機械学習の分野を支配しています。

CentosでPytorchモデルを訓練する方法 CentosでPytorchモデルを訓練する方法 Apr 14, 2025 pm 03:03 PM

CentOSシステムでのPytorchモデルの効率的なトレーニングには手順が必要であり、この記事では詳細なガイドが提供されます。 1。環境の準備:Pythonおよび依存関係のインストール:Centosシステムは通常Pythonをプリインストールしますが、バージョンは古い場合があります。 YumまたはDNFを使用してPython 3をインストールし、PIP:sudoyumupdatepython3(またはsudodnfupdatepython3)、pip3install-upgradepipをアップグレードすることをお勧めします。 cuda and cudnn(GPU加速):nvidiagpuを使用する場合は、cudatoolをインストールする必要があります

CentosのPytorchのGPUサポートはどのようにサポートされていますか CentosのPytorchのGPUサポートはどのようにサポートされていますか Apr 14, 2025 pm 06:48 PM

Pytorch GPUアクセラレーションを有効にすることで、CentOSシステムでは、PytorchのCUDA、CUDNN、およびGPUバージョンのインストールが必要です。次の手順では、プロセスをガイドします。CUDAおよびCUDNNのインストールでは、CUDAバージョンの互換性が決定されます。NVIDIA-SMIコマンドを使用して、NVIDIAグラフィックスカードでサポートされているCUDAバージョンを表示します。たとえば、MX450グラフィックカードはCUDA11.1以上をサポートする場合があります。 cudatoolkitのダウンロードとインストール:nvidiacudatoolkitの公式Webサイトにアクセスし、グラフィックカードでサポートされている最高のCUDAバージョンに従って、対応するバージョンをダウンロードしてインストールします。 cudnnライブラリをインストールする:

Dockerの原則の詳細な説明 Dockerの原則の詳細な説明 Apr 14, 2025 pm 11:57 PM

DockerはLinuxカーネル機能を使用して、効率的で孤立したアプリケーションランニング環境を提供します。その作業原則は次のとおりです。1。ミラーは、アプリケーションを実行するために必要なすべてを含む読み取り専用テンプレートとして使用されます。 2。ユニオンファイルシステム(UnionFS)は、違いを保存するだけで、スペースを節約し、高速化する複数のファイルシステムをスタックします。 3.デーモンはミラーとコンテナを管理し、クライアントはそれらをインタラクションに使用します。 4。名前空間とcgroupsは、コンテナの分離とリソースの制限を実装します。 5.複数のネットワークモードは、コンテナの相互接続をサポートします。これらのコア概念を理解することによってのみ、Dockerをよりよく利用できます。

Python vs. JavaScript:コミュニティ、ライブラリ、リソース Python vs. JavaScript:コミュニティ、ライブラリ、リソース Apr 15, 2025 am 12:16 AM

PythonとJavaScriptには、コミュニティ、ライブラリ、リソースの観点から、独自の利点と短所があります。 1)Pythonコミュニティはフレンドリーで初心者に適していますが、フロントエンドの開発リソースはJavaScriptほど豊富ではありません。 2)Pythonはデータサイエンスおよび機械学習ライブラリで強力ですが、JavaScriptはフロントエンド開発ライブラリとフレームワークで優れています。 3)どちらも豊富な学習リソースを持っていますが、Pythonは公式文書から始めるのに適していますが、JavaScriptはMDNWebDocsにより優れています。選択は、プロジェクトのニーズと個人的な関心に基づいている必要があります。

Centosの下でPytorchバージョンを選択する方法 Centosの下でPytorchバージョンを選択する方法 Apr 14, 2025 pm 02:51 PM

CentOSでPytorchバージョンを選択する場合、次の重要な要素を考慮する必要があります。1。CUDAバージョンの互換性GPUサポート:NVIDIA GPUを使用してGPU加速度を活用したい場合は、対応するCUDAバージョンをサポートするPytorchを選択する必要があります。 NVIDIA-SMIコマンドを実行することでサポートされているCUDAバージョンを表示できます。 CPUバージョン:GPUをお持ちでない場合、またはGPUを使用したくない場合は、PytorchのCPUバージョンを選択できます。 2。PythonバージョンPytorch

CentosでPytorchの分散トレーニングを操作する方法 CentosでPytorchの分散トレーニングを操作する方法 Apr 14, 2025 pm 06:36 PM

Pytorchの分散トレーニングでは、Centosシステムでトレーニングには次の手順が必要です。Pytorchのインストール:PythonとPipがCentosシステムにインストールされていることです。 CUDAバージョンに応じて、Pytorchの公式Webサイトから適切なインストールコマンドを入手してください。 CPUのみのトレーニングには、次のコマンドを使用できます。PipinstalltorchtorchtorchvisionTorchaudioGPUサポートが必要な場合は、CUDAとCUDNNの対応するバージョンがインストールされ、インストールに対応するPytorchバージョンを使用してください。分散環境構成:分散トレーニングには、通常、複数のマシンまたは単一マシンの複数GPUが必要です。場所

NginxをCentosにインストールする方法 NginxをCentosにインストールする方法 Apr 14, 2025 pm 08:06 PM

NGINXのインストールをインストールするには、次の手順に従う必要があります。開発ツール、PCRE-Devel、OpenSSL-Develなどの依存関係のインストール。 nginxソースコードパッケージをダウンロードし、それを解凍してコンパイルしてインストールし、/usr/local/nginxとしてインストールパスを指定します。 nginxユーザーとユーザーグループを作成し、アクセス許可を設定します。構成ファイルnginx.confを変更し、リスニングポートとドメイン名/IPアドレスを構成します。 nginxサービスを開始します。依存関係の問題、ポート競合、構成ファイルエラーなど、一般的なエラーに注意する必要があります。パフォーマンスの最適化は、キャッシュをオンにしたり、ワーカープロセスの数を調整するなど、特定の状況に応じて調整する必要があります。

See all articles