コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

ホームページ > バックエンド開発 > Python チュートリアル > 完全なクローラーフレームワークを作成する方法

完全なクローラーフレームワークを作成する方法

零到壹度

リリース： 2018-03-30 11:28:40

オリジナル

4802 人が閲覧しました

この記事では主に、クローラーフレームワークのリクエストメソッドを完全に記述する方法について説明します。これは非常に参考になるので、皆さんのお役に立てれば幸いです。編集者をフォローして見てみましょう。皆さんのお役に立てれば幸いです。

クローラーフレームワークを生成します:

1. スクレイピークローラープロジェクトを作成します

2. スパイダークローラーを構成します

4.クローラーを実行する、Web ページを取得します

特定の操作:

1. プロジェクトを作成します

という名前のプロジェクトを定義します: python123demo

方法:

cm d、d：Dドライブに入る, cd pycodes ファイルpycodes

を入力し、

scrapy startproject python123demo

と入力すると、pycodesでファイルが生成されます:

_init_.py はそうではありませんユーザーの書き込みが必要です

2. プロジェクトでスクレイピークローラーを生成します

コマンドを実行し、クローラー名とクロールされた Web サイトを指定します

クローラー:

demo という名前のスパイダーを生成します

demo.py のみを生成します。その内容は次のとおりです:

name = 'demo' 現在のクローラー名は、demo

です許可_domains = " Web サイトのドメイン名の下にあるリンクをクロールします。ドメイン名は cmd コマンドコンソールから入力されます

start_urls = [] クロールされた最初のページ

parse() は、対応するページを処理するために使用されます。コンテンツを解析して辞書を形成し、新しい URL クローリングリクエストを検出します

3. ニーズを満たすように生成されたスパイダークローラーを構成します

解析されたページをファイルに保存します

デモを変更します。 py ファイル

4. クローラーを実行して Web ページを取得します

cmd を開き、クロールするコマンドラインを入力します

その後、コンピューターにエラーが表示されました

Windows システムこの問題を解決するには、Py32Win モジュールをインストールする必要がありますが、公式 Web サイトのリンクから exe を直接インストールすると、何百ものエラーが発生します。

pip3 install pypiwin32

これは py3 の解決策です

注: py3 バージョンに対して pip install pypiwin32 コマンドを使用すると、エラーが発生します

インストールが完了したら、再度クローラーを実行してください、成功しました!

キャプチャページは、demo.html ファイルに保存されます

demo.py 対応する完全なコード:

2 つのバージョンは同等です:

以上が完全なクローラーフレームワークを作成する方法の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル：

python フレーム

ソース：php.cn

前の記事：Python は他の Web ページをクロールします次の記事：Pythonファイルの操作方法

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

PS Day 02: ライトエフェクトマテリアルの切り抜きについては、フォローしてください。

2018-08-28 15:02:42
PS Day 01: 文書から印鑑を抽出する方法については、フォローしてください。

2018-08-25 10:55:46
PS Day 02: 複雑な森を切り出す方法をご覧ください。

2018-08-20 16:25:41
PS Day 01: カラー写真を切り取って線画効果を生み出す方法を学ぶためにフォローしてください

2018-08-18 11:26:54
PS Day 02: ぼかしツールを学ぶためにフォローしてください

2018-08-14 16:35:58
PS Day 01: 修復ブラシツールを学ぶためにフォローしてください

2018-07-28 15:36:43
PS Day 02: モバイルツールの使用方法と適用方法については、フォローしてください。

2018-07-27 16:59:00
PS Day 01: 切り抜きツールを使用する

2018-07-27 15:22:47
PS Day 02: Photoshop のなげなわツールを練習するためにフォローしてください

2018-07-23 17:56:00
PS Day 01: 写真に境界線効果を追加する方法については、フォローしてください。

2018-07-23 16:21:38

最新の問題

他の CSS コードに関係なく、フレックスボックス内のテキストを強制的に垂直方向の中央に配置する方法はありますか? 開発中の Web サイトで使用されている大規模な CSS コードの一部である次の CSS コードがあります。 }.card-u{margin:20px;padding:20px;w...

から 2024-04-06 20:41:51

0

1

518

livewire遅延プレースホルダーでlaravelコンポーネントを使用する方法 laravel コンポーネントのスケルトンを livewire3 プレースホルダー内に追加したいこれまでに試したこと: Laravel コンポーネントを含めることによる Live...

から 2024-04-06 20:02:10

0

2

543

MySQL SQLクエリを使用して別のテーブルのフィールドの合計を計算する次のようなスキーマがあります。属性「user_id」と「username」を持つユーザーテーブルと、属性「customer_id」（user_idのFK）と「finalPrice...

から 2024-04-06 19:39:29

0

1

441

Reactjsで複数のチェックボックスを選択する方法複数のチェックボックスを選択したいオプションのリストがありますが、選択することができません。このコードの何が問題なのでしょうか?サンドボックスの URL

から 2024-04-06 18:55:21

0

1

396

アンカーポイント内の画像に対して境界線の半径が機能しない次の HTML コードを使用しています: <aclass="-video-detail-qualifiers-branding"><imgsr...

から 2024-04-06 17:20:25

0

1

347

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート