コミュニティ

学ぶ

ツールライブラリ

AIツール

レジャー

日本語

ホームページ > バックエンド開発 > Python チュートリアル > Anaconda 環境で Scrapy クローラーフレームワークを作成するための Python クローラー

Anaconda 環境で Scrapy クローラーフレームワークを作成するための Python クローラー

不言

リリース： 2018-09-07 15:38:42

オリジナル

6902 人が閲覧しました

Anaconda 環境で Scrapy クローラーフレームワークを作成するにはどうすればよいですか?この記事では、Anaconda 環境で Scrapy クローラーフレームワークプロジェクトを作成する手順を紹介します。一読の価値があります。

Python クローラーチュートリアル-31-Scrapy クローラーフレームワークプロジェクトの作成

まず、この記事は Anaconda 環境で書いていますので、Anaconda がインストールされていない場合は、公式 Web サイトにアクセスしてダウンロードしてください。まずはインストールしてください

Anaconda のダウンロードアドレス: https://www.anaconda.com/download/

Scrapy クローラーフレームワークプロジェクトの作成

0. [cmd] を開きます

1. 使用する Anaconda 環境を入力します

ここではプロジェクトを作成し、自動生成されたファイルの役割を分析しました

1. 環境名は次のとおりです。 [Pycharm] の [Settings] で見つかります。 [Project:] で

Anaconda 環境で Scrapy クローラーフレームワークを作成するための Python クローラー

を見つけます。 2. コマンドを使用します: activate 環境名 (例:

activate) learn

3. Scrapy プロジェクトを保存するディレクトリを入力します [注]

4. 新しいプロジェクト:scrapy startproject xxx プロジェクト名 (例:

##) #scrapy startproject new_project

5. 操作のスクリーンショット:

Anaconda 環境で Scrapy クローラーフレームワークを作成するための Python クローラー

6. ファイルエクスプローラーでディレクトリを開くと、いくつかのファイルが生成されていることがわかります

Anaconda 環境で Scrapy クローラーフレームワークを作成するための Python クローラー

7. Pycharm を使用してプロジェクトが配置されているディレクトリを開くだけです

Scrapy クローラーフレームワークプロジェクトの開発

0. Pycharm を使用しますプロジェクトを開いてスクリーンショットを撮るには:

Anaconda 環境で Scrapy クローラーフレームワークを作成するための Python クローラー

プロジェクト開発の一般的なプロセス:

アドレス Spider/xxspider.py はダウンロードしたデータの分解と抽出

1. クロールする必要があるターゲット/製品を明確にする: 項目を書きます。py

2. ダウンロードして、Spider ディレクトリに Python ファイルを作成して、クローラー:

#3. ストアコンテンツ: Pipelines.py

Pipeline.py ファイル

スパイダーオブジェクトが閉じられるときに呼び出されます

スパイダーオブジェクトが開かれるときに呼び出されます。

いくつかの必要なパラメータを初期化します。

スパイダーによって抽出された項目は、パラメータとして渡され、スパイダーとして使用されます。

このメソッドは実装する必要があります

Item オブジェクトを返す必要があり、破棄されたアイテムは後続のパイプラインに対応しません

パイプラインファイル

クローラがデータを抽出してアイテムに保存した後、アイテムに保存されたデータには、クリーニング、駆虫、保存などのさらなる処理が必要です。

パイプラインは process_item 関数を処理する必要があります

process_item

_ init _: コンストラクター

open_spider(スパイダー):

close_spider(スパイダー):

スパイダーディレクトリ

Spider

_ init _: クローラー名を初期化し、_urls リストを開始します。

#start_requests: Requests オブジェクト交換を生成します。ダウンロードして Scrapy

## に応答を返します。 #parse: 返された応答に従って対応するアイテムを解析します。アイテムは自動的にパイプラインに入ります。必要に応じて URL を解析します。URL は自動的にリクエストモジュールに渡され、サイクルが継続します

# start_requests: このメソッドは 1 回呼び出すことができ、start _urls コンテンツを読み取り、ループプロセスを開始します。

name: クローラー名を設定します。

start_urls: クロールの最初のバッチを開始する URL を設定します

allow_domains: スパイダーがクロールできるドメイン名のリスト

start_request(self): 1 回のみ呼び出される

parse: 検出エンコーディング

log: ログレコード

関連する推奨事項:

Python クローラーフレームワークのスクレイピー例の詳細な説明

スクレイピークローラー入門チュートリアル 4 Spider (クローラー)

Python の Scrapy フレームワークを使用して Web クローラーを作成する簡単な例

以上がAnaconda 環境で Scrapy クローラーフレームワークを作成するための Python クローラーの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル：

Python クローラー

前の記事：Mac に付属の openssl をアップグレードするにはどうすればよいですか? （プロセス概要）次の記事：Python クローラーでの lxml-etree と xpath の併用 (ケースあり)

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

著者別の最新記事

プログラミングとは何ですか?

2019-04-16 16:04:28
検索のショートカットキーはctrlキーとwhatキーです。

2020-09-15 11:26:00
カットのショートカットキーctrlには何が追加されるのでしょうか？

2020-09-10 14:26:14
それは何の職業ですか？

2020-09-08 11:06:15
Ctrl+キーを押すと何が保存されますか?

2020-09-09 09:46:36
ctrl+tのショートカットキーは何ですか?

2020-10-12 14:51:04
PS定規の使い方は？

2020-09-10 14:40:02
プログラミング学習に向いている人は？

2019-04-24 16:20:55
PSの逆選択のショートカットキーは何ですか？

2020-10-13 11:40:03
2つのインライン要素の間に改行を追加する方法

2019-04-15 14:06:21

最新の問題

人気のあるPythonライブラリとその用途は何ですか？

2025-03-21 18:46:29
Pythonの漬物と抑えるとは何ですか？

2025-03-21 18:45:34
学習と開発のためのあなたのお気に入りのPythonリソースは何ですか？

2025-03-21 13:19:29
Pythonの環境変数をどのように操作しますか？

2025-03-21 13:16:30
PythonのGCモジュールの目的は何ですか？

2025-03-21 13:13:27

関連トピック

詳細>

人気のおすすめ

人気のチュートリアル

詳細>

関連するチュートリアル

人気のおすすめ

最新のコース

最新のダウンロード

詳細>

ウェブエフェクト

公式サイト

サイト素材

フロントエンドテンプレート

