Python クローラーフレームワークのスクレイピーなサンプルの詳細な説明-Python チュートリアル-php.cn

ホームページ

バックエンド開発

Python チュートリアル

Python クローラーフレームワークのスクレイピーなサンプルの詳細な説明

高洛峰

Oct 18, 2016 am 10:25 AM

プロジェクトの生成

Scrapy はプロジェクトを生成するツールを提供します。生成されたプロジェクトにはいくつかのファイルがプリセットされており、ユーザーはこれらのファイルに独自のコードを追加する必要があります。

コマンドラインを開いて実行します:scrapy startprojecttutorial 生成されたプロジェクトは次のような構造になります

tutorial/

scrapy.cfg

tutorial/

__init__.py

items.py

パイプライン.py

設定 .py

Spiders/

name 属性は重要です。異なるスパイダーが同じ名前を使用することはできません

start_url s はスパイダーが Web ページをクロールするための開始点であり、複数の URL を含めることができます

parse メソッドは、スパイダーが Web ページをキャプチャした後にデフォルトで呼び出されるコールバックです。独自のメソッドを定義するためにこの名前を使用することは避けてください。

スパイダーは URL のコンテンツを取得すると、parse メソッドを呼び出し、それに応答パラメータを渡します。parse メソッドでは、キャプチャされた Web ページのデータを解析できます。ページ。上記のコードは、Web ページのコンテンツをファイルに保存するだけです。

クロールを開始します

コマンドラインを開き、生成されたプロジェクトのルートディレクトリtutorial/に入力し、scrapy roll dmozを実行します。ここで、dmozはスパイダーの名前です。

Webページのコンテンツを解析する

scrapyは、Webページからデータを解析する便利な方法を提供します。それにはHtmlXPathSelectorの使用が必要です

from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
    def parse(self, response):
        filename = response.url.split("/")[-2]
        open(filename, &#39;wb&#39;).write(response.body)

ログイン後にコピー

HtmlXPathSelectorはXpathを使用してデータを解析します

//ul/liはすべてのULを選択することを意味しますタグ以下の li タグ

a/@href は、すべての a タグの href 属性を選択することを意味します

a/text() は、a タグのテキストを選択することを意味します

a[@href="abc"] は、href のすべての a を選択することを意味します属性は abc タグです

解析されたデータをscrapyが使用できるオブジェクトに保存すると、scrapyは自分でデータをファイルに保存することなく、これらのオブジェクトを保存するのに役立ちます。保存したいデータを記述するために使用されるいくつかのクラスを items.py に追加する必要があります

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select(&#39;//ul/li&#39;)
        for site in sites:
            title = site.select(&#39;a/text()&#39;).extract()
            link = site.select(&#39;a/@href&#39;).extract()
            desc = site.select(&#39;text()&#39;).extract()
            print title, link, desc

ログイン後にコピー

コマンドラインでscrapyを実行するとき、2つのパラメータを追加して、scrapyがparseメソッドによって返された項目を出力できるようにすることができます。 json ファイル内で

scrapy roll dmoz -o items.json -t json

items.json はプロジェクトのルートディレクトリに配置されます

scrapy が Web ページ上のすべてのリンクを自動的にクロールできるようにします

上の例、scrapy start_urls 内の 2 つの URL のコンテンツのみがクロールされますが、通常、私たちが達成したいのは、scrapy が Web ページ上のすべてのリンクを自動的に検出し、これらのリンクのコンテンツをクロールすることです。これを実現するには、parse メソッドで必要なリンクを抽出し、いくつかの Request オブジェクトを構築して、Scrapy がこれらのリンクを自動的にクロールします。コードは似ています:

from scrapy.item import Item, Field
class DmozItem(Item):
   title = Field()
   link = Field()
   desc = Field()
然后在spider的parse方法中，我们把解析出来的数据保存在DomzItem对象中。
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from tutorial.items import DmozItem
class DmozSpider(BaseSpider):
   name = "dmoz"
   allowed_domains = ["dmoz.org"]
   start_urls = [
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]
   def parse(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select(&#39;//ul/li&#39;)
       items = []
       for site in sites:
           item = DmozItem()
           item[&#39;title&#39;] = site.select(&#39;a/text()&#39;).extract()
           item[&#39;link&#39;] = site.select(&#39;a/@href&#39;).extract()
           item[&#39;desc&#39;] = site.select(&#39;text()&#39;).extract()
           items.append(item)
       return items

ログイン後にコピー

parse は、リクエストリストを返すデフォルトのコールバックです。Web ページがキャプチャされると、Scrapy はこのリストに基づいて Web ページを自動的にクロールし、parse_item もリストを返します。 Scrapy はこのリストに基づいて Web ページがクロールされ、クロール後に parse_details が呼び出されます

このような作業を容易にするために、Scrapy はリンクの自動クロールを簡単に実装できる別のスパイダー基本クラスを提供します。 CrawlSpider を使用するには

class MySpider(BaseSpider):
    name = &#39;myspider&#39;
    start_urls = (
        &#39;http://example.com/page1&#39;,
        &#39;http://example.com/page2&#39;,
        )
    def parse(self, response):
        # collect `item_urls`
        for item_url in item_urls:
            yield Request(url=item_url, callback=self.parse_item)
    def parse_item(self, response):
        item = MyItem()
        # populate `item` fields
        yield Request(url=item_details_url, meta={&#39;item&#39;: item},
            callback=self.parse_details)
    def parse_details(self, response):
        item = response.meta[&#39;item&#39;]
        # populate more `item` fields
        return item

ログイン後にコピー

BaseSpider と比較して、新しいクラスには追加のルール属性があり、この属性には複数のルールを含めることができます。どのリンクがクロールされる必要があるかが説明されます。これは Rule クラスのドキュメントです http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.contrib.spiders.Rule

これらのルールはコールバックを含むかどうか、コールバックがない場合に指定できます。、scrapy はこれらすべてのリンクをたどるだけです。

pipelines.py の使用法

pipelines.py では、不要な項目をフィルターで除外し、項目をデータベースに保存するためのクラスを追加できます。

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
class MininovaSpider(CrawlSpider):
    name = &#39;mininova.org&#39;
    allowed_domains = [&#39;mininova.org&#39;]
    start_urls = [&#39;http://www.mininova.org/today&#39;]
    rules = [Rule(SgmlLinkExtractor(allow=[&#39;/tor/\d+&#39;])),
             Rule(SgmlLinkExtractor(allow=[&#39;/abc/\d+&#39;]), &#39;parse_torrent&#39;)]
    def parse_torrent(self, response):
        x = HtmlXPathSelector(response)
        torrent = TorrentItem()
        torrent[&#39;url&#39;] = response.url
        torrent[&#39;name&#39;] = x.select("//h1/text()").extract()
        torrent[&#39;description&#39;] = x.select("//div[@id=&#39;description&#39;]").extract()
        torrent[&#39;size&#39;] = x.select("//div[@id=&#39;info-left&#39;]/p[2]/text()[2]").extract()
        return torrent

ログイン後にコピー

項目が要件を満たしていない場合、例外がスローされ、項目は json ファイルに出力されません。

パイプラインを使用するには、settings.pyも変更する必要があります

行を追加します

ITEM_PIPELINES = ['dirbot.pipelines.FilterWordsPipeline']

次に、scrapy roll dmoz -o items.json -t jsonを実行します。要件を満たしていないアイテムは除外されました

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7541

CakePHP チュートリアル

1381

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

LinuxターミナルでPythonバージョンを表示するときに発生する権限の問題を解決する方法は？ Apr 01, 2025 pm 05:09 PM

LinuxターミナルでPythonバージョンを表示する際の許可の問題の解決策PythonターミナルでPythonバージョンを表示しようとするとき、Pythonを入力してください...

プロジェクトの基本と問題駆動型の方法で10時間以内にコンピューター初心者プログラミングの基本を教える方法は？ Apr 02, 2025 am 07:18 AM

10時間以内にコンピューター初心者プログラミングの基本を教える方法は？コンピューター初心者にプログラミングの知識を教えるのに10時間しかない場合、何を教えることを選びますか...

あるデータフレームの列全体を、Python内の異なる構造を持つ別のデータフレームに効率的にコピーする方法は？ Apr 01, 2025 pm 11:15 PM

PythonのPandasライブラリを使用する場合、異なる構造を持つ2つのデータフレーム間で列全体をコピーする方法は一般的な問題です。 2つのデータがあるとします...

中間の読書にどこでもfiddlerを使用するときにブラウザによって検出されないようにするにはどうすればよいですか？ Apr 02, 2025 am 07:15 AM

fiddlereveryversings for the-middleの測定値を使用するときに検出されないようにする方法

正規表現とは何ですか？ Mar 20, 2025 pm 06:25 PM

正規表現は、プログラミングにおけるパターンマッチングとテキスト操作のための強力なツールであり、さまざまなアプリケーションにわたるテキスト処理の効率を高めます。

uvicornは、serving_forever（）なしでhttpリクエストをどのように継続的に聞いていますか？ Apr 01, 2025 pm 10:51 PM

UvicornはどのようにしてHTTPリクエストを継続的に聞きますか？ Uvicornは、ASGIに基づく軽量のWebサーバーです。そのコア機能の1つは、HTTPリクエストを聞いて続行することです...

人気のあるPythonライブラリとその用途は何ですか？ Mar 21, 2025 pm 06:46 PM

この記事では、numpy、pandas、matplotlib、scikit-learn、tensorflow、django、flask、and requestsなどの人気のあるPythonライブラリについて説明し、科学的コンピューティング、データ分析、視覚化、機械学習、Web開発、Hの使用について説明します。