Detaillierte Erläuterung von Scrapy-Beispielen des Python-Crawler-Frameworks-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Detaillierte Erläuterung von Scrapy-Beispielen des Python-Crawler-Frameworks

高洛峰

Oct 18, 2016 am 10:25 AM

Projekt generieren

Scrapy bietet ein Tool zum Generieren eines Projekts. Einige Dateien sind im generierten Projekt voreingestellt, und Benutzer müssen diesen Dateien ihren eigenen Code hinzufügen.

Öffnen Sie die Befehlszeile und führen Sie Folgendes aus: scrapy startproject Tutorial Das generierte Projekt hat eine ähnliche Struktur wie das folgende

tutorial/

scrapy.cfg

Tutorial/

__init__.py

items.py

Pipelines.py

Settings.py

Spiders/

__init__. py

mehrere URLs einschließen

Die Parse-Methode dient dazu, dass Spinnen eine abrufen. Der Rückruf wird in Zukunft standardmäßig auf der Webseite aufgerufen. Vermeiden Sie die Verwendung dieses Namens, um Ihre eigenen Methoden zu definieren.

Wenn der Spider den Inhalt der URL erhält, ruft er die Parse-Methode auf und übergibt ihr einen Antwortparameter. Die Antwort enthält den Inhalt der erfassten Webseite. In der Parse-Methode können Sie den Inhalt abrufen der Webseite aus der erfassten Webseite. Die Daten werden darin analysiert. Der obige Code speichert einfach den Webseiteninhalt in einer Datei.

from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
    def parse(self, response):
        filename = response.url.split("/")[-2]
        open(filename, &#39;wb&#39;).write(response.body)

Nach dem Login kopieren

Crawling starten

Sie können die Befehlszeile öffnen, das generierte Projektstammverzeichnis „tutorial/“ eingeben und Scrapy Crawl Dmoz ausführen, dmoz ist der Name von die Spinne.

Webinhalte analysieren

Scrapy bietet eine bequeme Möglichkeit, Daten von Webseiten zu analysieren, was die Verwendung von HtmlXPathSelector erfordert

HtmlXPathSelector verwendet Xpath zum Parsen von Daten

//ul/li bedeutet die Auswahl des li-Tags unter allen ul-Tags

a/@href bedeutet die Auswahl des href-Attributs aller a-Tags

a/text() bedeutet die Auswahl eines Tag-Textes

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select(&#39;//ul/li&#39;)
        for site in sites:
            title = site.select(&#39;a/text()&#39;).extract()
            link = site.select(&#39;a/@href&#39;).extract()
            desc = site.select(&#39;text()&#39;).extract()
            print title, link, desc

Nach dem Login kopieren

a[@href="abc"] bedeutet die Auswahl aller Tags, deren href-Attribut abc ist

Wir können die Daten analysieren und speichern in einem Objekt, das Scrapy verwenden kann, und dann kann Scrapy uns helfen, diese Objekte zu speichern, ohne die Daten selbst in einer Datei speichern zu müssen. Wir müssen einige Klassen zu items.py hinzufügen, die verwendet werden, um die Daten zu beschreiben, die wir speichern möchten.

Beim Ausführen von Scrapy in der Befehlszeile können wir zwei Parameter hinzufügen, damit Scrapy die Analyse verwenden kann Methode Die zurückgegebenen Elemente werden in eine JSON-Datei ausgegeben

scrapy crawl dmoz -o items.json -t json

items.json wird im Stammverzeichnis des Projekts abgelegt

from scrapy.item import Item, Field
class DmozItem(Item):
   title = Field()
   link = Field()
   desc = Field()
然后在spider的parse方法中，我们把解析出来的数据保存在DomzItem对象中。
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from tutorial.items import DmozItem
class DmozSpider(BaseSpider):
   name = "dmoz"
   allowed_domains = ["dmoz.org"]
   start_urls = [
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]
   def parse(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select(&#39;//ul/li&#39;)
       items = []
       for site in sites:
           item = DmozItem()
           item[&#39;title&#39;] = site.select(&#39;a/text()&#39;).extract()
           item[&#39;link&#39;] = site.select(&#39;a/@href&#39;).extract()
           item[&#39;desc&#39;] = site.select(&#39;text()&#39;).extract()
           items.append(item)
       return items

Nach dem Login kopieren

Lassen Sie Scrapy automatisch alle Links auf der Webseite crawlen

Im obigen Beispiel crawlt Scrapy nur den Inhalt der beiden URLs in start_urls, normalerweise aber das, was wir erreichen wollen ist automatisch scrapy. Entdecken Sie alle Links auf einer Webseite und crawlen Sie dann den Inhalt dieser Links. Um dies zu erreichen, können wir die benötigten Links in der Parse-Methode extrahieren, dann einige Request-Objekte erstellen und sie zurückgeben. Scrapy crawlt diese Links automatisch. Der Code ist ähnlich:

parse ist der Standardrückruf, der eine Anforderungsliste zurückgibt. Immer wenn eine Webseite erfasst wird, wird parse_item aufgerufen wird auch Gibt eine Liste zurück, Scrapy crawlt die Webseite basierend auf dieser Liste und ruft nach dem Abrufen parse_details

auf. Um diese Art von Arbeit zu erleichtern, stellt Scrapy eine weitere Spider-Basisklasse bereit, die wir verwenden können Um es bequem zu implementieren, müssen wir CrawlSpider verwenden. Im Vergleich zu BaseSpider verfügt die neue Klasse über ein zusätzliches Regelattribut, das jeweils mehrere Regeln enthalten kann Die Regel beschreibt, welche Links gecrawlt werden müssen und welche nicht. Dies ist die Dokumentation für die Regelklasse http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.contrib.spiders.Rule

Diese Regeln können Rückrufe haben oder nicht Wenn kein Rückruf erfolgt, folgt Scrapy einfach allen diesen Links.

Verwendung von Pipelines.py

class MySpider(BaseSpider):
    name = &#39;myspider&#39;
    start_urls = (
        &#39;http://example.com/page1&#39;,
        &#39;http://example.com/page2&#39;,
        )
    def parse(self, response):
        # collect `item_urls`
        for item_url in item_urls:
            yield Request(url=item_url, callback=self.parse_item)
    def parse_item(self, response):
        item = MyItem()
        # populate `item` fields
        yield Request(url=item_details_url, meta={&#39;item&#39;: item},
            callback=self.parse_details)
    def parse_details(self, response):
        item = response.meta[&#39;item&#39;]
        # populate more `item` fields
        return item

Nach dem Login kopieren

In Pipelines.py können wir einige Klassen hinzufügen, um die Elemente herauszufiltern, die wir nicht möchten. Das Element wird in der Datenbank gespeichert.

Wenn das Element die Anforderungen nicht erfüllt, wird eine Ausnahme ausgelöst und das Element wird nicht in die JSON-Datei ausgegeben.

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
class MininovaSpider(CrawlSpider):
    name = &#39;mininova.org&#39;
    allowed_domains = [&#39;mininova.org&#39;]
    start_urls = [&#39;http://www.mininova.org/today&#39;]
    rules = [Rule(SgmlLinkExtractor(allow=[&#39;/tor/\d+&#39;])),
             Rule(SgmlLinkExtractor(allow=[&#39;/abc/\d+&#39;]), &#39;parse_torrent&#39;)]
    def parse_torrent(self, response):
        x = HtmlXPathSelector(response)
        torrent = TorrentItem()
        torrent[&#39;url&#39;] = response.url
        torrent[&#39;name&#39;] = x.select("//h1/text()").extract()
        torrent[&#39;description&#39;] = x.select("//div[@id=&#39;description&#39;]").extract()
        torrent[&#39;size&#39;] = x.select("//div[@id=&#39;info-left&#39;]/p[2]/text()[2]").extract()
        return torrent

Nach dem Login kopieren

Um Pipelines zu verwenden, müssen wir auch Settings.py ändern

Eine Zeile hinzufügen

ITEM_PIPELINES = ['dirbot.pipelines.FilterWordsPipeline']

Führen Sie jetzt Scrapy Crawl dmoz -o items.json -t json aus. Elemente, die die Anforderungen nicht erfüllen, werden herausgefiltert

from scrapy.exceptions import DropItem
class FilterWordsPipeline(object):
    """A pipeline for filtering out items which contain certain words in their
    description"""
    # put all words in lowercase
    words_to_filter = [&#39;politics&#39;, &#39;religion&#39;]
    def process_item(self, item, spider):
        for word in self.words_to_filter:
            if word in unicode(item[&#39;description&#39;]).lower():
                raise DropItem("Contains forbidden word: %s" % word)
        else:
            return item

Nach dem Login kopieren

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7541

CakePHP-Tutorial

1381

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Apr 01, 2025 pm 05:09 PM

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Apr 02, 2025 am 07:18 AM

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer -Anfänger für Programmierungen? Wenn Sie nur 10 Stunden Zeit haben, um Computer -Anfänger zu unterrichten, was Sie mit Programmierkenntnissen unterrichten möchten, was würden Sie dann beibringen ...

Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Apr 01, 2025 pm 11:15 PM

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Apr 02, 2025 am 07:15 AM

Wie kann man nicht erkannt werden, wenn Sie Fiddlereverywhere für Man-in-the-Middle-Lesungen verwenden, wenn Sie FiddLereverywhere verwenden ...

Was sind reguläre Ausdrücke? Mar 20, 2025 pm 06:25 PM

Regelmäßige Ausdrücke sind leistungsstarke Tools für Musteranpassung und Textmanipulation in der Programmierung, wodurch die Effizienz bei der Textverarbeitung in verschiedenen Anwendungen verbessert wird.

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Apr 01, 2025 pm 10:51 PM

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen an? Uvicorn ist ein leichter Webserver, der auf ASGI basiert. Eine seiner Kernfunktionen ist es, auf HTTP -Anfragen zu hören und weiterzumachen ...

Was sind einige beliebte Python -Bibliotheken und ihre Verwendung? Mar 21, 2025 pm 06:46 PM

In dem Artikel werden beliebte Python-Bibliotheken wie Numpy, Pandas, Matplotlib, Scikit-Learn, TensorFlow, Django, Flask und Anfragen erörtert, die ihre Verwendung in wissenschaftlichen Computing, Datenanalyse, Visualisierung, maschinellem Lernen, Webentwicklung und h beschreiben

Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Apr 01, 2025 pm 11:18 PM

Wie erstellt in Python ein Objekt dynamisch über eine Zeichenfolge und ruft seine Methoden auf? Dies ist eine häufige Programmieranforderung, insbesondere wenn sie konfiguriert oder ausgeführt werden muss ...

See all articles