Eine kurze Einführung in das Python-Crawler-Framework Scrapy-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Eine kurze Einführung in das Python-Crawler-Framework Scrapy

不言

Oct 19, 2018 pm 05:04 PM

python

Dieser Artikel bietet Ihnen eine kurze Einführung in das Python-Crawler-Framework Scrapy. Ich hoffe, dass es für Freunde hilfreich ist.

Scrapy-Framework

Scrapy ist ein in reinem Python geschriebenes Anwendungsframework zum Crawlen von Website-Daten und zum Extrahieren von Strukturdaten. Es hat ein breites Anwendungsspektrum.

Mit der Leistungsfähigkeit des Frameworks müssen Benutzer nur ein paar Module anpassen und entwickeln, um ganz einfach einen Crawler zum Crawlen von Webinhalten und verschiedenen Bildern zu implementieren, was sehr praktisch ist.

Scrapy verwendet das asynchrone Netzwerk-Framework Twisted'twɪstɪd zur Abwicklung der Netzwerkkommunikation, das unsere Downloads beschleunigen kann, ohne das asynchrone Framework selbst implementieren zu müssen. Es enthält außerdem verschiedene Middleware-Schnittstellen und kann verschiedene Anforderungen flexibel erfüllen.

Scrapy-Architekturdiagramm (die grüne Linie ist die Datenflussrichtung):

95625f65089e4bc98a269cfda6701597.png

Scrapy Engine: Verantwortlich für die Kommunikation zwischen Spider, ItemPipeline, Downloader und Scheduler . Signale, Datenübertragung usw.

Scheduler (Scheduler): Er ist dafür verantwortlich, von der Engine gesendete Anforderungsanfragen zu akzeptieren, sie auf eine bestimmte Weise zu sortieren, in die Warteschlange zu stellen und sie an die Engine zurückzugeben, wenn die Engine sie benötigt.

Downloader: Verantwortlich für das Herunterladen aller von Scrapy Engine gesendeten Anfragen und die Rücksendung der erhaltenen Antworten an Scrapy Engine, die zur Verarbeitung an Spider übergeben werden.

Spider (Crawler): Er ist verantwortlich für Verarbeiten aller Antworten, Analysieren und Extrahieren von Daten daraus, Abrufen der für das Elementfeld erforderlichen Daten, Übermitteln der URL, der gefolgt werden muss, an die Engine und erneutes Aufrufen des Schedulers (Scheduler),

Item Pipeline (Pipeline): Sie ist für die Verarbeitung der vom Spider erhaltenen Elemente und die Durchführung der Nachbearbeitung (detaillierte Analyse, Filterung, Speicherung usw.) verantwortlich.

Downloader-Middleware (Middleware herunterladen): Sie können es sein gilt als Komponente, die zur Erweiterung der Download-Funktion angepasst werden kann.

Spider-Middleware (Spider-Middleware): Sie können es als funktionale Komponente verstehen, die die Erweiterung anpassen und die mittlere Kommunikation zwischen der Engine und Spider betreiben kann (z. B. Antworten, die in Spider eingehen, und Anfragen, die von Spider ausgehen).

b847d7fa404a404ca0a656028ada63b5.png

Wenn Sie beim Erlernen von Python auf viele Fragen und Probleme stoßen, können Sie -q-u-n 227 -435-450 hinzufügen. Es gibt kostenlose Software-Videomaterialien

Scrapy Der Betriebsprozess

Der Code wird geschrieben und das Programm beginnt zu laufen...

Engine: Hallo! Spider, an welcher Website arbeitest du?

Spider: Der Chef möchte, dass ich mich um xxxx.com kümmere.

Engine: Geben Sie mir die erste URL, die verarbeitet werden muss.

Spider: Bitte schön, die erste URL ist xxxxxxx.com.

Motor: Hallo! Planer, ich möchte Sie bitten, mir beim Sortieren der Warteschlangen zu helfen.

Planer: OK, Bearbeitung. Bitte warten.

Motor: Hallo! Planer, geben Sie mir die Anfrage, die Sie bearbeitet haben.

Scheduler: Bitte schön, das ist die Anfrage, die ich bearbeitet habe

Engine: Hallo! Downloader, bitte helfen Sie mir, diese Anfrage gemäß den Download-Middleware-Einstellungen des Chefs herunterzuladen

Downloader: OK! Bitte schön, hier ist der Download. (Wenn es fehlschlägt: Entschuldigung, der Download dieser Anfrage ist fehlgeschlagen. Dann teilt die Engine dem Planer mit, dass der Download dieser Anfrage fehlgeschlagen ist. Sie zeichnen es auf und wir werden es später herunterladen)

Engine: Hallo! Spider, das ist etwas, das heruntergeladen und gemäß der Download-Middleware des Chefs verarbeitet wurde. Sie können es selbst erledigen (Hinweis! Die Antworten hier werden standardmäßig von der Funktion def parse() verarbeitet)

Spider : (für die URL, die nach der Datenverarbeitung weiterverfolgt werden muss), Hallo! Engine, ich habe hier zwei Ergebnisse, dies ist die URL, die ich verfolgen muss, und dies sind die Artikeldaten, die ich erhalten habe.

Motor: Hallo! Pipeline Ich habe hier einen Artikel. Bitte helfen Sie mir, damit umzugehen! Planer! Dies ist eine URL, die weiterverfolgt werden muss. Bitte helfen Sie mir, damit umzugehen. Beginnen Sie dann die Schleife ab Schritt 4, bis Sie alle Informationen erhalten haben, die der Chef benötigt.

Pipeline `` Scheduler: OK, mach es jetzt!

Achtung! Nur wenn im Scheduler keine Anfragen vorhanden sind, stoppt das gesamte Programm (d. h. Scrapy lädt die URL erneut herunter, deren Download fehlgeschlagen ist).

Es sind insgesamt 4 Schritte erforderlich, um einen Scrapy-Crawler zu erstellen :

Neues Projekt (scrapy startproject xxx): Erstellen Sie ein neues Crawler-Projekt

Löschen Sie das Ziel (schreiben Sie items.py): Löschen Sie das Ziel, das Sie crawlen möchten

Erstellen ein Crawler (spiders/xxspider.py): Erstellen Sie einen Crawler, um mit dem Crawlen von Webseiten zu beginnen

Speicherinhalt (pipelines.py): Entwerfen Sie Pipelines zum Speichern gecrawlter Inhalte

Das obige ist der detaillierte Inhalt vonEine kurze Einführung in das Python-Crawler-Framework Scrapy. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7529

CakePHP-Tutorial

1378

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

PHP und Python: Vergleich von zwei beliebten Programmiersprachen Apr 14, 2025 am 12:13 AM

PHP und Python haben jeweils ihre eigenen Vorteile und wählen nach den Projektanforderungen. 1.PHP ist für die Webentwicklung geeignet, insbesondere für die schnelle Entwicklung und Wartung von Websites. 2. Python eignet sich für Datenwissenschaft, maschinelles Lernen und künstliche Intelligenz mit prägnanter Syntax und für Anfänger.

Wie Debian Readdir sich in andere Tools integriert Apr 13, 2025 am 09:42 AM

Die Readdir -Funktion im Debian -System ist ein Systemaufruf, der zum Lesen des Verzeichnisgehalts verwendet wird und häufig in der C -Programmierung verwendet wird. In diesem Artikel wird erläutert, wie Readdir in andere Tools integriert wird, um seine Funktionalität zu verbessern. Methode 1: Kombinieren Sie C -Sprachprogramm und Pipeline zuerst ein C -Programm, um die Funktion der Readdir aufzurufen und das Ergebnis auszugeben:#include#include#includeIntmain (intargc, char*argv []) {Dir*Dir; structDirent*Eintrag; if (argc! = 2) {{

Python und Zeit: Machen Sie das Beste aus Ihrer Studienzeit Apr 14, 2025 am 12:02 AM

Um die Effizienz des Lernens von Python in einer begrenzten Zeit zu maximieren, können Sie Pythons DateTime-, Zeit- und Zeitplanmodule verwenden. 1. Das DateTime -Modul wird verwendet, um die Lernzeit aufzuzeichnen und zu planen. 2. Das Zeitmodul hilft, die Studie zu setzen und Zeit zu ruhen. 3. Das Zeitplanmodul arrangiert automatisch wöchentliche Lernaufgaben.

So konfigurieren Sie den HTTPS -Server in Debian OpenSSL Apr 13, 2025 am 11:03 AM

Das Konfigurieren eines HTTPS -Servers auf einem Debian -System umfasst mehrere Schritte, einschließlich der Installation der erforderlichen Software, der Generierung eines SSL -Zertifikats und der Konfiguration eines Webservers (z. B. Apache oder NGINX) für die Verwendung eines SSL -Zertifikats. Hier ist eine grundlegende Anleitung unter der Annahme, dass Sie einen Apacheweb -Server verwenden. 1. Installieren Sie zuerst die erforderliche Software, stellen Sie sicher, dass Ihr System auf dem neuesten Stand ist, und installieren Sie Apache und OpenSSL: sudoaptupdatesudoaptupgradesudoaptinsta

Gitlabs Plug-in-Entwicklungshandbuch zu Debian Apr 13, 2025 am 08:24 AM

Die Entwicklung eines Gitlab -Plugins für Debian erfordert einige spezifische Schritte und Kenntnisse. Hier ist ein grundlegender Leitfaden, mit dem Sie mit diesem Prozess beginnen können. Wenn Sie zuerst GitLab installieren, müssen Sie GitLab in Ihrem Debian -System installieren. Sie können sich auf das offizielle Installationshandbuch von GitLab beziehen. Holen Sie sich API Access Token, bevor Sie die API -Integration durchführen. Öffnen Sie das GitLab -Dashboard, finden Sie die Option "AccessTokens" in den Benutzereinstellungen und generieren Sie ein neues Zugriffs -Token. Wird generiert

Welcher Dienst ist Apache Apr 13, 2025 pm 12:06 PM

Apache ist der Held hinter dem Internet. Es ist nicht nur ein Webserver, sondern auch eine leistungsstarke Plattform, die enormen Datenverkehr unterstützt und dynamische Inhalte bietet. Es bietet eine extrem hohe Flexibilität durch ein modulares Design und ermöglicht die Ausdehnung verschiedener Funktionen nach Bedarf. Modularität stellt jedoch auch Konfigurations- und Leistungsherausforderungen vor, die ein sorgfältiges Management erfordern. Apache eignet sich für Serverszenarien, die hoch anpassbare und entsprechende komplexe Anforderungen erfordern.

In welcher Sprache wird Apache geschrieben? Apr 13, 2025 pm 12:42 PM

Apache ist in C geschrieben. Die Sprache bietet Geschwindigkeit, Stabilität, Portabilität und direkten Zugriff auf Hardware, wodurch es für die Entwicklung von Webserver ideal ist.

PHP und Python: Code Beispiele und Vergleich Apr 15, 2025 am 12:07 AM

PHP und Python haben ihre eigenen Vor- und Nachteile, und die Wahl hängt von den Projektbedürfnissen und persönlichen Vorlieben ab. 1.PHP eignet sich für eine schnelle Entwicklung und Wartung großer Webanwendungen. 2. Python dominiert das Gebiet der Datenwissenschaft und des maschinellen Lernens.

See all articles