Scrapy ist eine Daten-Scraping-Anwendung, die Crawler-Vorlagen enthält-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Scrapy ist eine Daten-Scraping-Anwendung, die Crawler-Vorlagen enthält

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 22, 2023 am 09:24 AM

爬虫数据抓取 scrapy

Mit der kontinuierlichen Weiterentwicklung der Internet-Technologie ist auch die Crawler-Technologie weit verbreitet. Die Crawler-Technologie kann Daten im Internet automatisch crawlen und in einer Datenbank speichern, was die Datenanalyse und das Data Mining erleichtert. Als sehr bekanntes Crawler-Framework in Python verfügt Scrapy über einige gängige Crawler-Vorlagen, mit denen Daten auf der Zielwebsite schnell gecrawlt und automatisch in einer lokalen oder Cloud-Datenbank gespeichert werden können. In diesem Artikel wird erläutert, wie Sie Scrapys eigene Crawler-Vorlage zum Crawlen von Daten verwenden und wie Sie Daten während des Crawling-Vorgangs bereinigen, analysieren und speichern.

1. Einführung in Scrapy-Crawler-Vorlagen

Scrapy enthält einige Crawler-Vorlagen, darunter grundlegende Spider-Vorlagen, CrawlSpider-Vorlagen und XmlFeedSpider-Vorlagen. Die Spider-Vorlage ist die einfachste Crawler-Vorlage. Ihr Vorteil besteht darin, dass sie ein breites Anwendungsspektrum bietet und einfach zu verwenden ist. Die CrawlSpider-Vorlage ist eine regelbasierte Crawler-Vorlage, die mehrstufige Links schnell crawlen kann und benutzerdefinierte Regeln unterstützt. Die XmlFeedSpider-Vorlage ist eine Crawler-Vorlage, die für das XML-Format geeignet ist. Die Verwendung dieser Vorlagen für das Daten-Crawling kann die Entwicklungsschwierigkeiten für Programmierer erheblich reduzieren und die Crawling-Effizienz verbessern.

2. Scrapy-Crawler-Vorlagenanwendung

Das Folgende ist ein praktisches Beispiel, um zu veranschaulichen, wie man Scrapys eigene Spider-Vorlage zum Crawlen von Daten verwendet. Die Zielwebsite, die wir crawlen werden, ist eine Website mit Filminformationen, und die neuesten Filminformationen werden auf der Homepage der Website aufgeführt. Wir müssen den Namen, den Regisseur, die Schauspieler, die Bewertungen und andere Informationen des Films von dieser Website crawlen und in einer lokalen Datenbank speichern.

Erstellen Sie ein Scrapy-Projekt

Zuerst müssen Sie das Befehlszeilenfenster öffnen, zum Zielarbeitsverzeichnis wechseln und dann den folgenden Befehl eingeben:

scrapy startproject movies

Nach dem Login kopieren

Dieser Befehl erstellt ein Scrapy-Projekt mit dem Namen movies Projektverzeichnis, Enthält ein Unterverzeichnis namens Spiders, das zum Platzieren von Crawler-Programmen verwendet wird.

Erstellen Sie eine Spider-Vorlage

Verwenden Sie im Projektverzeichnis den folgenden Befehl, um einen Spider mit dem Namen movie_spider zu erstellen:

scrapy genspider movie_spider www.movies.com

Nach dem Login kopieren

Dieser Befehl generiert automatisch ein Programm basierend auf der Spider-Vorlage, wobei www.movies.com das darstellt Ziel Der Domänenname der Website. Im Spiders-Verzeichnis erscheint eine Datei namens movie_spider.py mit folgendem Inhalt:

import scrapy

class MovieSpider(scrapy.Spider):
    name = 'movie_spider'
    allowed_domains = ['www.movies.com']
    start_urls = ['http://www.movies.com/']

    def parse(self, response):
        pass

Nach dem Login kopieren

Dies ist das einfachste Spider-Programm. Dabei stellt Name den Namen des Crawlers dar, erlaubte_Domänen stellt die Liste der Domänennamen dar, die gecrawlt werden dürfen, und start_urls stellt die Liste der URLs dar, die mit dem Crawlen beginnen. Bei der Parse-Methode müssen wir Code für das Parsen und Erfassen von Daten schreiben.

Datenerfassung und -analyse

Wir müssen Code schreiben, um die Daten der Zielwebsite aus dem Antwortobjekt zu erfassen und zu analysieren. Für die gerade erwähnte Website mit Filminformationen können wir XPath- oder CSS-Selektoren verwenden, um Elemente auf der Seite zu finden. Unter der Annahme, dass der Filmname in einem div-Element mit der Klasse movie-name auf der Seite gespeichert ist, können wir den folgenden Code verwenden, um alle Filmnamen zu extrahieren:

def parse(self, response):
    movies = response.xpath('//div[@class="movie-name"]/text()').extract()
    for movie in movies:
        yield {'name': movie}

Nach dem Login kopieren

Hier verwenden wir die XPath-Syntax, um alle Klassen movie-name von zu finden das div-Element und verwenden Sie die Extract-Methode, um den Textinhalt im Element zu extrahieren. Als nächstes verwenden wir eine for-Schleife, um jeden Filmnamen als Ausgabe des Generators zu erhalten.

Ähnlich können wir über XPath- oder CSS-Selektoren andere Elemente finden, die uns interessieren. Informationen zum Regisseur und Schauspieler können beispielsweise in einem div-Element mit der Klasse „director“ gespeichert werden, und Bewertungsinformationen können in einem div-Element mit der Klasse „rate“ gespeichert werden.

Datenspeicherung

Im Spider-Programm müssen wir Code schreiben, um die erfassten Daten in einer lokalen oder Cloud-Datenbank zu speichern. Scrapy unterstützt das Speichern von Daten in einer Vielzahl unterschiedlicher Datenbanken, darunter MySQL, PostgreSQL, MongoDB usw.

Zum Beispiel können wir die MySQL-Datenbank verwenden, um Filminformationen zu speichern. Im Spiders-Verzeichnis können wir eine Datei namens mysql_pipeline.py erstellen, die den folgenden Code enthält:

import pymysql

class MysqlPipeline(object):
    def __init__(self):
        self.conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='movie_db', charset='utf8')

    def process_item(self, item, spider):
        cursor = self.conn.cursor()
        sql = "INSERT INTO movie(name, director, actors, rate) VALUES(%s, %s, %s, %s)"
        cursor.execute(sql, (item['name'], item['director'], item['actors'], item['rate']))
        self.conn.commit()

    def __del__(self):
        self.conn.close()

Nach dem Login kopieren

Dieses Programm speichert die Implementierungsdaten in der MySQL-Datenbank, wobei movie_db der Datenbankname ist und die Filmtabelle den Namen enthält , Regisseur, Vier Felder, Schauspieler und Rate, werden zum Speichern von Filmnamen, Regisseur, Schauspielern und Bewertungsinformationen verwendet. Die Methode „process_item“ wird verwendet, um die im Spider-Programm generierten Elemente in der Datenbank zu speichern.

Um die Datei „mysql_pipeline.py“ verwenden zu können, müssen wir außerdem die folgende Konfiguration in der Datei „settings.py“ hinzufügen:

ITEM_PIPELINES = {
    'movies.spiders.mysql_pipeline.MysqlPipeline': 300
}

Nach dem Login kopieren

Hier gibt „movies.spiders.mysql_pipeline.MysqlPipeline“ den Speicherort und den Klassennamen der mysql_pipeline an .py-Datei. Die Zahl 300 gibt die Priorität der Datenverarbeitung an. Je kleiner die Zahl, desto höher die Priorität.

Führen Sie das Scrapy-Programm aus

Führen Sie im Spiders-Verzeichnis den folgenden Befehl aus, um das Scrapy-Programm auszuführen:

scrapy crawl movie_spider

Nach dem Login kopieren

Dieser Befehl startet das Crawler-Programm namens movie_spider, um mit dem Crawlen der Daten der Zielwebsite und deren Speicherung zu beginnen MySQL-Datenbank.

3. Zusammenfassung

In diesem Artikel wird erläutert, wie Sie Scrapys eigene Crawler-Vorlagen zum Crawlen von Daten verwenden, einschließlich der Spider-Vorlage, der CrawlSpider-Vorlage und der XmlFeedSpider-Vorlage. Anhand eines praktischen Beispiels veranschaulichen wir, wie Spider-Vorlagen zum Erfassen und Analysieren von Daten sowie zum Speichern der Ergebnisse in einer MySQL-Datenbank verwendet werden. Die Verwendung von Scrapy zur Datenerfassung kann die Effizienz und Qualität der Datenerfassung erheblich verbessern und eine starke Unterstützung für nachfolgende Datenanalyse, Data Mining und andere Arbeiten bieten.

Das obige ist der detaillierte Inhalt vonScrapy ist eine Daten-Scraping-Anwendung, die Crawler-Vorlagen enthält. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7521

CakePHP-Tutorial

1378

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie lange dauert es, den Python-Crawler zu erlernen? Oct 25, 2023 am 09:44 AM

Die Zeit, die zum Erlernen von Python-Crawlern benötigt wird, ist von Person zu Person unterschiedlich und hängt von Faktoren wie persönlicher Lernfähigkeit, Lernmethoden, Lernzeit und Erfahrung ab. Beim Erlernen von Python-Crawlern geht es nicht nur um das Erlernen der Technologie selbst, sondern es sind auch gute Fähigkeiten zur Informationsbeschaffung, zur Problemlösung und zur Teamarbeit erforderlich. Durch kontinuierliches Lernen und Üben werden Sie nach und nach zu einem hervorragenden Python-Crawler-Entwickler heranwachsen.

Scrapy-Implementierungsmethode für asynchrones Laden basierend auf Ajax Jun 22, 2023 pm 11:09 PM

Scrapy ist ein Open-Source-Python-Crawler-Framework, das schnell und effizient Daten von Websites abrufen kann. Viele Websites verwenden jedoch die asynchrone Ladetechnologie von Ajax, was es Scrapy unmöglich macht, Daten direkt abzurufen. In diesem Artikel wird die Scrapy-Implementierungsmethode basierend auf dem asynchronen Laden von Ajax vorgestellt. 1. Ajax-Prinzip des asynchronen Ladens Ajax-Asynchronladen: Bei der herkömmlichen Seitenlademethode muss der Browser, nachdem er eine Anfrage an den Server gesendet hat, darauf warten, dass der Server eine Antwort zurückgibt und die gesamte Seite lädt, bevor er mit dem nächsten Schritt fortfährt.

Scrapy-Fallanalyse: So crawlen Sie Unternehmensinformationen auf LinkedIn Jun 23, 2023 am 10:04 AM

Scrapy ist ein Python-basiertes Crawler-Framework, mit dem schnell und einfach relevante Informationen im Internet abgerufen werden können. In diesem Artikel analysieren wir anhand eines Scrapy-Falls im Detail, wie Unternehmensinformationen auf LinkedIn gecrawlt werden. Bestimmen Sie die Ziel-URL. Zunächst müssen wir klarstellen, dass unser Ziel die Unternehmensinformationen auf LinkedIn sind. Daher müssen wir die URL der LinkedIn-Unternehmensinformationsseite finden. Öffnen Sie die LinkedIn-Website, geben Sie den Firmennamen in das Suchfeld ein und

Tipps zur Scrapy-Optimierung: So reduzieren Sie das Crawling doppelter URLs und verbessern die Effizienz Jun 22, 2023 pm 01:57 PM

Scrapy ist ein leistungsstarkes Python-Crawler-Framework, mit dem große Datenmengen aus dem Internet abgerufen werden können. Bei der Entwicklung von Scrapy stoßen wir jedoch häufig auf das Problem, doppelte URLs zu crawlen, was viel Zeit und Ressourcen verschwendet und die Effizienz beeinträchtigt. In diesem Artikel werden einige Scrapy-Optimierungstechniken vorgestellt, um das Crawlen doppelter URLs zu reduzieren und die Effizienz von Scrapy-Crawlern zu verbessern. 1. Verwenden Sie die Attribute „start_urls“ und „allowed_domains“ im Scrapy-Crawler

Analyse und Lösungen für häufige Probleme von PHP-Crawlern Aug 06, 2023 pm 12:57 PM

Analyse häufiger Probleme und Lösungen für PHP-Crawler Einleitung: Mit der rasanten Entwicklung des Internets ist die Erfassung von Netzwerkdaten in verschiedenen Bereichen zu einem wichtigen Bindeglied geworden. Als weit verbreitete Skriptsprache verfügt PHP über leistungsstarke Funktionen zur Datenerfassung. Eine der am häufigsten verwendeten Technologien sind Crawler. Bei der Entwicklung und Verwendung von PHP-Crawlern stoßen wir jedoch häufig auf einige Probleme. In diesem Artikel werden diese Probleme analysiert, Lösungen für sie bereitgestellt und entsprechende Codebeispiele bereitgestellt. 1. Beschreibung des Problems, dass die Daten der Zielwebseite nicht korrekt geparst werden können.

Verwendung von Selenium und PhantomJS im Scrapy-Crawler Jun 22, 2023 pm 06:03 PM

Verwendung von Selenium und PhantomJS in Scrapy-Crawlern Scrapy ist ein hervorragendes Webcrawler-Framework unter Python und wird häufig bei der Datenerfassung und -verarbeitung in verschiedenen Bereichen eingesetzt. Bei der Implementierung des Crawlers ist es manchmal erforderlich, Browservorgänge zu simulieren, um die von bestimmten Websites präsentierten Inhalte abzurufen. In diesem Fall werden Selenium und PhantomJS benötigt. Selenium simuliert menschliche Vorgänge im Browser und ermöglicht uns so die Automatisierung von Webanwendungstests

Effiziente Java-Crawler-Praxis: Weitergabe von Webdaten-Crawling-Techniken Jan 09, 2024 pm 12:29 PM

Java-Crawler-Praxis: So crawlen Sie Webseitendaten effizient Einführung: Mit der rasanten Entwicklung des Internets werden große Mengen wertvoller Daten auf verschiedenen Webseiten gespeichert. Um diese Daten zu erhalten, ist es oft notwendig, manuell auf jede Webseite zuzugreifen und die Informationen einzeln zu extrahieren, was zweifellos eine mühsame und zeitaufwändige Aufgabe ist. Um dieses Problem zu lösen, wurden verschiedene Crawler-Tools entwickelt, von denen der Java-Crawler eines der am häufigsten verwendeten ist. Dieser Artikel führt den Leser dazu, zu verstehen, wie man mit Java einen effizienten Webcrawler schreibt, und demonstriert die Praxis anhand spezifischer Codebeispiele. 1. Die Basis des Reptils

Ausführlicher Einsatz von Scrapy: Wie crawlt man HTML-, XML- und JSON-Daten? Jun 22, 2023 pm 05:58 PM

Scrapy ist ein leistungsstarkes Python-Crawler-Framework, mit dem wir schnell und flexibel Daten im Internet abrufen können. Beim eigentlichen Crawling-Prozess stoßen wir häufig auf verschiedene Datenformate wie HTML, XML und JSON. In diesem Artikel stellen wir vor, wie man Scrapy zum Crawlen dieser drei Datenformate verwendet. 1. HTML-Daten crawlen und ein Scrapy-Projekt erstellen. Zuerst müssen wir ein Scrapy-Projekt erstellen. Öffnen Sie die Befehlszeile und geben Sie den folgenden Befehl ein: scrapys

See all articles