Scrapy-Framework und Datenbankintegration: Wie implementiert man eine dynamische Datenspeicherung?-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Scrapy-Framework und Datenbankintegration: Wie implementiert man eine dynamische Datenspeicherung?

PHPz

Jun 22, 2023 am 10:35 AM

数据库 scrapy 动态数据

Angesichts der zunehmenden Menge an Internetdaten ist die Frage, wie Daten schnell und genau gecrawlt, verarbeitet und gespeichert werden können, zu einem zentralen Thema bei der Entwicklung von Internetanwendungen geworden. Als effizientes Crawler-Framework wird das Scrapy-Framework aufgrund seiner flexiblen und schnellen Crawling-Methoden häufig in verschiedenen Daten-Crawling-Szenarien eingesetzt.

Das bloße Speichern der gecrawlten Daten in einer Datei kann jedoch die Anforderungen der meisten Anwendungen nicht erfüllen. Denn in aktuellen Anwendungen werden die meisten Daten über Datenbanken gespeichert, abgerufen und bearbeitet. Daher ist die Integration des Scrapy-Frameworks in die Datenbank zur Erzielung einer schnellen und dynamischen Datenspeicherung zu einer neuen Herausforderung geworden.

In diesem Artikel wird anhand konkreter Fälle vorgestellt, wie das Scrapy-Framework Datenbanken integriert und eine dynamische Datenspeicherung als Referenz für bedürftige Leser implementiert.

1. Vorbereitung

Vor der Einführung wird davon ausgegangen, dass die Leser dieses Artikels bereits die Grundkenntnisse der Python-Sprache und einiger Methoden zur Verwendung des Scrapy-Frameworks verstanden haben und die Python-Sprache zum Ausführen einfacher Datenbankoperationen verwenden können. Wenn Sie damit nicht vertraut sind, empfiehlt es sich, sich zunächst die entsprechenden Kenntnisse anzueignen und dann diesen Artikel zu lesen.

2. Wählen Sie die Datenbank aus

Bevor wir mit der Integration des Scrapy-Frameworks in die Datenbank beginnen, müssen wir zunächst eine geeignete Datenbank zum Speichern der von uns gecrawlten Daten auswählen. Zu den derzeit am häufigsten verwendeten Datenbanken gehören MySQL, PostgreSQL, MongoDB und viele andere Optionen.

Diese Datenbanken haben jeweils ihre eigenen Vor- und Nachteile. Wählen Sie sie entsprechend Ihren Anforderungen aus. Wenn beispielsweise die Datenmenge gering ist, ist es bequemer, die MySQL-Datenbank zu verwenden, und wenn eine große Datenspeicherung erforderlich ist, ist die Dokumentendatenbank von MongoDB besser geeignet.

3. Datenbankverbindungsinformationen konfigurieren

Vor dem spezifischen Vorgang müssen wir die Datenbankverbindungsinformationen konfigurieren. Am Beispiel der MySQL-Datenbank können Sie zum Herstellen einer Verbindung die Pymysql-Bibliothek in Python verwenden.

In Scrapy konfigurieren wir es normalerweise in Settings.py:

MYSQL_HOST = 'localhost'
MYSQL_PORT = 3306
MYSQL_USER = 'root'
MYSQL_PASSWORD = '123456'
MYSQL_DBNAME = 'scrapy_demo'

Nach dem Login kopieren

In der obigen Konfiguration haben wir den Hostnamen, die Portnummer, den Benutzernamen, das Passwort und den Datenbanknamen konfiguriert, in dem sich die MySQL-Datenbank befindet. Diese Informationen müssen geändert werden je nach tatsächlicher Situation.

4. Schreiben Sie die Datenspeicherpipeline

In Scrapy ist die Datenspeicherpipeline der Schlüssel zur Realisierung der Datenspeicherung. Wir müssen eine Pipeline-Klasse schreiben und sie dann in der Scrapy-Konfigurationsdatei festlegen, um Daten zu speichern.

Am Beispiel der Speicherung in MySQL können wir eine MySQLPipeline-Klasse wie folgt schreiben:

import pymysql

class MySQLPipeline(object):

    def open_spider(self, spider):
        self.conn = pymysql.connect(host=spider.settings.get('MYSQL_HOST'),
                                    port=spider.settings.get('MYSQL_PORT'),
                                    user=spider.settings.get('MYSQL_USER'),
                                    password=spider.settings.get('MYSQL_PASSWORD'),
                                    db=spider.settings.get('MYSQL_DBNAME'))
        self.cur = self.conn.cursor()

    def close_spider(self, spider):
        self.conn.close()

    def process_item(self, item, spider):
        sql = 'INSERT INTO articles(title, url, content) VALUES(%s, %s, %s)'
        self.cur.execute(sql, (item['title'], item['url'], item['content']))
        self.conn.commit()

        return item

Nach dem Login kopieren

Im obigen Code definieren wir eine MySQLPipeline-Klasse, um das Andocken an die MySQL-Datenbank zu implementieren, und definieren drei Methoden „open_spider“, „close_spider“ und „process_item“.

Unter anderem wird die open_spider-Methode aufgerufen, wenn der gesamte Crawler ausgeführt wird, um die Datenbankverbindung zu initialisieren. Die close_spider-Methode wird aufgerufen, wenn der Crawler endet, um die Datenbankverbindung zu schließen. Process_item ist die Methode, die jedes Mal aufgerufen wird, wenn die Daten gecrawlt werden, um die Daten in der Datenbank zu speichern.

5. Pipeline aktivieren

Nach Abschluss des Schreibens von Pipeline müssen wir es auch in Scrapys Konfigurationsdatei „settings.py“ aktivieren. Fügen Sie einfach die Pipeline-Klasse zur Variablen ITEM_PIPELINES hinzu, wie unten gezeigt:

ITEM_PIPELINES = {
    'myproject.pipelines.MySQLPipeline': 300,
}

Nach dem Login kopieren

Im obigen Code haben wir die MySQLPipeline-Klasse zur Variablen ITEM_PIPELINES hinzugefügt und die Priorität auf 300 gesetzt, was bedeutet, dass bei der Verarbeitung von Item die Pipeline Die Klasse wird Sei der Dritte, der berufen wird.

6. Test und Betrieb

Nach Abschluss aller Konfigurationen können wir den Scrapy-Crawler ausführen und die erfassten Daten in der MySQL-Datenbank speichern. Die spezifischen Schritte und Befehle lauten wie folgt:

1. Geben Sie das Verzeichnis ein, in dem sich das Scrapy-Projekt befindet, und führen Sie den folgenden Befehl aus, um ein Scrapy-Projekt zu erstellen:

scrapy startproject myproject

Nach dem Login kopieren

2 Framework und crawlen Sie den Datenspeicher in der Datenbank. Führen Sie den folgenden Befehl im Verzeichnis myproject aus:

scrapy genspider test_spider baidu.com

Nach dem Login kopieren

Der obige Befehl generiert einen Spider namens test_spider, um Baidu zu crawlen.

3. Schreiben Sie den Spider-Code, öffnen Sie test_sprider.py und schreiben Sie den Crawler-Code:

import scrapy
from myproject.items import ArticleItem

class TestSpider(scrapy.Spider):
    name = "test"
    allowed_domains = ["baidu.com"]
    start_urls = [
        "https://www.baidu.com",
    ]

    def parse(self, response):
        item = ArticleItem()
        item['title'] = 'MySQL Pipeline测试'
        item['url'] = response.url
        item['content'] = 'Scrapy框架与MySQL数据库整合测试'
        yield item

Nach dem Login kopieren

Im obigen Code definieren wir eine TestSpider-Klasse, die von der kommenden Spider-Klasse erbt mit Scrapy. Behandeln Sie die Crawler-Logik. In der Parse-Methode erstellen wir ein Item-Objekt und legen die drei Schlüsselwörter „content“, „url“ und „title“ fest.

4. Erstellen Sie eine Artikeldatei im myproject-Verzeichnis, um das Datenmodell zu definieren:

import scrapy

class ArticleItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    content = scrapy.Field()

Nach dem Login kopieren

Im obigen Code definieren wir eine ArticleItem-Klasse, um die gecrawlten Artikeldaten zu speichern.

5. Testcode:

Führen Sie im Verzeichnis test_spider den folgenden Befehl aus, um Ihren Code zu testen:

scrapy crawl test

Nach dem Login kopieren

Nach der Ausführung des obigen Befehls startet Scrapy den TestSpider-Crawler und speichert die von der Baidu-Homepage erfassten Daten in MySQL Datenbank.

7. Zusammenfassung

In diesem Artikel wird kurz vorgestellt, wie das Scrapy-Framework in die Datenbank integriert wird und eine dynamische Datenspeicherung implementiert. Ich hoffe, dass dieser Artikel bedürftigen Lesern helfen kann, und ich hoffe auch, dass sich Leser entsprechend ihren tatsächlichen Bedürfnissen weiterentwickeln können, um effizientere und schnellere dynamische Datenspeicherfunktionen zu erreichen.

Das obige ist der detaillierte Inhalt vonScrapy-Framework und Datenbankintegration: Wie implementiert man eine dynamische Datenspeicherung?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Chat -Befehle und wie man sie benutzt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7518

CakePHP-Tutorial

1378

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie implementiert die Go-Sprache die Hinzufügungs-, Lösch-, Änderungs- und Abfragevorgänge der Datenbank? Mar 27, 2024 pm 09:39 PM

Die Go-Sprache ist eine effiziente, prägnante und leicht zu erlernende Programmiersprache. Sie wird von Entwicklern aufgrund ihrer Vorteile bei der gleichzeitigen Programmierung und Netzwerkprogrammierung bevorzugt. In der tatsächlichen Entwicklung sind Datenbankoperationen ein unverzichtbarer Bestandteil. In diesem Artikel wird erläutert, wie die Go-Sprache zum Implementieren von Datenbank-Hinzufügungs-, Lösch-, Änderungs- und Abfrageoperationen verwendet wird. In der Go-Sprache verwenden wir normalerweise Bibliotheken von Drittanbietern, um Datenbanken zu betreiben, z. B. häufig verwendete SQL-Pakete, Gorm usw. Hier nehmen wir das SQL-Paket als Beispiel, um vorzustellen, wie die Hinzufügungs-, Lösch-, Änderungs- und Abfragevorgänge der Datenbank implementiert werden. Angenommen, wir verwenden eine MySQL-Datenbank.

Wie implementiert Hibernate polymorphe Zuordnung? Apr 17, 2024 pm 12:09 PM

Die polymorphe Hibernate-Zuordnung kann geerbte Klassen der Datenbank zuordnen und bietet die folgenden Zuordnungstypen: Joined-Subclass: Erstellen Sie eine separate Tabelle für die Unterklasse, einschließlich aller Spalten der übergeordneten Klasse. Tabelle pro Klasse: Erstellen Sie eine separate Tabelle für Unterklassen, die nur unterklassenspezifische Spalten enthält. Union-Unterklasse: ähnelt der verbundenen Unterklasse, aber die Tabelle der übergeordneten Klasse vereint alle Spalten der Unterklasse.

iOS 18 fügt eine neue Albumfunktion „Wiederhergestellt' hinzu, um verlorene oder beschädigte Fotos wiederherzustellen Jul 18, 2024 am 05:48 AM

Apples neueste Versionen der iOS18-, iPadOS18- und macOS Sequoia-Systeme haben der Fotoanwendung eine wichtige Funktion hinzugefügt, die Benutzern dabei helfen soll, aus verschiedenen Gründen verlorene oder beschädigte Fotos und Videos einfach wiederherzustellen. Mit der neuen Funktion wird im Abschnitt „Extras“ der Fotos-App ein Album mit dem Namen „Wiederhergestellt“ eingeführt, das automatisch angezeigt wird, wenn ein Benutzer Bilder oder Videos auf seinem Gerät hat, die nicht Teil seiner Fotobibliothek sind. Das Aufkommen des Albums „Wiederhergestellt“ bietet eine Lösung für Fotos und Videos, die aufgrund einer Datenbankbeschädigung verloren gehen, die Kameraanwendung nicht korrekt in der Fotobibliothek speichert oder eine Drittanbieteranwendung die Fotobibliothek verwaltet. Benutzer benötigen nur wenige einfache Schritte

Eine ausführliche Analyse, wie HTML die Datenbank liest Apr 09, 2024 pm 12:36 PM

HTML kann die Datenbank nicht direkt lesen, dies kann jedoch über JavaScript und AJAX erreicht werden. Zu den Schritten gehören das Herstellen einer Datenbankverbindung, das Senden einer Abfrage, das Verarbeiten der Antwort und das Aktualisieren der Seite. Dieser Artikel bietet ein praktisches Beispiel für die Verwendung von JavaScript, AJAX und PHP zum Lesen von Daten aus einer MySQL-Datenbank und zeigt, wie Abfrageergebnisse dynamisch auf einer HTML-Seite angezeigt werden. In diesem Beispiel wird XMLHttpRequest verwendet, um eine Datenbankverbindung herzustellen, eine Abfrage zu senden und die Antwort zu verarbeiten. Dadurch werden Daten in Seitenelemente gefüllt und die Funktion des HTML-Lesens der Datenbank realisiert.

Ausführliches Tutorial zum Herstellen einer Datenbankverbindung mit MySQLi in PHP Jun 04, 2024 pm 01:42 PM

So verwenden Sie MySQLi zum Herstellen einer Datenbankverbindung in PHP: MySQLi-Erweiterung einbinden (require_once) Verbindungsfunktion erstellen (functionconnect_to_db) Verbindungsfunktion aufrufen ($conn=connect_to_db()) Abfrage ausführen ($result=$conn->query()) Schließen Verbindung ( $conn->close())

Umgang mit Datenbankverbindungsfehlern in PHP Jun 05, 2024 pm 02:16 PM

Um Datenbankverbindungsfehler in PHP zu behandeln, können Sie die folgenden Schritte ausführen: Verwenden Sie mysqli_connect_errno(), um den Fehlercode abzurufen. Verwenden Sie mysqli_connect_error(), um die Fehlermeldung abzurufen. Durch die Erfassung und Protokollierung dieser Fehlermeldungen können Datenbankverbindungsprobleme leicht identifiziert und behoben werden, wodurch der reibungslose Betrieb Ihrer Anwendung gewährleistet wird.

Tipps und Praktiken zum Umgang mit verstümmelten chinesischen Zeichen in Datenbanken mit PHP Mar 27, 2024 pm 05:21 PM

PHP ist eine Back-End-Programmiersprache, die in der Website-Entwicklung weit verbreitet ist. Sie verfügt über leistungsstarke Datenbankbetriebsfunktionen und wird häufig zur Interaktion mit Datenbanken wie MySQL verwendet. Aufgrund der Komplexität der Kodierung chinesischer Zeichen treten jedoch häufig Probleme beim Umgang mit verstümmelten chinesischen Zeichen in der Datenbank auf. In diesem Artikel werden die Fähigkeiten und Praktiken von PHP beim Umgang mit chinesischen verstümmelten Zeichen in Datenbanken vorgestellt, einschließlich häufiger Ursachen für verstümmelte Zeichen, Lösungen und spezifischer Codebeispiele. Häufige Gründe für verstümmelte Zeichen sind falsche Einstellungen für den Datenbank-Zeichensatz: Beim Erstellen der Datenbank muss der richtige Zeichensatz ausgewählt werden, z. B. utf8 oder u

Wie verwende ich Datenbank-Callback-Funktionen in Golang? Jun 03, 2024 pm 02:20 PM

Durch die Verwendung der Datenbank-Rückruffunktion in Golang kann Folgendes erreicht werden: Ausführen von benutzerdefiniertem Code, nachdem der angegebene Datenbankvorgang abgeschlossen ist. Fügen Sie benutzerdefiniertes Verhalten durch separate Funktionen hinzu, ohne zusätzlichen Code zu schreiben. Rückruffunktionen stehen für Einfüge-, Aktualisierungs-, Lösch- und Abfragevorgänge zur Verfügung. Sie müssen die Funktion sql.Exec, sql.QueryRow oder sql.Query verwenden, um die Rückruffunktion verwenden zu können.

See all articles