Framework Scrapy et intégration de bases de données : comment mettre en œuvre le stockage dynamique des données ?-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Framework Scrapy et intégration de bases de données : comment mettre en œuvre le stockage dynamique des données ?

PHPz

Jun 22, 2023 am 10:35 AM

数据库 scrapy 动态数据

Avec la quantité croissante de données Internet, la manière d'explorer, de traiter et de stocker les données rapidement et avec précision est devenue un problème clé dans le développement d'applications Internet. En tant que framework d'exploration efficace, le framework Scrapy est largement utilisé dans divers scénarios d'exploration de données en raison de ses méthodes d'exploration flexibles et rapides.

Cependant, le simple fait d'enregistrer les données analysées dans un fichier ne peut pas répondre aux besoins de la plupart des applications. Parce que dans les applications actuelles, la plupart des données sont stockées, récupérées et manipulées via des bases de données. Par conséquent, comment intégrer le framework Scrapy à la base de données pour obtenir un stockage rapide et dynamique des données est devenu un nouveau défi.

Cet article utilisera des cas réels pour présenter comment le framework Scrapy intègre des bases de données et implémente le stockage dynamique de données pour référence par les lecteurs dans le besoin.

1. Préparation

Avant l'introduction, il est supposé que les lecteurs de cet article ont déjà compris les connaissances de base du langage Python et certaines méthodes d'utilisation du framework Scrapy, et peuvent utiliser le langage Python pour effectuer des opérations de base de données simples. Si vous n'êtes pas familier avec cela, il est recommandé d'acquérir d'abord les connaissances pertinentes, puis de lire cet article.

2. Sélectionnez la base de données

Avant de commencer à intégrer le framework Scrapy à la base de données, nous devons d'abord choisir une base de données appropriée pour stocker les données que nous avons explorées. Les bases de données actuellement couramment utilisées incluent MySQL, PostgreSQL, MongoDB et de nombreuses autres options.

Ces bases de données ont chacune leurs propres avantages et inconvénients, choisissez en fonction de vos besoins. Par exemple, lorsque la quantité de données est faible, il est plus pratique d'utiliser la base de données MySQL, et lorsqu'un stockage massif de données est requis, la base de données de documents de MongoDB est plus adaptée.

3. Configurer les informations de connexion à la base de données

Avant l'opération spécifique, nous devons configurer les informations de connexion à la base de données. Par exemple, en prenant la base de données MySQL comme exemple, vous pouvez utiliser la bibliothèque pymysql en Python pour vous connecter.

Dans Scrapy, nous le configurons généralement dans settings.py :

MYSQL_HOST = 'localhost'
MYSQL_PORT = 3306
MYSQL_USER = 'root'
MYSQL_PASSWORD = '123456'
MYSQL_DBNAME = 'scrapy_demo'

Copier après la connexion

Dans la configuration ci-dessus, nous avons configuré le nom d'hôte, le numéro de port, le nom d'utilisateur, le mot de passe et le nom de la base de données où se trouve la base de données MySQL. Ces informations sont requises Modifier. selon la situation réelle.

4. Écrivez le pipeline de stockage de données

Dans Scrapy, le pipeline de stockage de données est la clé pour réaliser le stockage de données. Nous devons écrire une classe Pipeline, puis la définir dans le fichier de configuration Scrapy pour stocker les données.

En prenant le stockage dans MySQL comme exemple, nous pouvons écrire une classe MySQLPipeline comme suit :

import pymysql

class MySQLPipeline(object):

    def open_spider(self, spider):
        self.conn = pymysql.connect(host=spider.settings.get('MYSQL_HOST'),
                                    port=spider.settings.get('MYSQL_PORT'),
                                    user=spider.settings.get('MYSQL_USER'),
                                    password=spider.settings.get('MYSQL_PASSWORD'),
                                    db=spider.settings.get('MYSQL_DBNAME'))
        self.cur = self.conn.cursor()

    def close_spider(self, spider):
        self.conn.close()

    def process_item(self, item, spider):
        sql = 'INSERT INTO articles(title, url, content) VALUES(%s, %s, %s)'
        self.cur.execute(sql, (item['title'], item['url'], item['content']))
        self.conn.commit()

        return item

Copier après la connexion

Dans le code ci-dessus, nous définissons une classe MySQLPipeline pour implémenter l'amarrage avec la base de données MySQL, et définissons trois méthodes open_spider, close_spider et process_item.

Parmi eux, la méthode open_spider est appelée lorsque l'ensemble du robot commence à s'exécuter pour initialiser la connexion à la base de données ; la méthode close_spider est appelée lorsque le robot se termine pour fermer la connexion à la base de données. Process_item est la méthode appelée à chaque fois que les données sont analysées pour stocker les données dans la base de données.

5. Activer Pipeline

Après avoir terminé l'écriture de Pipeline, nous devons également l'activer dans le fichier de configuration settings.py de Scrapy. Ajoutez simplement la classe Pipeline à la variable ITEM_PIPELINES, comme indiqué ci-dessous :

ITEM_PIPELINES = {
    'myproject.pipelines.MySQLPipeline': 300,
}

Copier après la connexion

Dans le code ci-dessus, nous avons ajouté la classe MySQLPipeline à la variable ITEM_PIPELINES et défini la priorité sur 300, ce qui signifie que lors du traitement de l'élément, la classe Pipeline soyez le troisième appelé.

6. Test et fonctionnement

Après avoir terminé toutes les configurations, nous pouvons exécuter le robot Scrapy et stocker les données capturées dans la base de données MySQL. Les étapes et commandes spécifiques sont les suivantes :

1. Entrez le répertoire où se trouve le projet Scrapy et exécutez la commande suivante pour créer un projet Scrapy :

scrapy startproject myproject

Copier après la connexion

2. Créez un Spider pour tester la fonction de stockage de données du Scrapy. framework et explorez le magasin de données dans la base de données. Exécutez la commande suivante dans le répertoire myproject :

scrapy genspider test_spider baidu.com

Copier après la connexion

La commande ci-dessus générera un Spider nommé test_spider pour explorer Baidu.

3. Écrivez le code Spider. Dans le répertoire spiders du répertoire test_sprider, ouvrez test_sprider.py et écrivez le code du robot :

import scrapy
from myproject.items import ArticleItem

class TestSpider(scrapy.Spider):
    name = "test"
    allowed_domains = ["baidu.com"]
    start_urls = [
        "https://www.baidu.com",
    ]

    def parse(self, response):
        item = ArticleItem()
        item['title'] = 'MySQL Pipeline测试'
        item['url'] = response.url
        item['content'] = 'Scrapy框架与MySQL数据库整合测试'
        yield item

Copier après la connexion

Dans le code ci-dessus, nous définissons une classe TestSpider, qui hérite de la classe Spider qui vient. avec Scrapy. Gérez la logique du robot. Dans la méthode d'analyse, nous construisons un objet Item et définissons les trois mots-clés « content », « url » et « title ».

4. Créez un fichier items dans le répertoire myproject pour définir le modèle de données :

import scrapy

class ArticleItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    content = scrapy.Field()

Copier après la connexion

Dans le code ci-dessus, nous définissons une classe ArticleItem pour enregistrer les données de l'article analysé.

5. Code de test :

Dans le répertoire test_spider, exécutez la commande suivante pour tester votre code :

scrapy crawl test

Copier après la connexion

Après avoir exécuté la commande ci-dessus, Scrapy démarrera le robot TestSpider et stockera les données capturées à partir de la page d'accueil de Baidu dans un MySQL. base de données.

7. Résumé

Cet article présente brièvement comment le framework Scrapy s'intègre à la base de données et implémente le stockage dynamique des données. J'espère que cet article pourra aider les lecteurs dans le besoin, et j'espère également que les lecteurs pourront se développer en fonction de leurs besoins réels pour obtenir des fonctions de stockage de données dynamiques plus efficaces et plus rapides.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Commandes de chat et comment les utiliser

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7518

Tutoriel CakePHP

1378

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

Comment le langage Go implémente-t-il les opérations d'ajout, de suppression, de modification et de requête de la base de données ? Mar 27, 2024 pm 09:39 PM

Le langage Go est un langage de programmation efficace, concis et facile à apprendre. Il est privilégié par les développeurs en raison de ses avantages en programmation simultanée et en programmation réseau. Dans le développement réel, les opérations de base de données font partie intégrante. Cet article explique comment utiliser le langage Go pour implémenter les opérations d'ajout, de suppression, de modification et de requête de base de données. Dans le langage Go, nous utilisons généralement des bibliothèques tierces pour faire fonctionner les bases de données, telles que les packages SQL couramment utilisés, gorm, etc. Ici, nous prenons le package SQL comme exemple pour présenter comment implémenter les opérations d'ajout, de suppression, de modification et de requête de la base de données. Supposons que nous utilisons une base de données MySQL.

Comment Hibernate implémente-t-il le mappage polymorphe ? Apr 17, 2024 pm 12:09 PM

Le mappage polymorphe Hibernate peut mapper les classes héritées à la base de données et fournit les types de mappage suivants : join-subclass : crée une table séparée pour la sous-classe, incluant toutes les colonnes de la classe parent. table par classe : créez une table distincte pour les sous-classes, contenant uniquement des colonnes spécifiques aux sous-classes. union-subclass : similaire à join-subclass, mais la table de classe parent réunit toutes les colonnes de la sous-classe.

iOS 18 ajoute une nouvelle fonction d'album 'Récupéré' pour récupérer les photos perdues ou endommagées Jul 18, 2024 am 05:48 AM

Les dernières versions d'Apple des systèmes iOS18, iPadOS18 et macOS Sequoia ont ajouté une fonctionnalité importante à l'application Photos, conçue pour aider les utilisateurs à récupérer facilement des photos et des vidéos perdues ou endommagées pour diverses raisons. La nouvelle fonctionnalité introduit un album appelé "Récupéré" dans la section Outils de l'application Photos qui apparaîtra automatiquement lorsqu'un utilisateur a des photos ou des vidéos sur son appareil qui ne font pas partie de sa photothèque. L'émergence de l'album « Récupéré » offre une solution aux photos et vidéos perdues en raison d'une corruption de la base de données, d'une application d'appareil photo qui n'enregistre pas correctement dans la photothèque ou d'une application tierce gérant la photothèque. Les utilisateurs n'ont besoin que de quelques étapes simples

Une analyse approfondie de la façon dont HTML lit la base de données Apr 09, 2024 pm 12:36 PM

HTML ne peut pas lire directement la base de données, mais cela peut être réalisé via JavaScript et AJAX. Les étapes comprennent l'établissement d'une connexion à la base de données, l'envoi d'une requête, le traitement de la réponse et la mise à jour de la page. Cet article fournit un exemple pratique d'utilisation de JavaScript, AJAX et PHP pour lire les données d'une base de données MySQL, montrant comment afficher dynamiquement les résultats d'une requête dans une page HTML. Cet exemple utilise XMLHttpRequest pour établir une connexion à la base de données, envoyer une requête et traiter la réponse, remplissant ainsi les données dans les éléments de la page et réalisant la fonction de lecture HTML de la base de données.

Tutoriel détaillé sur l'établissement d'une connexion à une base de données à l'aide de MySQLi en PHP Jun 04, 2024 pm 01:42 PM

Comment utiliser MySQLi pour établir une connexion à une base de données en PHP : Inclure l'extension MySQLi (require_once) Créer une fonction de connexion (functionconnect_to_db) Appeler la fonction de connexion ($conn=connect_to_db()) Exécuter une requête ($result=$conn->query()) Fermer connexion ( $conn->close())

Comment gérer les erreurs de connexion à la base de données en PHP Jun 05, 2024 pm 02:16 PM

Pour gérer les erreurs de connexion à la base de données en PHP, vous pouvez utiliser les étapes suivantes : Utilisez mysqli_connect_errno() pour obtenir le code d'erreur. Utilisez mysqli_connect_error() pour obtenir le message d'erreur. En capturant et en enregistrant ces messages d'erreur, les problèmes de connexion à la base de données peuvent être facilement identifiés et résolus, garantissant ainsi le bon fonctionnement de votre application.

Conseils et pratiques pour gérer les caractères chinois tronqués dans les bases de données avec PHP Mar 27, 2024 pm 05:21 PM

PHP est un langage de programmation back-end largement utilisé dans le développement de sites Web. Il possède de puissantes fonctions d'exploitation de bases de données et est souvent utilisé pour interagir avec des bases de données telles que MySQL. Cependant, en raison de la complexité du codage des caractères chinois, des problèmes surviennent souvent lorsqu'il s'agit de caractères chinois tronqués dans la base de données. Cet article présentera les compétences et les pratiques de PHP dans la gestion des caractères chinois tronqués dans les bases de données, y compris les causes courantes des caractères tronqués, les solutions et des exemples de code spécifiques. Les raisons courantes pour lesquelles les caractères sont tronqués sont des paramètres de jeu de caractères incorrects dans la base de données : le jeu de caractères correct doit être sélectionné lors de la création de la base de données, comme utf8 ou u.

Comment utiliser les fonctions de rappel de base de données dans Golang ? Jun 03, 2024 pm 02:20 PM

L'utilisation de la fonction de rappel de base de données dans Golang peut permettre : d'exécuter du code personnalisé une fois l'opération de base de données spécifiée terminée. Ajoutez un comportement personnalisé via des fonctions distinctes sans écrire de code supplémentaire. Des fonctions de rappel sont disponibles pour les opérations d'insertion, de mise à jour, de suppression et de requête. Vous devez utiliser la fonction sql.Exec, sql.QueryRow ou sql.Query pour utiliser la fonction de rappel.

See all articles