


Framework Scrapy et intégration de bases de données : comment mettre en œuvre le stockage dynamique des données ?
Avec la quantité croissante de données Internet, la manière d'explorer, de traiter et de stocker les données rapidement et avec précision est devenue un problème clé dans le développement d'applications Internet. En tant que framework d'exploration efficace, le framework Scrapy est largement utilisé dans divers scénarios d'exploration de données en raison de ses méthodes d'exploration flexibles et rapides.
Cependant, le simple fait d'enregistrer les données analysées dans un fichier ne peut pas répondre aux besoins de la plupart des applications. Parce que dans les applications actuelles, la plupart des données sont stockées, récupérées et manipulées via des bases de données. Par conséquent, comment intégrer le framework Scrapy à la base de données pour obtenir un stockage rapide et dynamique des données est devenu un nouveau défi.
Cet article utilisera des cas réels pour présenter comment le framework Scrapy intègre des bases de données et implémente le stockage dynamique de données pour référence par les lecteurs dans le besoin.
1. Préparation
Avant l'introduction, il est supposé que les lecteurs de cet article ont déjà compris les connaissances de base du langage Python et certaines méthodes d'utilisation du framework Scrapy, et peuvent utiliser le langage Python pour effectuer des opérations de base de données simples. Si vous n'êtes pas familier avec cela, il est recommandé d'acquérir d'abord les connaissances pertinentes, puis de lire cet article.
2. Sélectionnez la base de données
Avant de commencer à intégrer le framework Scrapy à la base de données, nous devons d'abord choisir une base de données appropriée pour stocker les données que nous avons explorées. Les bases de données actuellement couramment utilisées incluent MySQL, PostgreSQL, MongoDB et de nombreuses autres options.
Ces bases de données ont chacune leurs propres avantages et inconvénients, choisissez en fonction de vos besoins. Par exemple, lorsque la quantité de données est faible, il est plus pratique d'utiliser la base de données MySQL, et lorsqu'un stockage massif de données est requis, la base de données de documents de MongoDB est plus adaptée.
3. Configurer les informations de connexion à la base de données
Avant l'opération spécifique, nous devons configurer les informations de connexion à la base de données. Par exemple, en prenant la base de données MySQL comme exemple, vous pouvez utiliser la bibliothèque pymysql en Python pour vous connecter.
Dans Scrapy, nous le configurons généralement dans settings.py :
MYSQL_HOST = 'localhost' MYSQL_PORT = 3306 MYSQL_USER = 'root' MYSQL_PASSWORD = '123456' MYSQL_DBNAME = 'scrapy_demo'
Dans la configuration ci-dessus, nous avons configuré le nom d'hôte, le numéro de port, le nom d'utilisateur, le mot de passe et le nom de la base de données où se trouve la base de données MySQL. Ces informations sont requises Modifier. selon la situation réelle.
4. Écrivez le pipeline de stockage de données
Dans Scrapy, le pipeline de stockage de données est la clé pour réaliser le stockage de données. Nous devons écrire une classe Pipeline, puis la définir dans le fichier de configuration Scrapy pour stocker les données.
En prenant le stockage dans MySQL comme exemple, nous pouvons écrire une classe MySQLPipeline comme suit :
import pymysql class MySQLPipeline(object): def open_spider(self, spider): self.conn = pymysql.connect(host=spider.settings.get('MYSQL_HOST'), port=spider.settings.get('MYSQL_PORT'), user=spider.settings.get('MYSQL_USER'), password=spider.settings.get('MYSQL_PASSWORD'), db=spider.settings.get('MYSQL_DBNAME')) self.cur = self.conn.cursor() def close_spider(self, spider): self.conn.close() def process_item(self, item, spider): sql = 'INSERT INTO articles(title, url, content) VALUES(%s, %s, %s)' self.cur.execute(sql, (item['title'], item['url'], item['content'])) self.conn.commit() return item
Dans le code ci-dessus, nous définissons une classe MySQLPipeline pour implémenter l'amarrage avec la base de données MySQL, et définissons trois méthodes open_spider, close_spider et process_item.
Parmi eux, la méthode open_spider est appelée lorsque l'ensemble du robot commence à s'exécuter pour initialiser la connexion à la base de données ; la méthode close_spider est appelée lorsque le robot se termine pour fermer la connexion à la base de données. Process_item est la méthode appelée à chaque fois que les données sont analysées pour stocker les données dans la base de données.
5. Activer Pipeline
Après avoir terminé l'écriture de Pipeline, nous devons également l'activer dans le fichier de configuration settings.py de Scrapy. Ajoutez simplement la classe Pipeline à la variable ITEM_PIPELINES, comme indiqué ci-dessous :
ITEM_PIPELINES = { 'myproject.pipelines.MySQLPipeline': 300, }
Dans le code ci-dessus, nous avons ajouté la classe MySQLPipeline à la variable ITEM_PIPELINES et défini la priorité sur 300, ce qui signifie que lors du traitement de l'élément, la classe Pipeline soyez le troisième appelé.
6. Test et fonctionnement
Après avoir terminé toutes les configurations, nous pouvons exécuter le robot Scrapy et stocker les données capturées dans la base de données MySQL. Les étapes et commandes spécifiques sont les suivantes :
1. Entrez le répertoire où se trouve le projet Scrapy et exécutez la commande suivante pour créer un projet Scrapy :
scrapy startproject myproject
2. Créez un Spider pour tester la fonction de stockage de données du Scrapy. framework et explorez le magasin de données dans la base de données. Exécutez la commande suivante dans le répertoire myproject :
scrapy genspider test_spider baidu.com
La commande ci-dessus générera un Spider nommé test_spider pour explorer Baidu.
3. Écrivez le code Spider. Dans le répertoire spiders du répertoire test_sprider, ouvrez test_sprider.py et écrivez le code du robot :
import scrapy from myproject.items import ArticleItem class TestSpider(scrapy.Spider): name = "test" allowed_domains = ["baidu.com"] start_urls = [ "https://www.baidu.com", ] def parse(self, response): item = ArticleItem() item['title'] = 'MySQL Pipeline测试' item['url'] = response.url item['content'] = 'Scrapy框架与MySQL数据库整合测试' yield item
Dans le code ci-dessus, nous définissons une classe TestSpider, qui hérite de la classe Spider qui vient. avec Scrapy. Gérez la logique du robot. Dans la méthode d'analyse, nous construisons un objet Item et définissons les trois mots-clés « content », « url » et « title ».
4. Créez un fichier items dans le répertoire myproject pour définir le modèle de données :
import scrapy class ArticleItem(scrapy.Item): title = scrapy.Field() url = scrapy.Field() content = scrapy.Field()
Dans le code ci-dessus, nous définissons une classe ArticleItem pour enregistrer les données de l'article analysé.
5. Code de test :
Dans le répertoire test_spider, exécutez la commande suivante pour tester votre code :
scrapy crawl test
Après avoir exécuté la commande ci-dessus, Scrapy démarrera le robot TestSpider et stockera les données capturées à partir de la page d'accueil de Baidu dans un MySQL. base de données.
7. Résumé
Cet article présente brièvement comment le framework Scrapy s'intègre à la base de données et implémente le stockage dynamique des données. J'espère que cet article pourra aider les lecteurs dans le besoin, et j'espère également que les lecteurs pourront se développer en fonction de leurs besoins réels pour obtenir des fonctions de stockage de données dynamiques plus efficaces et plus rapides.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

AI Hentai Generator
Générez AI Hentai gratuitement.

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le langage Go est un langage de programmation efficace, concis et facile à apprendre. Il est privilégié par les développeurs en raison de ses avantages en programmation simultanée et en programmation réseau. Dans le développement réel, les opérations de base de données font partie intégrante. Cet article explique comment utiliser le langage Go pour implémenter les opérations d'ajout, de suppression, de modification et de requête de base de données. Dans le langage Go, nous utilisons généralement des bibliothèques tierces pour faire fonctionner les bases de données, telles que les packages SQL couramment utilisés, gorm, etc. Ici, nous prenons le package SQL comme exemple pour présenter comment implémenter les opérations d'ajout, de suppression, de modification et de requête de la base de données. Supposons que nous utilisons une base de données MySQL.

Le mappage polymorphe Hibernate peut mapper les classes héritées à la base de données et fournit les types de mappage suivants : join-subclass : crée une table séparée pour la sous-classe, incluant toutes les colonnes de la classe parent. table par classe : créez une table distincte pour les sous-classes, contenant uniquement des colonnes spécifiques aux sous-classes. union-subclass : similaire à join-subclass, mais la table de classe parent réunit toutes les colonnes de la sous-classe.

Les dernières versions d'Apple des systèmes iOS18, iPadOS18 et macOS Sequoia ont ajouté une fonctionnalité importante à l'application Photos, conçue pour aider les utilisateurs à récupérer facilement des photos et des vidéos perdues ou endommagées pour diverses raisons. La nouvelle fonctionnalité introduit un album appelé "Récupéré" dans la section Outils de l'application Photos qui apparaîtra automatiquement lorsqu'un utilisateur a des photos ou des vidéos sur son appareil qui ne font pas partie de sa photothèque. L'émergence de l'album « Récupéré » offre une solution aux photos et vidéos perdues en raison d'une corruption de la base de données, d'une application d'appareil photo qui n'enregistre pas correctement dans la photothèque ou d'une application tierce gérant la photothèque. Les utilisateurs n'ont besoin que de quelques étapes simples

HTML ne peut pas lire directement la base de données, mais cela peut être réalisé via JavaScript et AJAX. Les étapes comprennent l'établissement d'une connexion à la base de données, l'envoi d'une requête, le traitement de la réponse et la mise à jour de la page. Cet article fournit un exemple pratique d'utilisation de JavaScript, AJAX et PHP pour lire les données d'une base de données MySQL, montrant comment afficher dynamiquement les résultats d'une requête dans une page HTML. Cet exemple utilise XMLHttpRequest pour établir une connexion à la base de données, envoyer une requête et traiter la réponse, remplissant ainsi les données dans les éléments de la page et réalisant la fonction de lecture HTML de la base de données.

Comment utiliser MySQLi pour établir une connexion à une base de données en PHP : Inclure l'extension MySQLi (require_once) Créer une fonction de connexion (functionconnect_to_db) Appeler la fonction de connexion ($conn=connect_to_db()) Exécuter une requête ($result=$conn->query()) Fermer connexion ( $conn->close())

Pour gérer les erreurs de connexion à la base de données en PHP, vous pouvez utiliser les étapes suivantes : Utilisez mysqli_connect_errno() pour obtenir le code d'erreur. Utilisez mysqli_connect_error() pour obtenir le message d'erreur. En capturant et en enregistrant ces messages d'erreur, les problèmes de connexion à la base de données peuvent être facilement identifiés et résolus, garantissant ainsi le bon fonctionnement de votre application.

PHP est un langage de programmation back-end largement utilisé dans le développement de sites Web. Il possède de puissantes fonctions d'exploitation de bases de données et est souvent utilisé pour interagir avec des bases de données telles que MySQL. Cependant, en raison de la complexité du codage des caractères chinois, des problèmes surviennent souvent lorsqu'il s'agit de caractères chinois tronqués dans la base de données. Cet article présentera les compétences et les pratiques de PHP dans la gestion des caractères chinois tronqués dans les bases de données, y compris les causes courantes des caractères tronqués, les solutions et des exemples de code spécifiques. Les raisons courantes pour lesquelles les caractères sont tronqués sont des paramètres de jeu de caractères incorrects dans la base de données : le jeu de caractères correct doit être sélectionné lors de la création de la base de données, comme utf8 ou u.

L'utilisation de la fonction de rappel de base de données dans Golang peut permettre : d'exécuter du code personnalisé une fois l'opération de base de données spécifiée terminée. Ajoutez un comportement personnalisé via des fonctions distinctes sans écrire de code supplémentaire. Des fonctions de rappel sont disponibles pour les opérations d'insertion, de mise à jour, de suppression et de requête. Vous devez utiliser la fonction sql.Exec, sql.QueryRow ou sql.Query pour utiliser la fonction de rappel.
