Avec la quantité croissante de données Internet, la manière d'explorer, de traiter et de stocker les données rapidement et avec précision est devenue un problème clé dans le développement d'applications Internet. En tant que framework d'exploration efficace, le framework Scrapy est largement utilisé dans divers scénarios d'exploration de données en raison de ses méthodes d'exploration flexibles et rapides.
Cependant, le simple fait d'enregistrer les données analysées dans un fichier ne peut pas répondre aux besoins de la plupart des applications. Parce que dans les applications actuelles, la plupart des données sont stockées, récupérées et manipulées via des bases de données. Par conséquent, comment intégrer le framework Scrapy à la base de données pour obtenir un stockage rapide et dynamique des données est devenu un nouveau défi.
Cet article utilisera des cas réels pour présenter comment le framework Scrapy intègre des bases de données et implémente le stockage dynamique de données pour référence par les lecteurs dans le besoin.
1. Préparation
Avant l'introduction, il est supposé que les lecteurs de cet article ont déjà compris les connaissances de base du langage Python et certaines méthodes d'utilisation du framework Scrapy, et peuvent utiliser le langage Python pour effectuer des opérations de base de données simples. Si vous n'êtes pas familier avec cela, il est recommandé d'acquérir d'abord les connaissances pertinentes, puis de lire cet article.
2. Sélectionnez la base de données
Avant de commencer à intégrer le framework Scrapy à la base de données, nous devons d'abord choisir une base de données appropriée pour stocker les données que nous avons explorées. Les bases de données actuellement couramment utilisées incluent MySQL, PostgreSQL, MongoDB et de nombreuses autres options.
Ces bases de données ont chacune leurs propres avantages et inconvénients, choisissez en fonction de vos besoins. Par exemple, lorsque la quantité de données est faible, il est plus pratique d'utiliser la base de données MySQL, et lorsqu'un stockage massif de données est requis, la base de données de documents de MongoDB est plus adaptée.
3. Configurer les informations de connexion à la base de données
Avant l'opération spécifique, nous devons configurer les informations de connexion à la base de données. Par exemple, en prenant la base de données MySQL comme exemple, vous pouvez utiliser la bibliothèque pymysql en Python pour vous connecter.
Dans Scrapy, nous le configurons généralement dans settings.py :
MYSQL_HOST = 'localhost' MYSQL_PORT = 3306 MYSQL_USER = 'root' MYSQL_PASSWORD = '123456' MYSQL_DBNAME = 'scrapy_demo'
Dans la configuration ci-dessus, nous avons configuré le nom d'hôte, le numéro de port, le nom d'utilisateur, le mot de passe et le nom de la base de données où se trouve la base de données MySQL. Ces informations sont requises Modifier. selon la situation réelle.
4. Écrivez le pipeline de stockage de données
Dans Scrapy, le pipeline de stockage de données est la clé pour réaliser le stockage de données. Nous devons écrire une classe Pipeline, puis la définir dans le fichier de configuration Scrapy pour stocker les données.
En prenant le stockage dans MySQL comme exemple, nous pouvons écrire une classe MySQLPipeline comme suit :
import pymysql class MySQLPipeline(object): def open_spider(self, spider): self.conn = pymysql.connect(host=spider.settings.get('MYSQL_HOST'), port=spider.settings.get('MYSQL_PORT'), user=spider.settings.get('MYSQL_USER'), password=spider.settings.get('MYSQL_PASSWORD'), db=spider.settings.get('MYSQL_DBNAME')) self.cur = self.conn.cursor() def close_spider(self, spider): self.conn.close() def process_item(self, item, spider): sql = 'INSERT INTO articles(title, url, content) VALUES(%s, %s, %s)' self.cur.execute(sql, (item['title'], item['url'], item['content'])) self.conn.commit() return item
Dans le code ci-dessus, nous définissons une classe MySQLPipeline pour implémenter l'amarrage avec la base de données MySQL, et définissons trois méthodes open_spider, close_spider et process_item.
Parmi eux, la méthode open_spider est appelée lorsque l'ensemble du robot commence à s'exécuter pour initialiser la connexion à la base de données ; la méthode close_spider est appelée lorsque le robot se termine pour fermer la connexion à la base de données. Process_item est la méthode appelée à chaque fois que les données sont analysées pour stocker les données dans la base de données.
5. Activer Pipeline
Après avoir terminé l'écriture de Pipeline, nous devons également l'activer dans le fichier de configuration settings.py de Scrapy. Ajoutez simplement la classe Pipeline à la variable ITEM_PIPELINES, comme indiqué ci-dessous :
ITEM_PIPELINES = { 'myproject.pipelines.MySQLPipeline': 300, }
Dans le code ci-dessus, nous avons ajouté la classe MySQLPipeline à la variable ITEM_PIPELINES et défini la priorité sur 300, ce qui signifie que lors du traitement de l'élément, la classe Pipeline soyez le troisième appelé.
6. Test et fonctionnement
Après avoir terminé toutes les configurations, nous pouvons exécuter le robot Scrapy et stocker les données capturées dans la base de données MySQL. Les étapes et commandes spécifiques sont les suivantes :
1. Entrez le répertoire où se trouve le projet Scrapy et exécutez la commande suivante pour créer un projet Scrapy :
scrapy startproject myproject
2. Créez un Spider pour tester la fonction de stockage de données du Scrapy. framework et explorez le magasin de données dans la base de données. Exécutez la commande suivante dans le répertoire myproject :
scrapy genspider test_spider baidu.com
La commande ci-dessus générera un Spider nommé test_spider pour explorer Baidu.
3. Écrivez le code Spider. Dans le répertoire spiders du répertoire test_sprider, ouvrez test_sprider.py et écrivez le code du robot :
import scrapy from myproject.items import ArticleItem class TestSpider(scrapy.Spider): name = "test" allowed_domains = ["baidu.com"] start_urls = [ "https://www.baidu.com", ] def parse(self, response): item = ArticleItem() item['title'] = 'MySQL Pipeline测试' item['url'] = response.url item['content'] = 'Scrapy框架与MySQL数据库整合测试' yield item
Dans le code ci-dessus, nous définissons une classe TestSpider, qui hérite de la classe Spider qui vient. avec Scrapy. Gérez la logique du robot. Dans la méthode d'analyse, nous construisons un objet Item et définissons les trois mots-clés « content », « url » et « title ».
4. Créez un fichier items dans le répertoire myproject pour définir le modèle de données :
import scrapy class ArticleItem(scrapy.Item): title = scrapy.Field() url = scrapy.Field() content = scrapy.Field()
Dans le code ci-dessus, nous définissons une classe ArticleItem pour enregistrer les données de l'article analysé.
5. Code de test :
Dans le répertoire test_spider, exécutez la commande suivante pour tester votre code :
scrapy crawl test
Après avoir exécuté la commande ci-dessus, Scrapy démarrera le robot TestSpider et stockera les données capturées à partir de la page d'accueil de Baidu dans un MySQL. base de données.
7. Résumé
Cet article présente brièvement comment le framework Scrapy s'intègre à la base de données et implémente le stockage dynamique des données. J'espère que cet article pourra aider les lecteurs dans le besoin, et j'espère également que les lecteurs pourront se développer en fonction de leurs besoins réels pour obtenir des fonctions de stockage de données dynamiques plus efficaces et plus rapides.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!