Scrapy est un puissant framework de robot d'exploration Python qui peut nous aider à obtenir des données sur Internet de manière rapide et flexible. Dans le processus d'exploration proprement dit, nous rencontrons souvent divers formats de données tels que HTML, XML et JSON. Dans cet article, nous présenterons comment utiliser Scrapy pour explorer respectivement ces trois formats de données.
1. Explorer les données HTML
Tout d'abord, nous devons créer un projet Scrapy. Ouvrez la ligne de commande et entrez la commande suivante :
scrapy startproject myproject
Cette commande créera un projet Scrapy appelé monprojet dans le dossier actuel.
Ensuite, nous devons définir l'URL de départ. Dans le répertoire myproject/spiders, créez un fichier nommé spider.py, éditez le fichier et entrez le code suivant :
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com'] def parse(self, response): pass
Le code importe d'abord la bibliothèque Scrapy, puis définit une classe de robot MySpider et configure une araignée nommée myspider. nom et définissez une URL de départ sur http://example.com. Enfin, une méthode d'analyse est définie. La méthode d'analyse sera appelée par Scrapy par défaut pour traiter les données de réponse.
Ensuite, nous devons analyser les données de réponse. Continuez à éditer le fichier myproject/spiders/spider.py et ajoutez le code suivant :
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com'] def parse(self, response): title = response.xpath('//title/text()').get() yield {'title': title}
Dans le code, nous utilisons la méthode Response.xpath() pour obtenir le titre dans la page HTML. Utilisez rendement pour renvoyer des données de type dictionnaire, y compris le titre que nous avons obtenu.
Enfin, nous devons exécuter le robot d'exploration Scrapy. Entrez la commande suivante sur la ligne de commande :
scrapy crawl myspider -o output.json
Cette commande affichera les données dans le fichier output.json.
2. Explorer les données XML
De même, nous devons d'abord créer un projet Scrapy. Ouvrez la ligne de commande et entrez la commande suivante :
scrapy startproject myproject
Cette commande créera un projet Scrapy appelé monprojet dans le dossier actuel.
Dans le répertoire myproject/spiders, créez un fichier nommé spider.py, éditez le fichier et entrez le code suivant :
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com/xml'] def parse(self, response): pass
Dans le code, nous définissons un nom d'araignée nommé myspider , et définissez une URL de départ sur http://example.com/xml.
Continuez à éditer le fichier myproject/spiders/spider.py et ajoutez le code suivant :
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com/xml'] def parse(self, response): for item in response.xpath('//item'): yield { 'title': item.xpath('title/text()').get(), 'link': item.xpath('link/text()').get(), 'desc': item.xpath('desc/text()').get(), }
Dans le code, nous utilisons la méthode Response.xpath() pour obtenir les données dans le Page XML. Utilisez une boucle for pour parcourir la balise item, obtenez les données texte dans les trois balises title, link et desc, et utilisez rendement pour renvoyer les données de type dictionnaire.
Enfin, nous devons également exécuter le robot d'exploration Scrapy. Entrez la commande suivante sur la ligne de commande :
scrapy crawl myspider -o output.json
Cette commande affichera les données dans le fichier output.json.
3. Explorer les données JSON
De même, nous devons créer un projet Scrapy. Ouvrez la ligne de commande et entrez la commande suivante :
scrapy startproject myproject
Cette commande créera un projet Scrapy appelé monprojet dans le dossier actuel.
Dans le répertoire myproject/spiders, créez un fichier nommé spider.py, éditez le fichier et entrez le code suivant :
import scrapy class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com/json'] def parse(self, response): pass
Dans le code, nous définissons un nom d'araignée nommé myspider , et définissez une URL de départ sur http://example.com/json.
Continuez à éditer le fichier myproject/spiders/spider.py et ajoutez le code suivant :
import scrapy import json class MySpider(scrapy.Spider): name = 'myspider' start_urls = ['http://example.com/json'] def parse(self, response): data = json.loads(response.body) for item in data['items']: yield { 'title': item['title'], 'link': item['link'], 'desc': item['desc'], }
Dans le code, nous utilisons la méthode json.loads() pour analyser les données en JSON format. Utilisez une boucle for pour parcourir le tableau d'éléments, obtenez les trois attributs de titre, de lien et de desc de chaque élément et utilisez rendement pour renvoyer des données de type dictionnaire.
Enfin, vous devez également exécuter le robot d'exploration Scrapy. Entrez la commande suivante sur la ligne de commande :
scrapy crawl myspider -o output.json
Cette commande affichera les données dans le fichier output.json.
4. Résumé
Dans cet article, nous avons présenté comment utiliser Scrapy pour explorer respectivement les données HTML, XML et JSON. Grâce aux exemples ci-dessus, vous pouvez comprendre l'utilisation de base de Scrapy et vous pouvez également apprendre en profondeur une utilisation plus avancée si nécessaire. J'espère que cela pourra vous aider avec la technologie des robots d'exploration.
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!