Maison développement back-end Tutoriel Python Scrapy en action : exploration des données d'actualités Baidu

Scrapy en action : exploration des données d'actualités Baidu

Jun 23, 2023 am 08:50 AM
新闻 爬取 scrapy

Scrapy en action : explorer les données d'actualité de Baidu

Avec le développement d'Internet, le principal moyen permettant aux utilisateurs d'obtenir des informations est passé des médias traditionnels à Internet, et les gens s'appuient de plus en plus sur Internet. Internet pour obtenir des informations sur l'actualité. Pour les chercheurs ou les analystes, une grande quantité de données est nécessaire à l’analyse et à la recherche. Par conséquent, cet article explique comment utiliser Scrapy pour explorer les données d'actualités Baidu.

Scrapy est un framework d'exploration Python open source qui peut explorer les données de sites Web rapidement et efficacement. Scrapy fournit de puissantes fonctions d'analyse et d'exploration de pages Web, ainsi qu'une bonne évolutivité et un haut degré de personnalisation.

Étape 1 : Installer Scrapy

Avant de commencer, vous devez installer Scrapy et quelques autres bibliothèques. L'installation peut être complétée via la commande suivante :

pip install scrapy
pip install requests
pip install bs4
Copier après la connexion

Étape 2 : Créer un projet Scrapy

Créer un projet Scrapy via la commande suivante :

scrapy startproject baiduNews
Copier après la connexion
#🎜 🎜#In this Une fois la commande exécutée, un dossier nommé baiduNews sera créé dans le répertoire courant, qui contient la structure initiale d'un projet Scrapy.

Étape 3 : Écrire Spider

Dans Scrapy, Spider est un processeur utilisé pour explorer le contenu Web. Nous devons écrire un Spider pour obtenir des données du site Web Baidu News. Tout d’abord, nous devons créer un dossier spiders dans le répertoire racine du projet et y créer un fichier Python adapté au modèle Spider.

import scrapy

class BaiduSpider(scrapy.Spider):
    name = "baidu"
    start_urls = [
        "http://news.baidu.com/"
    ]

    def parse(self, response):
        pass
Copier après la connexion

Dans le code ci-dessus, nous avons d'abord importé la bibliothèque Scrapy et créé une classe appelée BaiduSpider. Dans la classe, nous définissons une variable start_urls, qui est une liste contenant les URL de Baidu News. La méthode parse est la fonction principale pour effectuer la capture de données. Ici, nous définissons simplement une fonction vide. Maintenant, nous devons définir un modèle pour obtenir les données d'actualité.

import scrapy
from baiduNews.items import BaidunewsItem
from bs4 import BeautifulSoup

class BaiduSpider(scrapy.Spider):
    name = "baidu"
    start_urls = [
        "http://news.baidu.com/"
    ]

    def parse(self, response):
        soup = BeautifulSoup(response.body, "html.parser")

        results = soup.find_all("div", class_="hdline_article_tit")
        for res in results:
            item = BaidunewsItem()
            item["title"] = res.a.string.strip()
            item["url"] = res.a.get("href").strip()
            item["source"] = "百度新闻"
            yield item
Copier après la connexion

Dans le code ci-dessus, nous avons trouvé tous les éléments de classe hdline_article_tit, qui font la une de Baidu News. Nous utilisons ensuite BeautifulSoup pour analyser la page et créer un objet de classe BaidunewsItem dans une boucle. Enfin, nous renvoyons les données via l'instruction de rendement.

Étape 4 : Définir l'élément

Dans Scrapy, l'élément est utilisé pour définir la structure des données capturées. Nous devons définir un modèle d'élément dans le fichier items.py du projet.

import scrapy

class BaidunewsItem(scrapy.Item):
    title = scrapy.Field()
    url = scrapy.Field()
    source = scrapy.Field()
Copier après la connexion

Étape 5 : Démarrer Spider et générer des données

Il suffit d'exécuter la commande suivante pour démarrer Spider et générer des données :

scrapy crawl baidu -o baiduNews.csv
Copier après la connexion
Dans cette commande Une fois l'exécution terminée, un fichier nommé baiduNews.csv sera créé dans le répertoire racine du projet, contenant toutes les données d'actualité analysées.

Résumé

Avec Scrapy, nous pouvons obtenir rapidement et efficacement les données d'actualités Baidu et les enregistrer localement. Scrapy a une bonne évolutivité et prend en charge la sortie dans plusieurs formats de données. Cet article ne présente qu'un simple scénario d'application de Scrapy, mais Scrapy a encore de nombreuses fonctions puissantes qui attendent que nous les explorions.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Comment déverrouiller tout dans Myrise
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Récupération de métadonnées à l'aide de l'API du New York Times Récupération de métadonnées à l'aide de l'API du New York Times Sep 02, 2023 pm 10:13 PM

Introduction La semaine dernière, j'ai écrit une introduction sur le scraping de pages Web pour collecter des métadonnées, et j'ai mentionné qu'il était impossible de scraper le site Web du New York Times. Le paywall du New York Times bloque vos tentatives de collecte de métadonnées de base. Mais il existe un moyen de résoudre ce problème en utilisant l'API du New York Times. Récemment, j'ai commencé à créer un site Web communautaire sur la plateforme Yii, que je publierai dans un prochain tutoriel. Je souhaite pouvoir ajouter facilement des liens pertinents par rapport au contenu du site. Même si les utilisateurs peuvent facilement coller des URL dans des formulaires, fournir des informations sur le titre et la source prend du temps. Ainsi, dans le didacticiel d'aujourd'hui, je vais étendre le code de scraping que j'ai récemment écrit pour tirer parti de l'API du New York Times afin de collecter les titres lors de l'ajout d'un lien vers le New York Times. Rappelez-vous, je suis impliqué

Scrapy implémente l'exploration et l'analyse des articles du compte public WeChat Scrapy implémente l'exploration et l'analyse des articles du compte public WeChat Jun 22, 2023 am 09:41 AM

Scrapy met en œuvre l'exploration d'articles et l'analyse des comptes publics WeChat. WeChat est une application de médias sociaux populaire ces dernières années, et les comptes publics qui y sont exploités jouent également un rôle très important. Comme nous le savons tous, les comptes publics WeChat sont un océan d’informations et de connaissances, car chaque compte public peut publier des articles, des messages graphiques et d’autres informations. Ces informations peuvent être largement utilisées dans de nombreux domaines, tels que les reportages médiatiques, la recherche universitaire, etc. Ainsi, cet article expliquera comment utiliser le framework Scrapy pour explorer et analyser les articles du compte public WeChat. Scr

Analyse de cas Scrapy : Comment explorer les informations de l'entreprise sur LinkedIn Analyse de cas Scrapy : Comment explorer les informations de l'entreprise sur LinkedIn Jun 23, 2023 am 10:04 AM

Scrapy est un framework d'exploration basé sur Python qui peut obtenir rapidement et facilement des informations pertinentes sur Internet. Dans cet article, nous utiliserons un cas Scrapy pour analyser en détail comment explorer les informations d'une entreprise sur LinkedIn. Déterminer l'URL cible Tout d'abord, nous devons indiquer clairement que notre cible est les informations de l'entreprise sur LinkedIn. Par conséquent, nous devons trouver l’URL de la page d’informations sur l’entreprise LinkedIn. Ouvrez le site Web LinkedIn, saisissez le nom de l'entreprise dans le champ de recherche et

Méthode d'implémentation de chargement asynchrone Scrapy basée sur Ajax Méthode d'implémentation de chargement asynchrone Scrapy basée sur Ajax Jun 22, 2023 pm 11:09 PM

Scrapy est un framework d'exploration Python open source qui peut obtenir rapidement et efficacement des données à partir de sites Web. Cependant, de nombreux sites Web utilisent la technologie de chargement asynchrone Ajax, ce qui empêche Scrapy d'obtenir directement des données. Cet article présentera la méthode d'implémentation de Scrapy basée sur le chargement asynchrone Ajax. 1. Principe de chargement asynchrone Ajax Chargement asynchrone Ajax : Dans la méthode de chargement de page traditionnelle, une fois que le navigateur a envoyé une requête au serveur, il doit attendre que le serveur renvoie une réponse et charge la page entière avant de passer à l'étape suivante.

Comment explorer et traiter les données en appelant l'interface API dans un projet PHP ? Comment explorer et traiter les données en appelant l'interface API dans un projet PHP ? Sep 05, 2023 am 08:41 AM

Comment explorer et traiter les données en appelant l'interface API dans un projet PHP ? 1. Introduction Dans les projets PHP, nous devons souvent explorer les données d'autres sites Web et traiter ces données. De nombreux sites Web fournissent des interfaces API et nous pouvons obtenir des données en appelant ces interfaces. Cet article explique comment utiliser PHP pour appeler l'interface API afin d'explorer et de traiter les données. 2. Obtenez l'URL et les paramètres de l'interface API Avant de commencer, nous devons obtenir l'URL de l'interface API cible et les paramètres requis.

Conseils d'optimisation Scrapy : Comment réduire l'exploration des URL en double et améliorer l'efficacité Conseils d'optimisation Scrapy : Comment réduire l'exploration des URL en double et améliorer l'efficacité Jun 22, 2023 pm 01:57 PM

Scrapy est un puissant framework d'exploration Python qui peut être utilisé pour obtenir de grandes quantités de données sur Internet. Cependant, lors du développement de Scrapy, nous rencontrons souvent le problème de l'exploration des URL en double, ce qui fait perdre beaucoup de temps et de ressources et affecte l'efficacité. Cet article présentera quelques techniques d'optimisation de Scrapy pour réduire l'exploration des URL en double et améliorer l'efficacité des robots d'exploration Scrapy. 1. Utilisez les attributs start_urls et Allowed_domains dans le robot d'exploration Scrapy pour

Comment ouvrir du contenu d'actualités et d'intérêt sur Windows 10 Comment ouvrir du contenu d'actualités et d'intérêt sur Windows 10 Jan 13, 2024 pm 05:54 PM

Pour les utilisateurs profondément amoureux du système d'exploitation Windows 10, ils doivent avoir remarqué la fonction de recommandation d'informations et d'intérêts présentée dans le coin inférieur droit de leur bureau. Cette fonctionnalité vous montrera toutes sortes d'informations intéressantes au bon moment. Cependant, certains utilisateurs peuvent la trouver trop lourde et choisir de la désactiver, tandis que d'autres préfèrent la laisser activée. À l’heure actuelle, vous pouvez suivre les étapes détaillées suivantes pour ajuster facilement ces paramètres à tout moment et en tout lieu. Comment ouvrir les actualités et les centres d'intérêt dans Win10 1. Appuyez d'abord sur win+R, puis entrez « winver » et appuyez sur Entrée. Vous pouvez ensuite vérifier les informations de version de votre ordinateur pour confirmer s'il s'agit de la version 21h1. 2. Faites un clic droit sur la barre des tâches et sélectionnez "Informations et intérêts" 3. Ici

Utilisation de Selenium et PhantomJS dans le robot Scrapy Utilisation de Selenium et PhantomJS dans le robot Scrapy Jun 22, 2023 pm 06:03 PM

Utilisation de Selenium et PhantomJSScrapy dans le robot d'exploration Scrapy Scrapy est un excellent framework de robot d'exploration Web sous Python et a été largement utilisé dans la collecte et le traitement de données dans divers domaines. Dans la mise en œuvre du robot, il est parfois nécessaire de simuler les opérations du navigateur pour obtenir le contenu présenté par certains sites Web. Dans ce cas, Selenium et PhantomJS sont nécessaires. Selenium simule les opérations humaines sur le navigateur, nous permettant d'automatiser les tests d'applications Web

See all articles