Maison développement back-end Tutoriel Python Analyser les données papier dans le domaine du Deep Learning via le robot Scrapy

Analyser les données papier dans le domaine du Deep Learning via le robot Scrapy

Jun 23, 2023 am 09:33 AM
scrapy deep learning 论文数据

L'apprentissage profond est l'une des directions de recherche les plus populaires et les plus avant-gardistes dans le domaine de l'intelligence artificielle. Pour les universitaires et les praticiens engagés dans des recherches connexes, l’obtention d’ensembles de données est une condition préalable importante pour mener des recherches approfondies. Cependant, la plupart des articles de recherche de haute qualité sur le Deep Learning sont publiés dans le cadre de conférences universitaires internationales de premier plan (telles que NeurIPS, ICLR, ICML, etc.), et il est difficile d'obtenir ces articles. Par conséquent, cet article présentera comment utiliser la technologie d'exploration Scrapy pour explorer des données papier dans le domaine du Deep Learning.

Tout d'abord, nous devons déterminer le site Web cible à explorer. Actuellement, les sites Web les plus populaires qui gèrent les articles Deep Learning incluent arXiv et OpenReview. Dans cet article, nous choisissons d'explorer les données arXiv. arXiv est un site Web qui gère des articles scientifiques, notamment des articles dans de nombreux domaines, notamment des articles dans le domaine du Deep Learning. Dans le même temps, le site Web arXiv fournit également une interface API pratique, permettant à notre programme d'exploration d'obtenir facilement des données papier.

Ensuite, nous pouvons commencer à écrire le programme du robot Scrapy. Tout d'abord, entrez la commande suivante dans le terminal pour créer un projet Scrapy :

scrapy startproject deep_learning_papers
Copier après la connexion

Après la création, entrez dans le répertoire du projet et créez un Spider :

cd deep_learning_papers
scrapy genspider arXiv_spider arxiv.org
Copier après la connexion

Ici, nous nommons le Spider "arXiv_spider" et spécifiez le site Web d'exploration comme arxiv.org. Après la création, ouvrez le fichier arXiv_spider.py, et nous pouvons voir le code suivant :

import scrapy


class ArxivSpiderSpider(scrapy.Spider):
    name = 'arXiv_spider'
    allowed_domains = ['arxiv.org']
    start_urls = ['http://arxiv.org/']

    def parse(self, response):
        pass
Copier après la connexion

C'est le modèle Spider le plus simple. Nous devons écrire la méthode d'analyse en tant que fonction pour capturer les informations papier. Étant donné que les informations papier sont obtenues via l'interface API, nous devons envoyer une requête GET. Nous pouvons utiliser le module de requêtes en Python pour envoyer des requêtes. Ici nous écrivons une fonction pour envoyer une requête :

import requests

def get_papers_data(start, max_results):
    url = 'http://export.arxiv.org/api/query?search_query=all:deep+learning&start=' + str(start) + '&max_results=' + str(max_results)
    headers = {'Content-Type': 'application/json'}
    response = requests.get(url, headers=headers)
    return response.content
Copier après la connexion

get_papers_data la fonction reçoit deux paramètres, à savoir la position de départ et le nombre maximum. Nous passons "all:deep+learning" au paramètre search_query afin que nous puissions obtenir toutes les informations papier dans le domaine du Deep Learning. Après avoir envoyé une requête GET à l'aide de requêtes, nous pouvons obtenir les données de réponse.content.

Dans la méthode parse, nous analysons les données renvoyées. Nous pouvons utiliser des expressions XPath pour obtenir rapidement du contenu. Le code spécifique est le suivant :

  def parse(self, response):
        for i in range(0, 50000, 100):
            papers = get_papers_data(i, 100)
            xml = etree.XML(papers)

            for element in xml.iter():
                if element.tag == 'title':
                    title = element.text
                elif element.tag == 'name':
                    name = element.text
                elif element.tag == 'abstract':
                    abstract = element.text

                yield {'title': title, 'name': name, 'abstract': abstract}
Copier après la connexion

Ici, nous utilisons une opération en boucle jusqu'à 50 000 fois, en commençant par 0 et en augmentant de 100 à chaque fois jusqu'à ce que les informations de tous les articles Deep Learning soient obtenues. Ensuite, nous utilisons etree.XML pour analyser les données obtenues au format XML, puis lisons chaque élément un par un. Lorsque la balise de l'élément est « titre », « nom » ou « résumé », nous attribuons le contenu de l'élément à la variable correspondante et utilisons enfin rendement pour renvoyer le résultat de l'analyse.

Enfin, nous devons démarrer le programme d'exploration :

scrapy crawl arXiv_spider -o deep_learning_papers.csv
Copier après la connexion

Le paramètre "-o" est utilisé ici pour spécifier le fichier de sortie, qui est par défaut au format JSON. Ici, nous choisissons le format CSV et le fichier de sortie s'appelle "deep_learning_papers.csv".

Grâce à la technologie Scrapy crawler, nous pouvons facilement obtenir des informations papier dans le domaine du Deep Learning. En combinant d’autres technologies de traitement de données, nous pouvons mener des recherches et des analyses plus approfondies sur ces données, favorisant ainsi le développement du domaine du Deep Learning.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
Où trouver la courte de la grue à atomide atomique
1 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Scrapy implémente l'exploration et l'analyse des articles du compte public WeChat Scrapy implémente l'exploration et l'analyse des articles du compte public WeChat Jun 22, 2023 am 09:41 AM

Scrapy met en œuvre l'exploration d'articles et l'analyse des comptes publics WeChat. WeChat est une application de médias sociaux populaire ces dernières années, et les comptes publics qui y sont exploités jouent également un rôle très important. Comme nous le savons tous, les comptes publics WeChat sont un océan d’informations et de connaissances, car chaque compte public peut publier des articles, des messages graphiques et d’autres informations. Ces informations peuvent être largement utilisées dans de nombreux domaines, tels que les reportages médiatiques, la recherche universitaire, etc. Ainsi, cet article expliquera comment utiliser le framework Scrapy pour explorer et analyser les articles du compte public WeChat. Scr

Analyse de cas Scrapy : Comment explorer les informations de l'entreprise sur LinkedIn Analyse de cas Scrapy : Comment explorer les informations de l'entreprise sur LinkedIn Jun 23, 2023 am 10:04 AM

Scrapy est un framework d'exploration basé sur Python qui peut obtenir rapidement et facilement des informations pertinentes sur Internet. Dans cet article, nous utiliserons un cas Scrapy pour analyser en détail comment explorer les informations d'une entreprise sur LinkedIn. Déterminer l'URL cible Tout d'abord, nous devons indiquer clairement que notre cible est les informations de l'entreprise sur LinkedIn. Par conséquent, nous devons trouver l’URL de la page d’informations sur l’entreprise LinkedIn. Ouvrez le site Web LinkedIn, saisissez le nom de l'entreprise dans le champ de recherche et

Méthode d'implémentation de chargement asynchrone Scrapy basée sur Ajax Méthode d'implémentation de chargement asynchrone Scrapy basée sur Ajax Jun 22, 2023 pm 11:09 PM

Scrapy est un framework d'exploration Python open source qui peut obtenir rapidement et efficacement des données à partir de sites Web. Cependant, de nombreux sites Web utilisent la technologie de chargement asynchrone Ajax, ce qui empêche Scrapy d'obtenir directement des données. Cet article présentera la méthode d'implémentation de Scrapy basée sur le chargement asynchrone Ajax. 1. Principe de chargement asynchrone Ajax Chargement asynchrone Ajax : Dans la méthode de chargement de page traditionnelle, une fois que le navigateur a envoyé une requête au serveur, il doit attendre que le serveur renvoie une réponse et charge la page entière avant de passer à l'étape suivante.

Conseils d'optimisation Scrapy : Comment réduire l'exploration des URL en double et améliorer l'efficacité Conseils d'optimisation Scrapy : Comment réduire l'exploration des URL en double et améliorer l'efficacité Jun 22, 2023 pm 01:57 PM

Scrapy est un puissant framework d'exploration Python qui peut être utilisé pour obtenir de grandes quantités de données sur Internet. Cependant, lors du développement de Scrapy, nous rencontrons souvent le problème de l'exploration des URL en double, ce qui fait perdre beaucoup de temps et de ressources et affecte l'efficacité. Cet article présentera quelques techniques d'optimisation de Scrapy pour réduire l'exploration des URL en double et améliorer l'efficacité des robots d'exploration Scrapy. 1. Utilisez les attributs start_urls et Allowed_domains dans le robot d'exploration Scrapy pour

Utilisation de Selenium et PhantomJS dans le robot Scrapy Utilisation de Selenium et PhantomJS dans le robot Scrapy Jun 22, 2023 pm 06:03 PM

Utilisation de Selenium et PhantomJSScrapy dans le robot d'exploration Scrapy Scrapy est un excellent framework de robot d'exploration Web sous Python et a été largement utilisé dans la collecte et le traitement de données dans divers domaines. Dans la mise en œuvre du robot, il est parfois nécessaire de simuler les opérations du navigateur pour obtenir le contenu présenté par certains sites Web. Dans ce cas, Selenium et PhantomJS sont nécessaires. Selenium simule les opérations humaines sur le navigateur, nous permettant d'automatiser les tests d'applications Web

Utilisation approfondie de Scrapy : Comment explorer les données HTML, XML et JSON ? Utilisation approfondie de Scrapy : Comment explorer les données HTML, XML et JSON ? Jun 22, 2023 pm 05:58 PM

Scrapy est un puissant framework de robot d'exploration Python qui peut nous aider à obtenir des données sur Internet de manière rapide et flexible. Dans le processus d'exploration proprement dit, nous rencontrons souvent divers formats de données tels que HTML, XML et JSON. Dans cet article, nous présenterons comment utiliser Scrapy pour explorer respectivement ces trois formats de données. 1. Explorez les données HTML et créez un projet Scrapy. Tout d'abord, nous devons créer un projet Scrapy. Ouvrez la ligne de commande et entrez la commande suivante : scrapys

Comment Scrapy implémente-t-il la conteneurisation et le déploiement Docker ? Comment Scrapy implémente-t-il la conteneurisation et le déploiement Docker ? Jun 23, 2023 am 10:39 AM

À mesure que les applications Internet modernes continuent de se développer et de gagner en complexité, les robots d'exploration Web sont devenus un outil important pour l'acquisition et l'analyse de données. En tant que l'un des frameworks d'exploration les plus populaires en Python, Scrapy possède des fonctions puissantes et des interfaces API faciles à utiliser, qui peuvent aider les développeurs à explorer et à traiter rapidement les données des pages Web. Cependant, face à des tâches d'analyse à grande échelle, une seule instance de robot d'exploration Scrapy est facilement limitée par les ressources matérielles. Scrapy doit donc généralement être conteneurisé et déployé sur un conteneur Docker.

Pratique du robot d'exploration Scrapy : exploration des données de l'espace QQ pour l'analyse des réseaux sociaux Pratique du robot d'exploration Scrapy : exploration des données de l'espace QQ pour l'analyse des réseaux sociaux Jun 22, 2023 pm 02:37 PM

Ces dernières années, la demande d’analyse des réseaux sociaux a augmenté. QQ Zone est l'un des plus grands réseaux sociaux en Chine, et l'exploration et l'analyse de ses données sont particulièrement importantes pour la recherche sur les réseaux sociaux. Cet article explique comment utiliser le framework Scrapy pour explorer les données QQ Space et effectuer une analyse des réseaux sociaux. 1. Introduction à Scrapy Scrapy est un framework d'exploration Web open source basé sur Python. Il peut nous aider à collecter rapidement et efficacement les données de sites Web via le mécanisme Spider, à les traiter et à les enregistrer. S

See all articles