Analyse de cas Scrapy : Comment explorer les informations de l'entreprise sur LinkedIn-Tutoriel Python-php.cn

Maison

développement back-end

Tutoriel Python

Analyse de cas Scrapy : Comment explorer les informations de l'entreprise sur LinkedIn

王林

Jun 23, 2023 am 10:04 AM

linkedin 抓取 scrapy

Déterminez l'URL cible

Tout d'abord, nous devons préciser que notre cible sont les informations de l'entreprise sur LinkedIn. Par conséquent, nous devons trouver l’URL de la page d’informations sur l’entreprise LinkedIn. Ouvrez le site Web de LinkedIn, saisissez le nom de l'entreprise dans le champ de recherche et sélectionnez l'option « Entreprise » dans la liste déroulante pour accéder à la page d'introduction de l'entreprise. Sur cette page, nous pouvons voir les informations de base de l'entreprise, le nombre d'employés, les sociétés affiliées et d'autres informations. À ce stade, nous devons obtenir l'URL de la page auprès des outils de développement du navigateur pour une utilisation ultérieure. La structure de cette URL est la suivante :

https://www.linkedin.com/search/results/companies/?keywords=xxx

Parmi eux, keywords=xxx représente les mots-clés que nous avons recherchés, et xxx peut être remplacé par n’importe quel nom d’entreprise.

Créer un projet Scrapy

Ensuite, nous devons créer un projet Scrapy. Entrez la commande suivante sur la ligne de commande :

scrapy startproject linkedin

Cette commande créera un projet Scrapy nommé linkedin dans le répertoire courant.

Créer un robot

Après avoir créé le projet, entrez la commande suivante dans le répertoire racine du projet pour créer un nouveau robot :

scrapy genspider company_spider www.linkedin.com

Cela créera un robot nommé company_spider, et positionnez-le sur votre page entreprise Linkedin.

Configuration de Scrapy

Dans Spider, nous devons configurer certaines informations de base, telles que l'URL à explorer et comment analyser les données de la page. Ajoutez le code suivant au fichier company_spider.py que vous venez de créer :

import scrapy

class CompanySpider(scrapy.Spider):
    name = "company"
    allowed_domains = ["linkedin.com"]
    start_urls = [
        "https://www.linkedin.com/search/results/companies/?keywords=apple"
    ]

    def parse(self, response):
        pass

Copier après la connexion

Dans le code ci-dessus, nous définissons l'URL du site à explorer et la fonction d'analyse. Dans le code ci-dessus, nous avons uniquement défini l'URL du site à explorer et la fonction d'analyse, et n'avons pas ajouté l'implémentation spécifique du robot. Nous devons maintenant écrire la fonction d'analyse pour capturer et traiter les informations sur l'entreprise LinkedIn.

Écrire la fonction d'analyse

Dans la fonction d'analyse, nous devons écrire le code pour capturer et traiter les informations de l'entreprise LinkedIn. Nous pouvons utiliser des sélecteurs XPath ou CSS pour analyser le code HTML. Les informations de base de la page d'informations de l'entreprise LinkedIn peuvent être extraites à l'aide du XPath suivant :

//*[@class="org-top-card-module__name ember-view"]/text()

Copier après la connexion

Ce XPath sélectionnera l'élément avec la classe "org-top-card-module__name ember-view" et renverra sa valeur texte.

Ce qui suit est le fichier company_spider.py complet :

import scrapy

class CompanySpider(scrapy.Spider):
    name = "company"
    allowed_domains = ["linkedin.com"]
    start_urls = [
        "https://www.linkedin.com/search/results/companies/?keywords=apple"
    ]

    def parse(self, response):
        # 获取公司名称
        company_name = response.xpath('//*[@class="org-top-card-module__name ember-view"]/text()')
        
        # 获取公司简介
        company_summary = response.css('.org-top-card-summary__description::text').extract_first().strip()
        
        # 获取公司分类标签
        company_tags = response.css('.org-top-card-category-list__top-card-category::text').extract()
        company_tags = ','.join(company_tags)

        # 获取公司员工信息
        employees_section = response.xpath('//*[@class="org-company-employees-snackbar__details-info"]')
        employees_current = employees_section.xpath('.//li[1]/span/text()').extract_first()
        employees_past = employees_section.xpath('.//li[2]/span/text()').extract_first()

        # 数据处理
        company_name = company_name.extract_first()
        company_summary = company_summary if company_summary else "N/A"
        company_tags = company_tags if company_tags else "N/A"
        employees_current = employees_current if employees_current else "N/A"
        employees_past = employees_past if employees_past else "N/A"

        # 输出抓取结果
        print('Company Name: ', company_name)
        print('Company Summary: ', company_summary)
        print('Company Tags: ', company_tags)
        print('
Employee Information
Current: ', employees_current)
        print('Past: ', employees_past)

Copier après la connexion

Dans le code ci-dessus, nous utilisons les sélecteurs XPath et CSS pour extraire les informations de base, le profil de l'entreprise, les balises et les informations sur les employés dans la page, et effectuer quelques opérations de base sur ceux-ci. Traitement et sortie des données.

Exécutez Scrapy

Maintenant, nous avons terminé l'exploration et le traitement de la page d'informations sur l'entreprise LinkedIn. Ensuite, nous devons exécuter Scrapy pour exécuter le robot. Entrez la commande suivante dans la ligne de commande :

scrapy crawl company

Après avoir exécuté cette commande, Scrapy commencera à explorer et à traiter les données dans la page d'informations de l'entreprise LinkedIn, et affichera les résultats de l'analyse.

Résumé

Ce qui précède explique comment utiliser Scrapy pour explorer les informations sur l'entreprise LinkedIn. Avec l'aide du framework Scrapy, nous pouvons facilement effectuer un scraping de données à grande échelle, et en même temps être capables de traiter et de transformer les données, économisant ainsi notre temps et notre énergie et améliorant l'efficacité de la collecte de données.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web

Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

Générez AI Hentai gratuitement.

Afficher plus

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Meilleurs paramètres graphiques

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Solution d'énigmes de coquille

2 Il y a quelques semaines By DDD

R.E.P.O. Comment réparer l'audio si vous n'entendez personne

3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Comment déverrouiller tout dans Myrise

4 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Afficher plus

Outils chauds

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Afficher plus

Sujets chauds

Où se trouve l'entrée de connexion pour la messagerie Gmail ?

7474

Tutoriel CakePHP

1377

Quel est le format du nom de compte de Steam

Clé d&amp;amp;amp;amp;amp;amp;#39;activation Win11 permanent

NYT Connexions Indices et réponses

Afficher plus

Related knowledge

quel logiciel est lié Nov 22, 2022 pm 03:33 PM

Linkedin est une plateforme sociale pour le lieu de travail, son nom chinois est « Linkedin » ; Linkedin a un modèle commercial diversifié et ses principaux revenus proviennent des solutions de recrutement de talents, des solutions marketing et des comptes payants qu'elle propose.

Scrapy implémente l'exploration et l'analyse des articles du compte public WeChat Jun 22, 2023 am 09:41 AM

Scrapy met en œuvre l'exploration d'articles et l'analyse des comptes publics WeChat. WeChat est une application de médias sociaux populaire ces dernières années, et les comptes publics qui y sont exploités jouent également un rôle très important. Comme nous le savons tous, les comptes publics WeChat sont un océan d’informations et de connaissances, car chaque compte public peut publier des articles, des messages graphiques et d’autres informations. Ces informations peuvent être largement utilisées dans de nombreux domaines, tels que les reportages médiatiques, la recherche universitaire, etc. Ainsi, cet article expliquera comment utiliser le framework Scrapy pour explorer et analyser les articles du compte public WeChat. Scr

Analyse de cas Scrapy : Comment explorer les informations de l'entreprise sur LinkedIn Jun 23, 2023 am 10:04 AM

Scrapy est un framework d'exploration basé sur Python qui peut obtenir rapidement et facilement des informations pertinentes sur Internet. Dans cet article, nous utiliserons un cas Scrapy pour analyser en détail comment explorer les informations d'une entreprise sur LinkedIn. Déterminer l'URL cible Tout d'abord, nous devons indiquer clairement que notre cible est les informations de l'entreprise sur LinkedIn. Par conséquent, nous devons trouver l’URL de la page d’informations sur l’entreprise LinkedIn. Ouvrez le site Web LinkedIn, saisissez le nom de l'entreprise dans le champ de recherche et

Méthode d'implémentation de chargement asynchrone Scrapy basée sur Ajax Jun 22, 2023 pm 11:09 PM

Scrapy est un framework d'exploration Python open source qui peut obtenir rapidement et efficacement des données à partir de sites Web. Cependant, de nombreux sites Web utilisent la technologie de chargement asynchrone Ajax, ce qui empêche Scrapy d'obtenir directement des données. Cet article présentera la méthode d'implémentation de Scrapy basée sur le chargement asynchrone Ajax. 1. Principe de chargement asynchrone Ajax Chargement asynchrone Ajax : Dans la méthode de chargement de page traditionnelle, une fois que le navigateur a envoyé une requête au serveur, il doit attendre que le serveur renvoie une réponse et charge la page entière avant de passer à l'étape suivante.

Conseils d'optimisation Scrapy : Comment réduire l'exploration des URL en double et améliorer l'efficacité Jun 22, 2023 pm 01:57 PM

Scrapy est un puissant framework d'exploration Python qui peut être utilisé pour obtenir de grandes quantités de données sur Internet. Cependant, lors du développement de Scrapy, nous rencontrons souvent le problème de l'exploration des URL en double, ce qui fait perdre beaucoup de temps et de ressources et affecte l'efficacité. Cet article présentera quelques techniques d'optimisation de Scrapy pour réduire l'exploration des URL en double et améliorer l'efficacité des robots d'exploration Scrapy. 1. Utilisez les attributs start_urls et Allowed_domains dans le robot d'exploration Scrapy pour

Exemple de récupération d'informations Instagram à l'aide de PHP Jun 13, 2023 pm 06:26 PM

Instagram est aujourd’hui l’un des réseaux sociaux les plus populaires, avec des centaines de millions d’utilisateurs actifs. Les utilisateurs téléchargent des milliards de photos et de vidéos, et ces données sont très précieuses pour de nombreuses entreprises et particuliers. Par conséquent, dans de nombreux cas, il est nécessaire d’utiliser un programme pour récupérer automatiquement les données Instagram. Cet article expliquera comment utiliser PHP pour capturer des données Instagram et fournira des exemples de mise en œuvre. Installer l'extension cURL pour PHP cURL est un outil utilisé dans divers

Utilisation de Selenium et PhantomJS dans le robot Scrapy Jun 22, 2023 pm 06:03 PM

Utilisation de Selenium et PhantomJSScrapy dans le robot d'exploration Scrapy Scrapy est un excellent framework de robot d'exploration Web sous Python et a été largement utilisé dans la collecte et le traitement de données dans divers domaines. Dans la mise en œuvre du robot, il est parfois nécessaire de simuler les opérations du navigateur pour obtenir le contenu présenté par certains sites Web. Dans ce cas, Selenium et PhantomJS sont nécessaires. Selenium simule les opérations humaines sur le navigateur, nous permettant d'automatiser les tests d'applications Web

Utilisation approfondie de Scrapy : Comment explorer les données HTML, XML et JSON ? Jun 22, 2023 pm 05:58 PM

Scrapy est un puissant framework de robot d'exploration Python qui peut nous aider à obtenir des données sur Internet de manière rapide et flexible. Dans le processus d'exploration proprement dit, nous rencontrons souvent divers formats de données tels que HTML, XML et JSON. Dans cet article, nous présenterons comment utiliser Scrapy pour explorer respectivement ces trois formats de données. 1. Explorez les données HTML et créez un projet Scrapy. Tout d'abord, nous devons créer un projet Scrapy. Ouvrez la ligne de commande et entrez la commande suivante : scrapys

See all articles