Scrapy-Fallanalyse: So crawlen Sie Unternehmensinformationen auf LinkedIn-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Scrapy-Fallanalyse: So crawlen Sie Unternehmensinformationen auf LinkedIn

王林

Jun 23, 2023 am 10:04 AM

linkedin 抓取 scrapy

Bestimmen Sie die Ziel-URL

Zunächst müssen wir klarstellen, dass unser Ziel die Unternehmensinformationen auf LinkedIn sind. Daher müssen wir die URL der LinkedIn-Unternehmensinformationsseite finden. Öffnen Sie die LinkedIn-Website, geben Sie den Firmennamen in das Suchfeld ein und wählen Sie im Dropdown-Feld die Option „Unternehmen“, um zur Unternehmensvorstellungsseite zu gelangen. Auf dieser Seite können wir die grundlegenden Informationen zum Unternehmen, die Anzahl der Mitarbeiter, verbundene Unternehmen und andere Informationen einsehen. Zu diesem Zeitpunkt müssen wir die URL der Seite zur späteren Verwendung von den Entwicklertools des Browsers abrufen. Die Struktur dieser URL ist:

https://www.linkedin.com/search/results/companies/?keywords=xxx

Dabei stellt keywords=xxx die Schlüsselwörter dar, nach denen wir gesucht haben, und xxx kann durch ersetzt werden beliebiger Firmenname.

Scrapy-Projekt erstellen

Als nächstes müssen wir ein Scrapy-Projekt erstellen. Geben Sie in der Befehlszeile den folgenden Befehl ein:

scrapy startproject LinkedIn

Dieser Befehl erstellt ein Scrapy-Projekt mit dem Namen LinkedIn im aktuellen Verzeichnis.

Crawler erstellen

Geben Sie nach dem Erstellen des Projekts den folgenden Befehl in das Projektstammverzeichnis ein, um einen neuen Crawler zu erstellen:

scrapy genspider company_spider www.linkedin.com

Dadurch wird ein Crawler mit dem Namen company_spider erstellt Positionieren Sie es auf Ihrer LinkedIn-Unternehmensseite.

Scrapy konfigurieren

In Spider müssen wir einige grundlegende Informationen konfigurieren, z. B. die zu crawlende URL und wie die Daten auf der Seite analysiert werden. Fügen Sie der soeben erstellten Datei „company_spider.py“ den folgenden Code hinzu:

import scrapy

class CompanySpider(scrapy.Spider):
    name = "company"
    allowed_domains = ["linkedin.com"]
    start_urls = [
        "https://www.linkedin.com/search/results/companies/?keywords=apple"
    ]

    def parse(self, response):
        pass

Nach dem Login kopieren

Im obigen Code definieren wir die zu crawlende Site-URL und die Parsing-Funktion. Im obigen Code haben wir nur die zu crawlende Site-URL und die Analysefunktion definiert und keine spezifische Implementierung des Crawlers hinzugefügt. Jetzt müssen wir die Analysefunktion schreiben, um LinkedIn-Unternehmensinformationen zu erfassen und zu verarbeiten.

Schreiben Sie die Analysefunktion

In der Analysefunktion müssen wir den Code schreiben, um LinkedIn-Unternehmensinformationen zu erfassen und zu verarbeiten. Wir können XPath- oder CSS-Selektoren verwenden, um HTML-Code zu analysieren. Grundlegende Informationen auf der LinkedIn-Unternehmensinformationsseite können mit dem folgenden XPath extrahiert werden:

//*[@class="org-top-card-module__name ember-view"]/text()

Nach dem Login kopieren

Dieser XPath wählt das Element mit der Klasse „org-top-card-module__name ember-view“ aus und gibt seinen Textwert zurück.

Das Folgende ist die vollständige Datei „company_spider.py“:

import scrapy

class CompanySpider(scrapy.Spider):
    name = "company"
    allowed_domains = ["linkedin.com"]
    start_urls = [
        "https://www.linkedin.com/search/results/companies/?keywords=apple"
    ]

    def parse(self, response):
        # 获取公司名称
        company_name = response.xpath('//*[@class="org-top-card-module__name ember-view"]/text()')
        
        # 获取公司简介
        company_summary = response.css('.org-top-card-summary__description::text').extract_first().strip()
        
        # 获取公司分类标签
        company_tags = response.css('.org-top-card-category-list__top-card-category::text').extract()
        company_tags = ','.join(company_tags)

        # 获取公司员工信息
        employees_section = response.xpath('//*[@class="org-company-employees-snackbar__details-info"]')
        employees_current = employees_section.xpath('.//li[1]/span/text()').extract_first()
        employees_past = employees_section.xpath('.//li[2]/span/text()').extract_first()

        # 数据处理
        company_name = company_name.extract_first()
        company_summary = company_summary if company_summary else "N/A"
        company_tags = company_tags if company_tags else "N/A"
        employees_current = employees_current if employees_current else "N/A"
        employees_past = employees_past if employees_past else "N/A"

        # 输出抓取结果
        print('Company Name: ', company_name)
        print('Company Summary: ', company_summary)
        print('Company Tags: ', company_tags)
        print('
Employee Information
Current: ', employees_current)
        print('Past: ', employees_past)

Nach dem Login kopieren

Im obigen Code verwenden wir XPath- und CSS-Selektoren, um die grundlegenden Informationen, das Firmenprofil, Tags und Mitarbeiterinformationen auf der Seite zu extrahieren und einige grundlegende Vorgänge daran durchzuführen Datenverarbeitung und -ausgabe.

Run Scrapy

Jetzt haben wir das Crawlen und Verarbeiten der LinkedIn-Unternehmensinformationsseite abgeschlossen. Als nächstes müssen wir Scrapy ausführen, um den Crawler auszuführen. Geben Sie den folgenden Befehl in die Befehlszeile ein:

scrapy crawl company

Nach der Ausführung dieses Befehls beginnt Scrapy mit dem Crawlen und Verarbeiten der Daten auf der LinkedIn-Unternehmensinformationsseite und gibt die Crawling-Ergebnisse aus.

Zusammenfassung

Oben erfahren Sie, wie Sie mit Scrapy LinkedIn-Unternehmensinformationen crawlen. Mit Hilfe des Scrapy-Frameworks können wir problemlos umfangreiches Daten-Scraping durchführen und gleichzeitig Daten verarbeiten und umwandeln, wodurch wir Zeit und Energie sparen und die Effizienz der Datenerfassung verbessern.

Das obige ist der detaillierte Inhalt vonScrapy-Fallanalyse: So crawlen Sie Unternehmensinformationen auf LinkedIn. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Repo: Wie man Teamkollegen wiederbelebt

1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Wie lange dauert es, um Split Fiction zu schlagen?

3 Wochen vor By DDD

R.E.P.O. Dateispeicherspeicherort: Wo ist es und wie schützt sie?

3 Wochen vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7345

Java-Tutorial

1627

CakePHP-Tutorial

1352

Laravel-Tutorial

1265

PHP-Tutorial

1214

Related knowledge

Welche Software ist LinkedIn? Nov 22, 2022 pm 03:33 PM

Linkedin ist eine soziale Plattform für den Arbeitsplatz, ihr chinesischer Name ist „Linkedin“; Linkedin verfügt über ein diversifiziertes Geschäftsmodell und seine Haupteinnahmen stammen aus den von ihm bereitgestellten Talentrekrutierungslösungen, Marketinglösungen und kostenpflichtigen Konten.

Scrapy implementiert das Crawlen und Analysieren von Artikeln über öffentliche WeChat-Konten Jun 22, 2023 am 09:41 AM

Scrapy implementiert das Crawlen von Artikeln und die Analyse öffentlicher WeChat-Konten. WeChat ist in den letzten Jahren eine beliebte Social-Media-Anwendung, und die darin betriebenen öffentlichen Konten spielen ebenfalls eine sehr wichtige Rolle. Wie wir alle wissen, sind öffentliche WeChat-Konten ein Ozean an Informationen und Wissen, da jedes öffentliche Konto Artikel, grafische Nachrichten und andere Informationen veröffentlichen kann. Diese Informationen können in vielen Bereichen umfassend genutzt werden, beispielsweise in Medienberichten, in der akademischen Forschung usw. In diesem Artikel erfahren Sie, wie Sie das Scrapy-Framework zum Crawlen und Analysieren von WeChat-Artikeln zu öffentlichen Konten verwenden. Scr

Scrapy-Fallanalyse: So crawlen Sie Unternehmensinformationen auf LinkedIn Jun 23, 2023 am 10:04 AM

Scrapy ist ein Python-basiertes Crawler-Framework, mit dem schnell und einfach relevante Informationen im Internet abgerufen werden können. In diesem Artikel analysieren wir anhand eines Scrapy-Falls im Detail, wie Unternehmensinformationen auf LinkedIn gecrawlt werden. Bestimmen Sie die Ziel-URL. Zunächst müssen wir klarstellen, dass unser Ziel die Unternehmensinformationen auf LinkedIn sind. Daher müssen wir die URL der LinkedIn-Unternehmensinformationsseite finden. Öffnen Sie die LinkedIn-Website, geben Sie den Firmennamen in das Suchfeld ein und

Scrapy-Implementierungsmethode für asynchrones Laden basierend auf Ajax Jun 22, 2023 pm 11:09 PM

Scrapy ist ein Open-Source-Python-Crawler-Framework, das schnell und effizient Daten von Websites abrufen kann. Viele Websites verwenden jedoch die asynchrone Ladetechnologie von Ajax, was es Scrapy unmöglich macht, Daten direkt abzurufen. In diesem Artikel wird die Scrapy-Implementierungsmethode basierend auf dem asynchronen Laden von Ajax vorgestellt. 1. Ajax-Prinzip des asynchronen Ladens Ajax-Asynchronladen: Bei der herkömmlichen Seitenlademethode muss der Browser, nachdem er eine Anfrage an den Server gesendet hat, darauf warten, dass der Server eine Antwort zurückgibt und die gesamte Seite lädt, bevor er mit dem nächsten Schritt fortfährt.

Tipps zur Scrapy-Optimierung: So reduzieren Sie das Crawling doppelter URLs und verbessern die Effizienz Jun 22, 2023 pm 01:57 PM

Scrapy ist ein leistungsstarkes Python-Crawler-Framework, mit dem große Datenmengen aus dem Internet abgerufen werden können. Bei der Entwicklung von Scrapy stoßen wir jedoch häufig auf das Problem, doppelte URLs zu crawlen, was viel Zeit und Ressourcen verschwendet und die Effizienz beeinträchtigt. In diesem Artikel werden einige Scrapy-Optimierungstechniken vorgestellt, um das Crawlen doppelter URLs zu reduzieren und die Effizienz von Scrapy-Crawlern zu verbessern. 1. Verwenden Sie die Attribute „start_urls“ und „allowed_domains“ im Scrapy-Crawler

Beispiel für das Scrapen von Instagram-Informationen mit PHP Jun 13, 2023 pm 06:26 PM

Instagram ist heute mit Hunderten Millionen aktiven Nutzern eines der beliebtesten sozialen Medien. Benutzer laden Milliarden von Bildern und Videos hoch und diese Daten sind für viele Unternehmen und Einzelpersonen sehr wertvoll. Daher ist es in vielen Fällen notwendig, ein Programm zum automatischen Scrapen von Instagram-Daten zu verwenden. In diesem Artikel wird die Verwendung von PHP zum Erfassen von Instagram-Daten vorgestellt und Implementierungsbeispiele bereitgestellt. Installieren Sie die cURL-Erweiterung für PHP. cURL ist ein Tool, das in verschiedenen Bereichen verwendet wird

Ausführlicher Einsatz von Scrapy: Wie crawlt man HTML-, XML- und JSON-Daten? Jun 22, 2023 pm 05:58 PM

Scrapy ist ein leistungsstarkes Python-Crawler-Framework, mit dem wir schnell und flexibel Daten im Internet abrufen können. Beim eigentlichen Crawling-Prozess stoßen wir häufig auf verschiedene Datenformate wie HTML, XML und JSON. In diesem Artikel stellen wir vor, wie man Scrapy zum Crawlen dieser drei Datenformate verwendet. 1. HTML-Daten crawlen und ein Scrapy-Projekt erstellen. Zuerst müssen wir ein Scrapy-Projekt erstellen. Öffnen Sie die Befehlszeile und geben Sie den folgenden Befehl ein: scrapys

Wie implementiert Scrapy die Docker-Containerisierung und -Bereitstellung? Jun 23, 2023 am 10:39 AM

Da sich moderne Internetanwendungen ständig weiterentwickeln und immer komplexer werden, sind Webcrawler zu einem wichtigen Werkzeug für die Datenerfassung und -analyse geworden. Als eines der beliebtesten Crawler-Frameworks in Python verfügt Scrapy über leistungsstarke Funktionen und benutzerfreundliche API-Schnittstellen, die Entwicklern dabei helfen können, Webseitendaten schnell zu crawlen und zu verarbeiten. Bei umfangreichen Crawling-Aufgaben wird eine einzelne Scrapy-Crawler-Instanz jedoch leicht durch die Hardwareressourcen eingeschränkt, sodass Scrapy normalerweise in einem Container verpackt und in einem Docker-Container bereitgestellt werden muss.

See all articles