Heim > Backend-Entwicklung > Python-Tutorial > Welche Pakete sollten für den Python-Crawler installiert werden?

Welche Pakete sollten für den Python-Crawler installiert werden?

silencement
Freigeben: 2019-05-22 14:08:38
Original
10612 Leute haben es durchsucht

Welche Bibliotheken müssen installiert werden, um den Python-Webcrawler zu erlernen?

Welche Pakete sollten für den Python-Crawler installiert werden?

Im Folgenden sind die relevanten Bibliotheken aufgeführt, die an Python-Crawlern beteiligt sind

Anforderungsbibliothek, Analysebibliothek, Repository, Toolbibliothek

1. Bibliothek anfordern: urllib/re/requests

(1) urllib/re ist die standardmäßig mit Python gelieferte Bibliothek. Sie kann mit dem folgenden Befehl überprüft werden:

Welche Pakete sollten für den Python-Crawler installiert werden?

Es wird keine Fehlermeldung ausgegeben, was darauf hinweist, dass die Umgebung normal ist

(2) fordert Installation an

2.1 CMD öffnen, pip3-Installationsanfragen eingeben

2.2 Installation abwarten, überprüfen

Welche Pakete sollten für den Python-Crawler installiert werden?

(3) Selenium-Installation (Browser für Website-Zugriffsverhalten steuern)

3.1 CMD öffnen, eingeben pip3 install selenium

3.2 Chromedriver installieren

Website: https://npm.taobao.org/

Entpacken Sie das heruntergeladene komprimierte Paket und legen Sie die Exe in D ab :Python3.6.0Scripts

Dieser Pfad muss nur in der PATH-Variablen sein

3.3 Überprüfen Sie nach Abschluss der Installation

Welche Pakete sollten für den Python-Crawler installiert werden?

Drücken Sie die Eingabetaste und der Chrome-Browser wird angezeigt. Schnittstelle

3.4 Andere Browser installieren

Schnittstellenloser Browser Phantomjs

Download-URL: http://phantomjs.org/

Nach Abschluss des Downloads entpacken, das gesamte Verzeichnis in D:Python3.6.0Scripts einfügen und den Pfad zum bin-Verzeichnis zur PATH-Variablen hinzufügen

Überprüfung:

CMD öffnen

Welche Pakete sollten für den Python-Crawler installiert werden?

2. Parsing-Bibliothek:

2.1 lxml (XPATH)

Öffnen Sie CMD und geben Sie pip3 install lxml ein oder laden Sie es von https://pypi herunter .python.org, zum Beispiel lxml-4.1. 1-cp36-cp36m-win_amd64.whl (md5), laden Sie zuerst die WHL-Datei herunter und führen Sie die pip3-Installation in der Befehlszeile aus. Dateiname.whl

2.2 beautifulsoup

Öffnen Sie CMD, Sie müssen es zuerst installieren. Gutes lxml

pip3 install beautifulsoup4

Welche Pakete sollten für den Python-Crawler installiert werden?

2.3 pyquery ( ähnlich der JQuery-Syntax)

Öffnen Sie CMD, pip3 install pyquery

Überprüfen Sie die Installationsergebnisse

Welche Pakete sollten für den Python-Crawler installiert werden?

3. Repository

3.1 pymysql (betreiben MySQL, relationale Datenbank)

Installation: pip3 install pymysql, Test nach der Installation:

Welche Pakete sollten für den Python-Crawler installiert werden?

3.2 pymongo (betreiben MongoDB, Schlüsselwert )

Pip3 installieren, Pymongo installieren

Überprüfung

Welche Pakete sollten für den Python-Crawler installiert werden?

3.3 Redis (verteilter Crawler, Crawling-Warteschlange beibehalten) Installation: pip3-Installation redis

Überprüfung:

Welche Pakete sollten für den Python-Crawler installiert werden?

4.1Django (verteiltes Crawler-Wartungssystem) pip3 install django

4.2jupyter ( Notizblock läuft auf der Webseite, unterstützt Markdown, kann auf der Webseite ausgeführt werden Code) Installation pip3 install jupyter

Überprüfung: CMD öffnen, Jupyter-Notizbuch

kann Notizblöcke und Codeblöcke erstellen und Markdown-Blöcke direkt auf der Webseite unterstützen das Drucken

Das obige ist der detaillierte Inhalt vonWelche Pakete sollten für den Python-Crawler installiert werden?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage