Ist es schwierig, Python-Crawler zu lernen?-Python-Tutorial-php.cn

Ist es schwierig, Python-Crawler zu lernen?

silencement

Freigeben： 2019-06-12 15:18:56

Original

4091 Leute haben es durchsucht

Um es einfach auszudrücken: Das Internet ist ein großes Netzwerk, das aus Websites und Netzwerkgeräten besteht. Wir greifen über einen Browser auf die Website zu und die Website gibt HTML-, JS- und CSS-Codes an den Browser zurück durch den Browser, und dann erscheinen vor unseren Augen reichhaltige und farbenfrohe Webseiten.

Ist es schwierig, Python-Crawler zu lernen?

Was ist ein Crawler?

Wenn wir das Internet mit einem großen Spinnennetz vergleichen, werden die Daten in jedem Knoten des Spinnennetzes gespeichert, und der Crawler ist eine kleine Spinne, die ihre eigenen Informationen entlang des Netzwerks erfasst Unter einem Prey-(Daten-)Crawler versteht man ein Programm, das eine Anfrage an eine Website initiiert, Ressourcen abruft, aus technischer Sicht nützliche Daten analysiert und extrahiert, das Verhalten eines Browsers simuliert, der eine Website über ein Programm anfordert, und den HTML-Code konvertiert Von der Site zurückgegebene Code-/JSON-Daten (Bilder, Videos) Klettern Sie lokal, extrahieren Sie die benötigten Daten und speichern Sie sie zur Verwendung.

Grundlegender Prozess des Crawlers

Wie Benutzer Netzwerkdaten erhalten:

Methode 1: Browser sendet Anfrage ---> -->In Seiten analysieren

Methode 2: Simulieren Sie den Browser, um eine Anfrage zu senden (rufen Sie den Webseitencode ab)->Nützliche Daten extrahieren->In der Datenbank oder Datei speichern

Crawler Was Sie tun müssen, ist Methode 2;

Eine Anfrage initiieren

Verwenden Sie die http-Bibliothek, um eine Anfrage an die Zielseite zu initiieren , eine Anfrage senden

Anfrage enthält: Anfragekopf, Anfragetext usw.

Anfragemodulfehler: JS- und CSS-Code kann nicht ausgeführt werden

Antwortinhalt abrufen

Wenn der Server normal antworten kann, erhalten Sie eine Antwort

Die Antwort umfasst: HTML, JSON, Bilder, Videos usw.

Geparster Inhalt

Geparste HTML-Daten : reguläre Ausdrücke (RE-Modul), Analysebibliotheken von Drittanbietern wie Beautifulsoup, Pyquery usw.

JSON-Daten analysieren: JSON-Modul

Binärdaten analysieren: Datei im WB-Modus schreiben

Daten speichern

Datenbank (MySQL, Mongdb, Redis)

Datei

Das obige ist der detaillierte Inhalt vonIst es schwierig, Python-Crawler zu lernen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!