Um es einfach auszudrücken: Das Internet ist ein großes Netzwerk, das aus Websites und Netzwerkgeräten besteht. Wir greifen über einen Browser auf die Website zu und die Website gibt HTML-, JS- und CSS-Codes an den Browser zurück durch den Browser, und dann erscheinen vor unseren Augen reichhaltige und farbenfrohe Webseiten.
Was ist ein Crawler?
Wenn wir das Internet mit einem großen Spinnennetz vergleichen, werden die Daten in jedem Knoten des Spinnennetzes gespeichert, und der Crawler ist eine kleine Spinne, die ihre eigenen Informationen entlang des Netzwerks erfasst Unter einem Prey-(Daten-)Crawler versteht man ein Programm, das eine Anfrage an eine Website initiiert, Ressourcen abruft, aus technischer Sicht nützliche Daten analysiert und extrahiert, das Verhalten eines Browsers simuliert, der eine Website über ein Programm anfordert, und den HTML-Code konvertiert Von der Site zurückgegebene Code-/JSON-Daten (Bilder, Videos) Klettern Sie lokal, extrahieren Sie die benötigten Daten und speichern Sie sie zur Verwendung.
Grundlegender Prozess des Crawlers
Wie Benutzer Netzwerkdaten erhalten:
Methode 1: Browser sendet Anfrage ---> -->In Seiten analysieren
Methode 2: Simulieren Sie den Browser, um eine Anfrage zu senden (rufen Sie den Webseitencode ab)->Nützliche Daten extrahieren->In der Datenbank oder Datei speichern
Crawler Was Sie tun müssen, ist Methode 2;
Eine Anfrage initiieren
Verwenden Sie die http-Bibliothek, um eine Anfrage an die Zielseite zu initiieren , eine Anfrage senden
Anfrage enthält: Anfragekopf, Anfragetext usw.
Anfragemodulfehler: JS- und CSS-Code kann nicht ausgeführt werden
Antwortinhalt abrufen
Wenn der Server normal antworten kann, erhalten Sie eine Antwort
Die Antwort umfasst: HTML, JSON, Bilder, Videos usw.
Geparster Inhalt
Geparste HTML-Daten : reguläre Ausdrücke (RE-Modul), Analysebibliotheken von Drittanbietern wie Beautifulsoup, Pyquery usw.
JSON-Daten analysieren: JSON-Modul
Binärdaten analysieren: Datei im WB-Modus schreiben
Daten speichern
Datenbank (MySQL, Mongdb, Redis)
Datei
Das obige ist der detaillierte Inhalt vonIst es schwierig, Python-Crawler zu lernen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!