Wie man mit Python einen Crawler erstellt-Python-Tutorial-php.cn

Heim

Backend-Entwicklung

Python-Tutorial

Wie man mit Python einen Crawler erstellt

高洛峰

Nov 23, 2016 pm 01:23 PM

python

„Erste Schritte“ ist eine gute Motivation, aber es kann langsam sein, dass es funktioniert. Wenn Sie ein Projekt in Ihren Händen oder im Kopf haben, werden Sie in der Praxis zielorientiert sein und nicht langsam lernen Modul.

Wenn außerdem jeder Wissenspunkt im Wissenssystem ein Punkt im Diagramm ist und die Abhängigkeitsbeziehung eine Kante ist, darf dieses Diagramm kein gerichtetes azyklisches Diagramm sein, da die Erfahrung des Lernens A kann Ihnen helfen, B zu lernen. Sie müssen also nicht lernen, wie man „anfängt“, weil es keinen solchen „Anfangspunkt“ gibt. Was Sie lernen müssen, ist, wie man etwas Größeres macht Sie werden schnell lernen, was Sie lernen müssen. Natürlich können Sie argumentieren, dass Sie zuerst Python kennen müssen. Wie können Sie sonst Python lernen, um einen Crawler zu erstellen? Crawler :D

Siehe viele Antworten oben. Sie sprechen alle über „Technik“ – welche Software verwendet werden soll und wie man crawlt. Lassen Sie mich also über „Tao“ und „Technik“ sprechen – wie der Crawler funktioniert und wie um es in Python zu implementieren

Lassen Sie es uns kurz zusammenfassen:
Sie müssen lernen

Grundlegendes Crawler-Funktionsprinzip

Grundlegendes http-Crawling-Tool, Scrapy

Bloom-Filter: Bloom-Filter nach Beispiel

Wenn Sie Webseiten in großem Umfang crawlen müssen, müssen Sie das Konzept der verteilten Crawler erlernen. Tatsächlich ist es nicht so mysteriös Sie müssen lernen, wie Sie eine verteilte Warteschlange verwalten, die von allen Clustermaschinen effektiv gemeinsam genutzt werden kann. Die einfachste Implementierung ist rq: https://github.com/nvie/rq

Die Kombination von rq und Scrapy: Darkrho/Scrapy-Redis · GitHub

Nachträgliche Verarbeitung, Webseitenextraktion (grangier/python-goose · GitHub), Speicherung (Mongodb)

Das Folgende ist eine kurze Geschichte :

Erzählen Sie mir von der Erfahrung, den gesamten Douban hinunterzuklettern, als Sie einen Cluster geschrieben haben. >1) Zuerst müssen Sie verstehen, wie der Crawler funktioniert.
Stellen Sie sich vor, Sie sind eine Spinne werden ins Internet gestellt. Was sollten Sie also tun? Ja, Sie können einfach irgendwo anfangen, zum Beispiel auf der Startseite des People's Daily Auf der Seite „People's Daily“ können Sie die verschiedenen Seiten sehen, die dorthin führen. Sie freuen sich also, auf die Seite „Inlandsnachrichten“ zu gelangen. Großartig, Sie haben das Crawlen der beiden Seiten (Homepage und Inlandsnachrichten) abgeschlossen. Machen Sie sich keine Sorgen darüber, wie Sie mit der heruntergekletterten Seite umgehen sollen. Sie haben die gesamte Seite in HTML kopiert und in Ihren Text eingefügt zurück zur „Homepage“. Als schlaue Spinne müssen Sie wissen, dass Sie nicht zurückkriechen müssen, weil Sie sie bereits gesehen haben. Daher müssen Sie Ihr Gehirn nutzen, um die Adressen der Seiten zu speichern, die Sie bereits angesehen haben. Auf diese Weise überprüfen Sie jedes Mal, wenn Sie einen neuen Link sehen, der möglicherweise gecrawlt werden muss, zunächst, ob Sie diese Seitenadresse gedanklich bereits besucht haben. Wenn Sie dort waren, gehen Sie nicht hin.

Okay, theoretisch kann man beweisen, dass Sie definitiv alle Webseiten crawlen können, wenn alle Seiten von der Startseite aus erreicht werden können.

Wie implementiert man es also in Python?
Sehr einfach
Import Queueinitial_page = "http://www.renminribao.com"url_queue = Queue.Queue()seen = set()seen.insert(initial_page)url_queue.put(initial_page)while(True) :

#Weitermachen, bis alles verloren ist
if url_queue.size()>0:
current_url = url_queue.get() #Erste URL in der Warteschlange abrufen
store(current_url) # Store die durch diese URL dargestellte Webseite
für next_url in extract_urls(current_url): #Extrahieren Sie die mit dieser URL verknüpfte URL
wenn next_url nicht gesehen wird:
seen.put(next_url)
url_queue.put( next_url)
else:
break
ist bereits in Pseudocode geschrieben.

Das Rückgrat aller Crawler ist hier: Lassen Sie uns analysieren, warum Crawler eigentlich eine sehr komplizierte Sache sind – Suchmaschinenunternehmen haben normalerweise ein ganzes Team, um sie zu warten und zu entwickeln.

2) Effizienz
Wenn Sie den obigen Code direkt verarbeiten und direkt ausführen, wird es ein ganzes Jahr dauern, bis Sie den gesamten Douban-Inhalt durchforstet haben. Ganz zu schweigen davon, dass Suchmaschinen wie Google das gesamte Web durchsuchen müssen.

Was ist das Problem? Es müssen zu viele Webseiten gecrawlt werden und der obige Code ist zu langsam. Nehmen Sie an, dass es N Websites im gesamten Netzwerk gibt, und analysieren Sie dann, ob die Komplexität der Wiederverwendung N * log (N) ist, da alle Webseiten einmal durchlaufen werden müssen und die Wiederverwendung jedes Satzes eine log (N) Komplexität erfordert. OK, OK, ich weiß, dass die Set-Implementierung von Python Hash ist – aber das ist immer noch zu langsam, zumindest ist die Speichernutzung nicht effizient.

Wie wird das Gewicht üblicherweise bestimmt? Bloom Filter. Einfach ausgedrückt handelt es sich immer noch um eine Hash-Methode, aber ihre Besonderheit besteht darin, dass sie festen Speicher verwenden kann (der nicht mit der Anzahl der URLs wächst), um mit O(1)-Effizienz zu bestimmen, ob die URL bereits im Satz vorhanden ist. Leider gibt es kein kostenloses Mittagessen. Das einzige Problem besteht darin, dass BF zu 100 % sicher sein kann, dass die URL nicht angezeigt wurde. Wenn diese URL jedoch im Set enthalten ist, wird Folgendes angezeigt: Diese URL hätte bereits angezeigt werden sollen, aber ich habe eine Unsicherheit von 2 %. Beachten Sie, dass die Unsicherheit hier sehr gering werden kann, wenn der von Ihnen zugewiesene Speicher groß genug ist. Ein einfaches Tutorial: Bloom-Filter nach Beispiel

Beachten Sie diese Funktion. Wenn die URL angezeigt wurde, kann sie mit geringer Wahrscheinlichkeit wiederholt angezeigt werden (es spielt keine Rolle, Sie werden beim Lesen nicht erschöpft sein). es mehr). Aber wenn es nicht angeschaut wurde, wird es auf jeden Fall angeschaut (das ist sehr wichtig, sonst verpassen wir einige Webseiten!). [WICHTIG: Es gibt ein Problem mit diesem Absatz, bitte überspringen Sie ihn vorerst]

Okay, jetzt sind wir kurz vor dem schnellsten Weg, mit der Gewichtsbeurteilung umzugehen. Ein weiterer Engpass: Sie haben nur eine Maschine. Egal wie groß Ihre Bandbreite ist, solange die Geschwindigkeit, mit der Ihr Computer Webseiten herunterlädt, der Engpass ist, können Sie diese Geschwindigkeit nur erhöhen. Wenn eine Maschine nicht ausreicht – nutzen Sie mehrere! Wir gehen natürlich davon aus, dass jede Maschine die maximale Effizienz erreicht hat – unter Verwendung von Multithreading (für Python Multiprozess).

3) Cluster-Crawling
Beim Crawlen von Douban habe ich insgesamt mehr als 100 Maschinen genutzt, um einen Monat lang rund um die Uhr zu laufen. Stellen Sie sich vor, wenn Sie nur eine Maschine verwenden, müssen Sie diese 100 Monate lang betreiben ...

Angenommen, Sie haben jetzt 100 Maschinen zur Verfügung, wie kann man Python verwenden, um einen verteilten Crawling-Algorithmus zu implementieren?

Wir nennen 99 dieser 100 Maschinen mit kleinerer Rechenleistung Slaves, und die andere größere Maschine heißt Master. Schauen wir uns dann die URL_Warteschlange im obigen Code an und stellen Sie fest, ob wir diese Warteschlange auf diese Master-Maschine stellen können. Alle Slaves können über das Netzwerk mit dem Master kommunizieren. Immer wenn ein Slave den Download einer Webseite abschließt, fordert er vom Master eine neue Webseite zum Crawlen an. Jedes Mal, wenn der Slave eine neue Webseite erfasst, sendet er alle Links auf dieser Webseite an die Warteschlange des Masters. Ebenso wird der Bloom-Filter auch auf dem Master platziert, allerdings sendet der Master nun nur noch nicht besuchte URLs an den Slave. Der Bloom-Filter wird im Speicher des Masters abgelegt und die besuchte URL wird in Redis abgelegt, das auf dem Master ausgeführt wird, wodurch sichergestellt wird, dass alle Vorgänge O(1) sind. (Zumindest beträgt die Amortisation O(1). Zur Zugriffseffizienz von Redis siehe: LINSERT – Redis)

Überlegen Sie, wie Sie es in Python implementieren:
Installieren Sie Scrapy auf jedem Slave, dann wird jede Maschine zu einem Slave mit Crawling-Funktionen, und Redis und rq werden auf dem Master installiert, um als verteilte Warteschlange verwendet zu werden.

Der Code wird dann geschrieben als

#slave.py
current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
    to_send.append(next_url)
store(current_url);
send_to_master(to_send)
#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()
initial_pages = "www.renmingribao.com"
while(True):
    if request == &#39;GET&#39;:
        if distributed_queue.size()>0:
            send(distributed_queue.get())
        else:
            break
    elif request == &#39;POST&#39;:
        bf.put(request.url)

Nach dem Login kopieren

Okay, wie Sie sich vorstellen können, hat tatsächlich schon jemand geschrieben, was Sie brauchen: Darkrho/Scrapy-Redis · GitHub

4) Ausblick und Nachbearbeitung
Obwohl oben viele „einfache“ Methoden verwendet werden, ist es nicht einfach, einen Crawler im kommerziellen Maßstab tatsächlich zu implementieren. Der obige Code kann ohne große Probleme zum Crawlen einer gesamten Website verwendet werden.

Aber wenn Sie diese Folgeverarbeitung benötigen, wie z. B.

Effektive Speicherung (wie die Datenbank angeordnet sein sollte)

Effektive Beurteilung (hier bezieht sich auf Web Seite Urteil) Im Ernst, wir wollen nicht sowohl People’s Daily als auch Damin Daily durchforsten, die es kopiert haben)

Bei der effektiven Informationsextraktion (z. B. wie alle Adressen auf der Webseite extrahiert werden, „Zhonghua Road, Fenjin Road, Chaoyang District“) müssen Suchmaschinen normalerweise nicht alle Informationen speichern, z. B. warum sollte ich speichern Bilder... .

Zeitnahe Updates (vorhersagen, wie oft diese Seite aktualisiert wird)

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7487

CakePHP-Tutorial

1377

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Muss MySQL bezahlen? Apr 08, 2025 pm 05:36 PM

MySQL hat eine kostenlose Community -Version und eine kostenpflichtige Enterprise -Version. Die Community -Version kann kostenlos verwendet und geändert werden, die Unterstützung ist jedoch begrenzt und für Anwendungen mit geringen Stabilitätsanforderungen und starken technischen Funktionen geeignet. Die Enterprise Edition bietet umfassende kommerzielle Unterstützung für Anwendungen, die eine stabile, zuverlässige Hochleistungsdatenbank erfordern und bereit sind, Unterstützung zu bezahlen. Zu den Faktoren, die bei der Auswahl einer Version berücksichtigt werden, gehören Kritikalität, Budgetierung und technische Fähigkeiten von Anwendungen. Es gibt keine perfekte Option, nur die am besten geeignete Option, und Sie müssen die spezifische Situation sorgfältig auswählen.

So verwenden Sie MySQL nach der Installation Apr 08, 2025 am 11:48 AM

Der Artikel führt den Betrieb der MySQL -Datenbank vor. Zunächst müssen Sie einen MySQL -Client wie MySQLworkBench oder Befehlszeilen -Client installieren. 1. Verwenden Sie den Befehl mySQL-uroot-P, um eine Verbindung zum Server herzustellen und sich mit dem Stammkonto-Passwort anzumelden. 2. Verwenden Sie die Erstellung von Createdatabase, um eine Datenbank zu erstellen, und verwenden Sie eine Datenbank aus. 3.. Verwenden Sie CreateTable, um eine Tabelle zu erstellen, Felder und Datentypen zu definieren. 4. Verwenden Sie InsertInto, um Daten einzulegen, Daten abzufragen, Daten nach Aktualisierung zu aktualisieren und Daten nach Löschen zu löschen. Nur indem Sie diese Schritte beherrschen, lernen, mit gemeinsamen Problemen umzugehen und die Datenbankleistung zu optimieren, können Sie MySQL effizient verwenden.

Wie optimieren Sie die MySQL-Leistung für Hochlastanwendungen? Apr 08, 2025 pm 06:03 PM

Die MySQL-Datenbankleistung Optimierungshandbuch In ressourcenintensiven Anwendungen spielt die MySQL-Datenbank eine entscheidende Rolle und ist für die Verwaltung massiver Transaktionen verantwortlich. Mit der Erweiterung der Anwendung werden jedoch die Datenbankleistung Engpässe häufig zu einer Einschränkung. In diesem Artikel werden eine Reihe effektiver Strategien zur Leistungsoptimierung von MySQL -Leistung untersucht, um sicherzustellen, dass Ihre Anwendung unter hohen Lasten effizient und reaktionsschnell bleibt. Wir werden tatsächliche Fälle kombinieren, um eingehende Schlüsseltechnologien wie Indexierung, Abfrageoptimierung, Datenbankdesign und Caching zu erklären. 1. Das Design der Datenbankarchitektur und die optimierte Datenbankarchitektur sind der Eckpfeiler der MySQL -Leistungsoptimierung. Hier sind einige Kernprinzipien: Die Auswahl des richtigen Datentyps und die Auswahl des kleinsten Datentyps, der den Anforderungen entspricht, kann nicht nur Speicherplatz speichern, sondern auch die Datenverarbeitungsgeschwindigkeit verbessern.

Hadidb: Eine leichte, horizontal skalierbare Datenbank in Python Apr 08, 2025 pm 06:12 PM

Hadidb: Eine leichte, hochrangige skalierbare Python-Datenbank Hadidb (HadIDB) ist eine leichte Datenbank in Python mit einem hohen Maß an Skalierbarkeit. Installieren Sie HadIDB mithilfe der PIP -Installation: PipinstallHadIDB -Benutzerverwaltung erstellen Benutzer: createUser (), um einen neuen Benutzer zu erstellen. Die Authentication () -Methode authentifiziert die Identität des Benutzers. fromHadidb.operationImportUseruser_obj = user ("admin", "admin") user_obj.

Braucht MySQL das Internet? Apr 08, 2025 pm 02:18 PM

MySQL kann ohne Netzwerkverbindungen für die grundlegende Datenspeicherung und -verwaltung ausgeführt werden. Für die Interaktion mit anderen Systemen, Remotezugriff oder Verwendung erweiterte Funktionen wie Replikation und Clustering ist jedoch eine Netzwerkverbindung erforderlich. Darüber hinaus sind Sicherheitsmaßnahmen (wie Firewalls), Leistungsoptimierung (Wählen Sie die richtige Netzwerkverbindung) und die Datensicherung für die Verbindung zum Internet von entscheidender Bedeutung.

Navicat -Methode zum Anzeigen von MongoDB -Datenbankkennwort Apr 08, 2025 pm 09:39 PM

Es ist unmöglich, das MongoDB -Passwort direkt über Navicat anzuzeigen, da es als Hash -Werte gespeichert ist. So rufen Sie verlorene Passwörter ab: 1. Passwörter zurücksetzen; 2. Überprüfen Sie die Konfigurationsdateien (können Hash -Werte enthalten). 3. Überprüfen Sie Codes (May Hardcode -Passwörter).

Kann sich MySQL Workbench mit Mariadb verbinden? Apr 08, 2025 pm 02:33 PM

MySQL Workbench kann eine Verbindung zu MariADB herstellen, vorausgesetzt, die Konfiguration ist korrekt. Wählen Sie zuerst "Mariadb" als Anschlusstyp. Stellen Sie in der Verbindungskonfiguration Host, Port, Benutzer, Kennwort und Datenbank korrekt ein. Überprüfen Sie beim Testen der Verbindung, ob der Mariadb -Dienst gestartet wird, ob der Benutzername und das Passwort korrekt sind, ob die Portnummer korrekt ist, ob die Firewall Verbindungen zulässt und ob die Datenbank vorhanden ist. Verwenden Sie in fortschrittlicher Verwendung die Verbindungspooling -Technologie, um die Leistung zu optimieren. Zu den häufigen Fehlern gehören unzureichende Berechtigungen, Probleme mit Netzwerkverbindung usw. Bei Debugging -Fehlern, sorgfältige Analyse von Fehlerinformationen und verwenden Sie Debugging -Tools. Optimierung der Netzwerkkonfiguration kann die Leistung verbessern

Benötigt MySQL einen Server? Apr 08, 2025 pm 02:12 PM

Für Produktionsumgebungen ist in der Regel ein Server erforderlich, um MySQL auszuführen, aus Gründen, einschließlich Leistung, Zuverlässigkeit, Sicherheit und Skalierbarkeit. Server haben normalerweise leistungsstärkere Hardware, redundante Konfigurationen und strengere Sicherheitsmaßnahmen. Bei kleinen Anwendungen mit niedriger Last kann MySQL auf lokalen Maschinen ausgeführt werden, aber Ressourcenverbrauch, Sicherheitsrisiken und Wartungskosten müssen sorgfältig berücksichtigt werden. Für eine größere Zuverlässigkeit und Sicherheit sollte MySQL auf Cloud oder anderen Servern bereitgestellt werden. Die Auswahl der entsprechenden Serverkonfiguration erfordert eine Bewertung basierend auf Anwendungslast und Datenvolumen.

See all articles