Heim Backend-Entwicklung Python-Tutorial Wie Crawler funktionieren

Wie Crawler funktionieren

Mar 25, 2017 pm 04:58 PM

  1. So funktioniert der Crawler

Webcrawler, also Web Spider, ist ein sehr anschaulicher Name. Wenn man das Internet mit einem Spinnennetz vergleicht, dann ist eine Spinne eine Spinne, die im Netz herumkriecht. Webspider suchen über ihre Linkadressen nach Webseiten. Lesen Sie ausgehend von einer bestimmten Seite der Website (normalerweise der Startseite) den Inhalt der Webseite, suchen Sie nach anderen Linkadressen auf der Webseite

und verwenden Sie dann diese Linkadressen, um die nächste Webseite zu finden , und dieser Zyklus wird fortgesetzt, bis alle Seiten dieser Website gecrawlt wurden. Betrachtet man das gesamte Internet als Website, dann können Webspider dieses Prinzip nutzen, um alle Webseiten im Internet zu crawlen. Auf diese Weise ist ein Webcrawler ein Crawler, ein Programm, das Webseiten crawlt. Die grundlegende Funktion eines Webcrawlers besteht darin, Webseiten zu crawlen. Wie können Sie also die gewünschte Seite genau so erhalten, wie Sie es möchten? Beginnen wir mit der URL.

 

Der Vorgang des Crawlens von Webseiten ist eigentlich derselbe, wie Leser normalerweise den IE-Browser zum Durchsuchen von Webseiten verwenden. Sie geben beispielsweise die Adresse www.baidu.com in die Adresszeile Ihres Browsers ein. Der Vorgang des Öffnens einer Webseite besteht eigentlich darin, dass der Browser als surfender „Client“ eine Anfrage an den Server sendet, die serverseitigen Dateien lokal „abruft“ und sie dann interpretiert und anzeigt. HTML ist eine Auszeichnungssprache, die Tags verwendet, um Inhalte zu markieren und sie zu analysieren und zu unterscheiden. Die Funktion des Browsers besteht darin, den erhaltenen HTML-Code zu analysieren und dann den Originalcode in die Website-Seite umzuwandeln, die wir direkt sehen.

Einfach ausgedrückt ist URL die im Browser eingegebene URL-Zeichenfolge. Bevor Sie URLs verstehen, müssen Sie zunächst das Konzept von URIs verstehen.

Was ist ein URI?

Jede im Web verfügbare Ressource, wie HTML-Dokumente, Bilder, Videoclips, Programme usw., wird durch einen Universal Resource Identifier (URI) lokalisiert.

URI besteht normalerweise aus drei Teilen:

    Benennungsmechanismus für den Zugriff auf Ressourcen
  • Hostname zum Speichern von Ressourcen;
  • Der Name der Ressource selbst, dargestellt durch den Pfad.
  • Dies ist eine Ressource, auf die über das HTTP-Protokoll zugegriffen werden kann.
  • befindet sich auf dem Host,
  • Zugriff über Pfad „/html/html40“.
2. Verständnis und Beispiele von URLs

URL ist eine Teilmenge von URI. Es ist die Abkürzung für Uniform Resource Locator, übersetzt als „Uniform Resource Locator“. Laienhaft ausgedrückt ist URL eine Zeichenfolge, die Informationsressourcen im Internet beschreibt und hauptsächlich in verschiedenen WWW-Clientprogrammen und Serverprogrammen verwendet wird. URLs können verwendet werden, um verschiedene Informationsressourcen in einem einheitlichen Format zu beschreiben, einschließlich Dateien, Serveradressen und Verzeichnisse usw. Das allgemeine Format der URL ist (die mit eckigen Klammern [] sind optional):

  protocol :// hostname[:port] / path / [;parameters][?query]#fragment
Nach dem Login kopieren

Das Format der URL besteht aus drei Teilen:

    Der erste Teil ist die Vereinbarung (oder Servicemethode).
  • Der zweite Teil ist die IP-Adresse des Hosts, auf dem die Ressource gespeichert ist (manchmal einschließlich der Portnummer).
  • Der dritte Teil ist die spezifische Adresse der Hostressourcen, wie z. B. Verzeichnisse und Dateinamen.
  • Der erste Teil und der zweite Teil werden durch das Symbol „://“ getrennt, und der zweite Teil und der dritte Teil werden durch das Symbol „/“ getrennt. Der erste und zweite Teil sind unverzichtbar, der dritte Teil kann manchmal weggelassen werden.

 

3. Einfacher Vergleich von URL und URI

URI ist eine Abstraktion der URL auf niedrigerer Ebene, ein String-Text-Standard. Mit anderen Worten: URIs gehören zur übergeordneten Klasse und URLs gehören zu den Unterklassen von URI. URL ist eine Teilmenge von URI. Die Definition von URI lautet: Uniform Resource Identifier; die Definition von URL lautet: Uniform Resource Locator. Der Unterschied zwischen den beiden besteht darin, dass der URI den Pfad zum Anforderungsserver darstellt und eine solche Ressource definiert

. Die URL beschreibt auch, wie auf die Ressource zugegriffen wird (http://).

 

Schauen wir uns zwei kleine Beispiele für URLs an.

1. URL-Beispiel für HTTP-Protokoll:

Verwenden Sie das Hypertext Transfer Protocol HTTP, um Ressourcen für Hypertext-Informationsdienste bereitzustellen.

Die Hypertextdatei (Dateityp ist .html) ist willkommen.htm im Verzeichnis /channel.

Dies ist ein Computer von People’s Daily of China.

Der Computerdomänenname ist www.rol.cn.Net.

Die Hypertextdatei (Dateityp ist .html) ist talk1.htm im Verzeichnis/talk.

Dies ist die Adresse des Red Chat Room. Von hier aus können Sie den ersten Raum des Red Chat Room betreten.

2. Datei-URL

Wenn Sie eine URL zur Darstellung einer Datei verwenden, wird der Servermodus durch die Datei dargestellt, gefolgt von der Host-IP-Adresse, dem Dateizugriffspfad (d. h. dem Verzeichnis), dem Dateinamen und anderen Informationen.

Manchmal können Verzeichnis- und Dateinamen weggelassen werden, aber das Symbol „/“ kann nicht weggelassen werden.

Das Hauptverarbeitungsobjekt des Crawlers ist die URL. Er ruft den erforderlichen Dateiinhalt anhand der URL-Adresse ab und verarbeitet ihn dann weiter.

Daher ist das genaue Verständnis von URLs für das Verständnis von Webcrawlern von entscheidender Bedeutung.

Das obige ist der detaillierte Inhalt vonWie Crawler funktionieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

PHP und Python: Verschiedene Paradigmen erklärt PHP und Python: Verschiedene Paradigmen erklärt Apr 18, 2025 am 12:26 AM

PHP ist hauptsächlich prozedurale Programmierung, unterstützt aber auch die objektorientierte Programmierung (OOP). Python unterstützt eine Vielzahl von Paradigmen, einschließlich OOP, funktionaler und prozeduraler Programmierung. PHP ist für die Webentwicklung geeignet, und Python eignet sich für eine Vielzahl von Anwendungen wie Datenanalyse und maschinelles Lernen.

Wählen Sie zwischen PHP und Python: Ein Leitfaden Wählen Sie zwischen PHP und Python: Ein Leitfaden Apr 18, 2025 am 12:24 AM

PHP eignet sich für Webentwicklung und schnelles Prototyping, und Python eignet sich für Datenwissenschaft und maschinelles Lernen. 1.PHP wird für die dynamische Webentwicklung verwendet, mit einfacher Syntax und für schnelle Entwicklung geeignet. 2. Python hat eine kurze Syntax, ist für mehrere Felder geeignet und ein starkes Bibliotheksökosystem.

Python vs. JavaScript: Die Lernkurve und Benutzerfreundlichkeit Python vs. JavaScript: Die Lernkurve und Benutzerfreundlichkeit Apr 16, 2025 am 12:12 AM

Python eignet sich besser für Anfänger mit einer reibungslosen Lernkurve und einer kurzen Syntax. JavaScript ist für die Front-End-Entwicklung mit einer steilen Lernkurve und einer flexiblen Syntax geeignet. 1. Python-Syntax ist intuitiv und für die Entwicklung von Datenwissenschaften und Back-End-Entwicklung geeignet. 2. JavaScript ist flexibel und in Front-End- und serverseitiger Programmierung weit verbreitet.

Kann Visual Studio -Code in Python verwendet werden Kann Visual Studio -Code in Python verwendet werden Apr 15, 2025 pm 08:18 PM

VS -Code kann zum Schreiben von Python verwendet werden und bietet viele Funktionen, die es zu einem idealen Werkzeug für die Entwicklung von Python -Anwendungen machen. Sie ermöglichen es Benutzern: Installation von Python -Erweiterungen, um Funktionen wie Code -Abschluss, Syntax -Hervorhebung und Debugging zu erhalten. Verwenden Sie den Debugger, um Code Schritt für Schritt zu verfolgen, Fehler zu finden und zu beheben. Integrieren Sie Git für die Versionskontrolle. Verwenden Sie Tools für die Codeformatierung, um die Codekonsistenz aufrechtzuerhalten. Verwenden Sie das Lining -Tool, um potenzielle Probleme im Voraus zu erkennen.

Ist die VSCODE -Erweiterung bösartig? Ist die VSCODE -Erweiterung bösartig? Apr 15, 2025 pm 07:57 PM

VS -Code -Erweiterungen stellen böswillige Risiken dar, wie das Verstecken von böswilligem Code, das Ausbeutetieren von Schwachstellen und das Masturbieren als legitime Erweiterungen. Zu den Methoden zur Identifizierung böswilliger Erweiterungen gehören: Überprüfung von Verlegern, Lesen von Kommentaren, Überprüfung von Code und Installation mit Vorsicht. Zu den Sicherheitsmaßnahmen gehören auch: Sicherheitsbewusstsein, gute Gewohnheiten, regelmäßige Updates und Antivirensoftware.

Kann gegen Code in Windows 8 ausgeführt werden Kann gegen Code in Windows 8 ausgeführt werden Apr 15, 2025 pm 07:24 PM

VS -Code kann unter Windows 8 ausgeführt werden, aber die Erfahrung ist möglicherweise nicht großartig. Stellen Sie zunächst sicher, dass das System auf den neuesten Patch aktualisiert wurde, und laden Sie dann das VS -Code -Installationspaket herunter, das der Systemarchitektur entspricht und sie wie aufgefordert installiert. Beachten Sie nach der Installation, dass einige Erweiterungen möglicherweise mit Windows 8 nicht kompatibel sind und nach alternativen Erweiterungen suchen oder neuere Windows -Systeme in einer virtuellen Maschine verwenden müssen. Installieren Sie die erforderlichen Erweiterungen, um zu überprüfen, ob sie ordnungsgemäß funktionieren. Obwohl VS -Code unter Windows 8 möglich ist, wird empfohlen, auf ein neueres Windows -System zu upgraden, um eine bessere Entwicklungserfahrung und Sicherheit zu erzielen.

PHP und Python: Ein tiefes Eintauchen in ihre Geschichte PHP und Python: Ein tiefes Eintauchen in ihre Geschichte Apr 18, 2025 am 12:25 AM

PHP entstand 1994 und wurde von Rasmuslerdorf entwickelt. Es wurde ursprünglich verwendet, um Website-Besucher zu verfolgen und sich nach und nach zu einer serverseitigen Skriptsprache entwickelt und in der Webentwicklung häufig verwendet. Python wurde Ende der 1980er Jahre von Guidovan Rossum entwickelt und erstmals 1991 veröffentlicht. Es betont die Lesbarkeit und Einfachheit der Code und ist für wissenschaftliche Computer, Datenanalysen und andere Bereiche geeignet.

So führen Sie Programme in der terminalen VSCODE aus So führen Sie Programme in der terminalen VSCODE aus Apr 15, 2025 pm 06:42 PM

Im VS -Code können Sie das Programm im Terminal in den folgenden Schritten ausführen: Erstellen Sie den Code und öffnen Sie das integrierte Terminal, um sicherzustellen, dass das Codeverzeichnis mit dem Terminal Working -Verzeichnis übereinstimmt. Wählen Sie den Befehl aus, den Befehl ausführen, gemäß der Programmiersprache (z. B. Pythons Python your_file_name.py), um zu überprüfen, ob er erfolgreich ausgeführt wird, und Fehler auflösen. Verwenden Sie den Debugger, um die Debugging -Effizienz zu verbessern.

See all articles