Was ist der Puppenspieler-Crawler? Wie Crawler funktionieren
Der Inhalt dieses Artikels besteht darin, Ihnen vorzustellen, was der Puppenspieler-Crawler ist. Wie Crawler funktionieren. Es hat einen gewissen Referenzwert. Freunde in Not können sich darauf beziehen. Ich hoffe, es wird Ihnen hilfreich sein.
Was ist ein Puppenspieler?
Crawler wird auch Netzwerkroboter genannt. Vielleicht nutzen Sie täglich Suchmaschinen. Crawler sind ein wichtiger Bestandteil von Suchmaschinen und crawlen Inhalte zur Indexierung. Heutzutage sind Big Data und Datenanalyse sehr beliebt. Woher kommen die Daten? Sie können durch Webcrawler gecrawlt werden. Dann lassen Sie mich über Webcrawler sprechen.
So funktioniert der Crawler
Wie im Bild gezeigt, ist dies das Flussdiagramm des Crawler. Es ist ersichtlich, dass die Crawling-Reise des Crawlers über eine Seed-URL gestartet wird. Durch das Herunterladen der Webseite wird der Inhalt der Webseite analysiert und gespeichert wird der Warteschlange hinzugefügt und wartet darauf, gecrawlt zu werden, nachdem Duplikate entfernt wurden. Holen Sie sich dann die nächste URL, die darauf wartet, gecrawlt zu werden, aus der Warteschlange und wiederholen Sie die oben genannten Schritte.
Prioritätsstrategie für Breite (BFS) oder Tiefe (DFS)
Oben wurde auch erwähnt, dass nach dem Crawlen einer Webseite auf das Crawlen gewartet werden muss Wählen Sie eine URL aus der Warteschlange aus, die gecrawlt werden soll. Wie wählt man sie aus? Sollten Sie die URL auf der aktuell gecrawlten Webseite auswählen oder weiterhin die gleiche URL-Ebene in der aktuellen URL auswählen? Die URL derselben Ebene bezieht sich hier auf die URL derselben Webseite, was den Unterschied zwischen den Crawling-Strategien ausmacht.
Breadth First Strategy (BFS)
Die Broadth First Strategie besteht darin, zuerst die URL einer aktuellen Webseite vollständig zu crawlen. Crawlen Sie dann die URL, die von der URL auf der aktuellen Webseite gecrawlt wurde. Wenn das obige Beziehungsdiagramm die Beziehung zwischen Webseiten darstellt, lautet die Crawling-Strategie von BFS: (A->(B,D, F ,G)->(C,F));
Depth First Strategy (DFS)
Depth First Strategy crawlt eine Webseite und fährt dann mit dem Crawlen der URL fort von der Webseite analysiert, bis der Crawl abgeschlossen ist.
(A->B->C->D->E->F->G)
Download-Seite
Das Herunterladen einer Webseite scheint sehr einfach zu sein, genau wie die Eingabe des Links in den Browser, und der Browser zeigt ihn an, nachdem der Download abgeschlossen ist. Natürlich ist das Ergebnis nicht so einfach.
Simulierte Anmeldung
Bei einigen Webseiten müssen Sie sich anmelden, um den Inhalt der Webseite anzuzeigen. Wie meldet sich der Crawler an? Tatsächlich besteht der Anmeldevorgang darin, die Zugangsdaten (Cookie, Token ...) zu erhalten.
let cookie = ''; let j = request.jar() async function login() { if (cookie) { return await Promise.resolve(cookie); } return await new Promise((resolve, reject) => { request.post({ url: 'url', form: { m: 'username', p: 'password', }, jar: j }, function(err, res, body) { if (err) { reject(err); return; } cookie = j.getCookieString('url'); resolve(cookie); }) }) }
Hier ist eine einfache Kastanie: Melden Sie sich an, um das Cookie zu erhalten, und bringen Sie dann das Cookie bei jeder Anfrage mit.
Webinhalte abrufen
Einige Webinhalte werden auf der Serverseite gerendert. Es gibt kein CGI zum Abrufen von Daten und der Inhalt kann nur aus HTML analysiert werden Der Inhalt einiger Websites ist nicht einfach. Websites wie LinkedIn können den Inhalt einer Webseite nicht einfach abrufen, um die endgültige HTML-Struktur zu erhalten. Ich habe die Browserausführung bereits erwähnt, aber habe ich einen programmierbaren Browser? Puppeteer, ein Open-Source-Headless-Browser-Projekt des Google Chrome-Teams, kann den Headless-Browser verwenden, um den Benutzerzugriff zu simulieren, den Inhalt der wichtigsten Webseiten abzurufen und den Inhalt zu crawlen.
Verwenden Sie den Puppenspieler, um die Anmeldung zu simulieren
async function login(username, password) { const browser = await puppeteer.launch(); page = await browser.newPage(); await page.setViewport({ width: 1400, height: 1000 }) await page.goto('https://example.cn/login'); console.log(page.url()) await page.focus('input[type=text]'); await page.type(username, { delay: 100 }); await page.focus('input[type=password]'); await page.type(password, { delay: 100 }); await page.$eval("input[type=submit]", el => el.click()); await page.waitForNavigation(); return page; }
Nachdem Sie login()
ausgeführt haben, können Sie sich im Browser anmelden und den Inhalt im HTML-Format abrufen. Sie können CGI auch direkt anfordern >
async function crawlData(index, data) { let dataUrl = `https://example.cn/company/contacts?count=20&page=${index}&query=&dist=0&cid=${cinfo.cid}&company=${cinfo.encodename}&forcomp=1&searchTokens=&highlight=false&school=&me=&webcname=&webcid=&jsononly=1`; await page.goto(dataUrl); // ... }
Schreiben Sie es am Ende
Natürlich sind Crawler nicht nur das, es geht vielmehr darum, die Website zu analysieren und eine passende Crawler-Strategie zu finden. Bezüglich kann es nicht nur für Crawler, sondern auch für Programmierung, Headless-Browser, automatisierte Tests usw. verwendet werden. puppeteer
Das obige ist der detaillierte Inhalt vonWas ist der Puppenspieler-Crawler? Wie Crawler funktionieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



So implementieren Sie mit WebSocket und JavaScript ein Online-Spracherkennungssystem. Einführung: Mit der kontinuierlichen Weiterentwicklung der Technologie ist die Spracherkennungstechnologie zu einem wichtigen Bestandteil des Bereichs der künstlichen Intelligenz geworden. Das auf WebSocket und JavaScript basierende Online-Spracherkennungssystem zeichnet sich durch geringe Latenz, Echtzeit und plattformübergreifende Eigenschaften aus und hat sich zu einer weit verbreiteten Lösung entwickelt. In diesem Artikel wird erläutert, wie Sie mit WebSocket und JavaScript ein Online-Spracherkennungssystem implementieren.

WebSocket und JavaScript: Schlüsseltechnologien zur Realisierung von Echtzeit-Überwachungssystemen Einführung: Mit der rasanten Entwicklung der Internet-Technologie wurden Echtzeit-Überwachungssysteme in verschiedenen Bereichen weit verbreitet eingesetzt. Eine der Schlüsseltechnologien zur Erzielung einer Echtzeitüberwachung ist die Kombination von WebSocket und JavaScript. In diesem Artikel wird die Anwendung von WebSocket und JavaScript in Echtzeitüberwachungssystemen vorgestellt, Codebeispiele gegeben und deren Implementierungsprinzipien ausführlich erläutert. 1. WebSocket-Technologie

Einführung in die Verwendung von JavaScript und WebSocket zur Implementierung eines Online-Bestellsystems in Echtzeit: Mit der Popularität des Internets und dem Fortschritt der Technologie haben immer mehr Restaurants damit begonnen, Online-Bestelldienste anzubieten. Um ein Echtzeit-Online-Bestellsystem zu implementieren, können wir JavaScript und WebSocket-Technologie verwenden. WebSocket ist ein Vollduplex-Kommunikationsprotokoll, das auf dem TCP-Protokoll basiert und eine bidirektionale Kommunikation zwischen Client und Server in Echtzeit realisieren kann. Im Echtzeit-Online-Bestellsystem, wenn der Benutzer Gerichte auswählt und eine Bestellung aufgibt

So implementieren Sie ein Online-Reservierungssystem mit WebSocket und JavaScript. Im heutigen digitalen Zeitalter müssen immer mehr Unternehmen und Dienste Online-Reservierungsfunktionen bereitstellen. Es ist von entscheidender Bedeutung, ein effizientes Online-Reservierungssystem in Echtzeit zu implementieren. In diesem Artikel wird erläutert, wie Sie mit WebSocket und JavaScript ein Online-Reservierungssystem implementieren, und es werden spezifische Codebeispiele bereitgestellt. 1. Was ist WebSocket? WebSocket ist eine Vollduplex-Methode für eine einzelne TCP-Verbindung.

JavaScript und WebSocket: Aufbau eines effizienten Echtzeit-Wettervorhersagesystems Einführung: Heutzutage ist die Genauigkeit von Wettervorhersagen für das tägliche Leben und die Entscheidungsfindung von großer Bedeutung. Mit der Weiterentwicklung der Technologie können wir genauere und zuverlässigere Wettervorhersagen liefern, indem wir Wetterdaten in Echtzeit erhalten. In diesem Artikel erfahren Sie, wie Sie mit JavaScript und WebSocket-Technologie ein effizientes Echtzeit-Wettervorhersagesystem aufbauen. In diesem Artikel wird der Implementierungsprozess anhand spezifischer Codebeispiele demonstriert. Wir

JavaScript-Tutorial: So erhalten Sie HTTP-Statuscode. Es sind spezifische Codebeispiele erforderlich. Vorwort: Bei der Webentwicklung ist häufig die Dateninteraktion mit dem Server erforderlich. Bei der Kommunikation mit dem Server müssen wir häufig den zurückgegebenen HTTP-Statuscode abrufen, um festzustellen, ob der Vorgang erfolgreich ist, und die entsprechende Verarbeitung basierend auf verschiedenen Statuscodes durchführen. In diesem Artikel erfahren Sie, wie Sie mit JavaScript HTTP-Statuscodes abrufen und einige praktische Codebeispiele bereitstellen. Verwenden von XMLHttpRequest

Verwendung: In JavaScript wird die Methode insertBefore() verwendet, um einen neuen Knoten in den DOM-Baum einzufügen. Diese Methode erfordert zwei Parameter: den neuen Knoten, der eingefügt werden soll, und den Referenzknoten (d. h. den Knoten, an dem der neue Knoten eingefügt wird).

JavaScript ist eine in der Webentwicklung weit verbreitete Programmiersprache, während WebSocket ein Netzwerkprotokoll für die Echtzeitkommunikation ist. Durch die Kombination der leistungsstarken Funktionen beider können wir ein effizientes Echtzeit-Bildverarbeitungssystem erstellen. In diesem Artikel wird erläutert, wie dieses System mithilfe von JavaScript und WebSocket implementiert wird, und es werden spezifische Codebeispiele bereitgestellt. Zunächst müssen wir die Anforderungen und Ziele des Echtzeit-Bildverarbeitungssystems klären. Angenommen, wir haben ein Kameragerät, das Bilddaten in Echtzeit sammeln kann
