Heim Datenbank Redis Erstellen Sie einen einfachen Webcrawler mit Redis und JavaScript: So crawlen Sie Daten schnell

Erstellen Sie einen einfachen Webcrawler mit Redis und JavaScript: So crawlen Sie Daten schnell

Jul 30, 2023 am 08:37 AM
javascript redis 网络爬虫

Erstellen Sie einen einfachen Webcrawler mit Redis und JavaScript: So crawlen Sie schnell Daten

Einführung:
Ein Webcrawler ist ein Programmtool, das Informationen aus dem Internet abruft. Es kann automatisch auf Webseiten zugreifen und die darin enthaltenen Daten analysieren. Mithilfe von Webcrawlern können wir große Datenmengen schnell crawlen, um Datenanalysen und Geschäftsentscheidungen zu unterstützen. In diesem Artikel wird erläutert, wie Sie mit Redis und JavaScript einen einfachen Webcrawler erstellen und wie Sie Daten schnell crawlen.

  1. Umgebungsvorbereitung
    Bevor wir beginnen, müssen wir die folgende Umgebung vorbereiten:
  2. Redis: Wird als Aufgabenplaner und Datenspeicher des Crawlers verwendet.
  3. Node.js: JavaScript-Code ausführen.
  4. Cheerio: Eine Bibliothek zum Parsen von HTML-Seiten.
  5. Crawler-Architekturdesign
    Unser Crawler übernimmt eine verteilte Architektur und ist in zwei Teile unterteilt: Taskplaner und Crawler-Knoten.
  • Aufgabenplaner: Verantwortlich für das Hinzufügen von URLs, die gecrawlt werden sollen, zur Redis-Warteschlange und für die Durchführung von Deduplizierung und Prioritätseinstellungen nach Bedarf.
  • Crawler-Knoten: Verantwortlich für das Abrufen der zu crawlenden URL aus der Redis-Warteschlange, das Parsen der Seite, das Extrahieren von Daten und das Speichern in Redis.
  1. Codebeispiel für den Aufgabenplaner
    Das Codebeispiel des Aufgabenplaners lautet wie folgt:
const redis = require('redis');
const client = redis.createClient();

// 添加待抓取的URL到队列
const enqueueUrl = (url, priority = 0) => {
  client.zadd('urls', priority, url);
}

// 从队列中获取待抓取的URL
const dequeueUrl = () => {
  return new Promise((resolve, reject) => {
    client.zrange('urls', 0, 0, (err, urls) => {
      if (err) reject(err);
      else resolve(urls[0]);
    })
  })
}

// 判断URL是否已经被抓取过
const isUrlVisited = (url) => {
  return new Promise((resolve, reject) => {
    client.sismember('visited_urls', url, (err, result) => {
      if (err) reject(err);
      else resolve(!!result);
    })
  })
}

// 将URL标记为已经被抓取过
const markUrlVisited = (url) => {
  client.sadd('visited_urls', url);
}
Nach dem Login kopieren

Im obigen Code verwenden wir die geordnete Sammlung und die Sammlungsdatenstruktur von Redis, geordnete Sammlung urls</ code> ist Wird zum Speichern von zu crawlenden URLs verwendet, und die Sammlung <code>visited_urls wird zum Speichern von gecrawlten URLs verwendet. urls用于存储待抓取的URL,集合visited_urls用于存储已经被抓取过的URL。

  1. 爬虫节点代码示例
    爬虫节点的代码示例如下:
const request = require('request');
const cheerio = require('cheerio');

// 从指定的URL中解析数据
const parseData = (url) => {
  return new Promise((resolve, reject) => {
    request(url, (error, response, body) => {
      if (error) reject(error);
      else {
        const $ = cheerio.load(body);
        // 在这里对页面进行解析,并提取数据
        // ...

        resolve(data);
      }
    })
  })
}

// 爬虫节点的主逻辑
const crawler = async () => {
  while (true) {
    const url = await dequeueUrl();
    if (!url) break;

    if (await isUrlVisited(url)) continue;

    try {
      const data = await parseData(url);

      // 在这里将数据存储到Redis中
      // ...

      markUrlVisited(url);
    } catch (error) {
      console.error(`Failed to parse data from ${url}`, error);
    }
  }
}

crawler();
Nach dem Login kopieren

在上面的代码中,我们使用了request库发送HTTP请求,使用cheerio库解析页面。在parseData函数中,我们可以根据具体的页面结构和数据提取需求,使用cheerio

    Crawler-Knoten-Codebeispiel

    Das Codebeispiel des Crawler-Knotens lautet wie folgt:

    rrreee🎜Im obigen Code verwenden wir die request-Bibliothek zum Senden von HTTP Anfragen, verwenden cheerio-Bibliothek analysiert die Seite. In der Funktion parseData können wir die Bibliothek cheerio verwenden, um die Seite zu analysieren und Daten entsprechend der spezifischen Seitenstruktur und Datenextraktionsanforderungen zu extrahieren. In der Hauptlogik des Crawler-Knotens führen wir eine Schleife durch, um die zu crawlende URL aus der Redis-Warteschlange abzurufen und die Seitenanalyse und Datenspeicherung durchzuführen. 🎜🎜Zusammenfassung: 🎜Durch die Nutzung von Redis und JavaScript können wir einen einfachen, aber leistungsstarken Webcrawler erstellen, um schnell große Datenmengen zu crawlen. Wir können den Taskplaner verwenden, um die zu crawlende URL zur Redis-Warteschlange hinzuzufügen und die URL aus der Warteschlange im Crawler-Knoten für die Seitenanalyse und Datenspeicherung abzurufen. Diese verteilte Architektur kann die Crawling-Effizienz verbessern und durch die Datenspeicherung und Hochleistungsfunktionen von Redis können große Datenmengen problemlos verarbeitet werden. 🎜

Das obige ist der detaillierte Inhalt vonErstellen Sie einen einfachen Webcrawler mit Redis und JavaScript: So crawlen Sie Daten schnell. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

So erstellen Sie den Redis -Clustermodus So erstellen Sie den Redis -Clustermodus Apr 10, 2025 pm 10:15 PM

Der Redis -Cluster -Modus bietet Redis -Instanzen durch Sharding, die Skalierbarkeit und Verfügbarkeit verbessert. Die Bauschritte sind wie folgt: Erstellen Sie ungerade Redis -Instanzen mit verschiedenen Ports; Erstellen Sie 3 Sentinel -Instanzen, Monitor -Redis -Instanzen und Failover; Konfigurieren von Sentinel -Konfigurationsdateien, Informationen zur Überwachung von Redis -Instanzinformationen und Failover -Einstellungen hinzufügen. Konfigurieren von Redis -Instanzkonfigurationsdateien, aktivieren Sie den Cluster -Modus und geben Sie den Cluster -Informationsdateipfad an. Erstellen Sie die Datei nodes.conf, die Informationen zu jeder Redis -Instanz enthält. Starten Sie den Cluster, führen Sie den Befehl erstellen aus, um einen Cluster zu erstellen und die Anzahl der Replikate anzugeben. Melden Sie sich im Cluster an, um den Befehl cluster info auszuführen, um den Clusterstatus zu überprüfen. machen

So löschen Sie Redis -Daten So löschen Sie Redis -Daten Apr 10, 2025 pm 10:06 PM

So löschen Sie Redis -Daten: Verwenden Sie den Befehl Flushall, um alle Schlüsselwerte zu löschen. Verwenden Sie den Befehl flushdb, um den Schlüsselwert der aktuell ausgewählten Datenbank zu löschen. Verwenden Sie SELECT, um Datenbanken zu wechseln, und löschen Sie dann FlushDB, um mehrere Datenbanken zu löschen. Verwenden Sie den Befehl del, um einen bestimmten Schlüssel zu löschen. Verwenden Sie das Redis-Cli-Tool, um die Daten zu löschen.

So lesen Sie Redis -Warteschlange So lesen Sie Redis -Warteschlange Apr 10, 2025 pm 10:12 PM

Um eine Warteschlange aus Redis zu lesen, müssen Sie den Warteschlangenname erhalten, die Elemente mit dem Befehl LPOP lesen und die leere Warteschlange verarbeiten. Die spezifischen Schritte sind wie folgt: Holen Sie sich den Warteschlangenname: Nennen Sie ihn mit dem Präfix von "Warteschlange:" wie "Warteschlangen: My-Queue". Verwenden Sie den Befehl LPOP: Wischen Sie das Element aus dem Kopf der Warteschlange aus und geben Sie seinen Wert zurück, z. B. die LPOP-Warteschlange: my-queue. Verarbeitung leerer Warteschlangen: Wenn die Warteschlange leer ist, gibt LPOP NIL zurück, und Sie können überprüfen, ob die Warteschlange existiert, bevor Sie das Element lesen.

So verwenden Sie den Befehl Redis So verwenden Sie den Befehl Redis Apr 10, 2025 pm 08:45 PM

Die Verwendung der REDIS -Anweisung erfordert die folgenden Schritte: Öffnen Sie den Redis -Client. Geben Sie den Befehl ein (Verbschlüsselwert). Bietet die erforderlichen Parameter (variiert von der Anweisung bis zur Anweisung). Drücken Sie die Eingabetaste, um den Befehl auszuführen. Redis gibt eine Antwort zurück, die das Ergebnis der Operation anzeigt (normalerweise in Ordnung oder -err).

So verwenden Sie Redis Lock So verwenden Sie Redis Lock Apr 10, 2025 pm 08:39 PM

Um die Operationen zu sperren, muss die Sperre durch den Befehl setNX erfasst werden und dann den Befehl Ablauf verwenden, um die Ablaufzeit festzulegen. Die spezifischen Schritte sind: (1) Verwenden Sie den Befehl setNX, um zu versuchen, ein Schlüsselwertpaar festzulegen; (2) Verwenden Sie den Befehl Ablauf, um die Ablaufzeit für die Sperre festzulegen. (3) Verwenden Sie den Befehl Del, um die Sperre zu löschen, wenn die Sperre nicht mehr benötigt wird.

So lesen Sie den Quellcode von Redis So lesen Sie den Quellcode von Redis Apr 10, 2025 pm 08:27 PM

Der beste Weg, um Redis -Quellcode zu verstehen, besteht darin, Schritt für Schritt zu gehen: Machen Sie sich mit den Grundlagen von Redis vertraut. Wählen Sie ein bestimmtes Modul oder eine bestimmte Funktion als Ausgangspunkt. Beginnen Sie mit dem Einstiegspunkt des Moduls oder der Funktion und sehen Sie sich die Codezeile nach Zeile an. Zeigen Sie den Code über die Funktionsaufrufkette an. Kennen Sie die von Redis verwendeten Datenstrukturen. Identifizieren Sie den von Redis verwendeten Algorithmus.

So verwenden Sie die Befehlszeile der Redis So verwenden Sie die Befehlszeile der Redis Apr 10, 2025 pm 10:18 PM

Verwenden Sie das Redis-Befehlszeilen-Tool (REDIS-CLI), um Redis in folgenden Schritten zu verwalten und zu betreiben: Stellen Sie die Adresse und den Port an, um die Adresse und den Port zu stellen. Senden Sie Befehle mit dem Befehlsnamen und den Parametern an den Server. Verwenden Sie den Befehl Hilfe, um Hilfeinformationen für einen bestimmten Befehl anzuzeigen. Verwenden Sie den Befehl zum Beenden, um das Befehlszeilenwerkzeug zu beenden.

So lösen Sie Datenverlust mit Redis So lösen Sie Datenverlust mit Redis Apr 10, 2025 pm 08:24 PM

Zu den Ursachen für Datenverluste gehören Speicherausfälle, Stromausfälle, menschliche Fehler und Hardwarefehler. Die Lösungen sind: 1. Speichern Sie Daten auf Festplatten mit RDB oder AOF Persistenz; 2. Kopieren Sie auf mehrere Server, um eine hohe Verfügbarkeit zu erhalten. 3. Ha mit Redis Sentinel oder Redis Cluster; 4. Erstellen Sie Schnappschüsse, um Daten zu sichern. 5. Implementieren Sie Best Practices wie Persistenz, Replikation, Schnappschüsse, Überwachung und Sicherheitsmaßnahmen.

See all articles