Erstellen einer Websuchmaschine in Go mit Elasticsearch-Golang-php.cn

Heim

Backend-Entwicklung

Golang

Erstellen einer Websuchmaschine in Go mit Elasticsearch

Susan Sarandon

Nov 05, 2024 am 10:33 AM

Websuchmaschinen sind unerlässlich, um große Mengen an Online-Informationen zu indizieren und sie in Millisekunden zugänglich zu machen. In diesem Projekt habe ich eine Suchmaschine in Go (Golang) namens RelaxSearch erstellt. Es kombiniert Web Scraping, regelmäßige Datenindizierung und Suchfunktionen durch die Integration mit Elasticsearch – einer leistungsstarken Such- und Analyse-Engine. In diesem Blog führe ich Sie durch die Hauptkomponenten von RelaxSearch, die Architektur und wie es Daten für eine schnelle, schlüsselwortbasierte Suche effizient auswertet und indiziert.

Übersicht über RelaxSearch

RelaxSearch basiert auf zwei Hauptmodulen:

RelaxEngine: Ein Web-Scraper, der auf Cron-Jobs basiert und regelmäßig bestimmte Websites crawlt, Inhalte extrahiert und in Elasticsearch indiziert.
RelaxWeb: Ein RESTful-API-Server, der es Benutzern ermöglicht, die indizierten Daten zu durchsuchen und Paginierung, Filterung und Inhaltshervorhebung für benutzerfreundliche Antworten bereitzustellen.

Projektmotivation

Das Erstellen eines Suchmaschinenprojekts von Grund auf ist eine großartige Möglichkeit, Web Scraping, Datenindizierung und effiziente Suchtechniken zu verstehen. Ich wollte eine einfache, aber funktionale Suchmaschine mit schnellem Datenabruf und einfacher Erweiterbarkeit erstellen und dabei die Effizienz von Go und die leistungsstarke Indizierung von Elasticsearch nutzen.

Hauptmerkmale

Automatisiertes Crawling: Mithilfe von Cron-Jobs kann RelaxEngine in regelmäßigen Abständen ausgeführt werden, Daten extrahieren und in Elasticsearch speichern.
Volltextsuche: RelaxWeb bietet eine Volltextsuchfunktion, die Inhalte nach Schlüsselwörtern indiziert und so das Auffinden beschleunigt.
REST-API: Zugriff über eine RESTful-API mit Parametern für Paginierung, Datumsfilterung und Inhaltshervorhebung.
Datenspeicherung: Der indizierte Inhalt wird in Elasticsearch gespeichert, was skalierbare und reaktionsschnelle Abfragen ermöglicht.

Architektur von RelaxSearch

1. RelaxEngine (Web Scraper und Indexer)

RelaxEngine ist ein in Go geschriebener Web-Scraper, der durch Webseiten navigiert und Inhalte extrahiert und speichert. Es wird als Cron-Job ausgeführt und kann daher in regelmäßigen Abständen (z. B. alle 30 Minuten) ausgeführt werden, um den Index mit den neuesten Webdaten auf dem neuesten Stand zu halten. So funktioniert es:

Seed-URL: RelaxEngine beginnt mit dem Scraping von einer angegebenen Seed-URL und folgt dann den Links innerhalb der Website bis zu einer konfigurierbaren Tiefe.
Inhaltsanalyse: Für jede Seite werden Titel, Beschreibungen und Schlüsselwörter extrahiert und so ein informativer Datensatz erstellt.
Indizierung in Elasticsearch: Der gescrapte Inhalt wird in Elasticsearch indiziert und ist für die Volltextsuche bereit. Die Daten jeder Seite werden mit einer eindeutigen Kennung, einem Titel, einer Beschreibung und anderen Metadaten gespeichert.

2. RelaxWeb (Such-API)

RelaxWeb bietet einen RESTful-API-Endpunkt, der das Abfragen und Abrufen von in Elasticsearch gespeicherten Daten erleichtert. Die API akzeptiert mehrere Parameter wie Schlüsselwörter, Paginierung und Datumsfilterung und gibt relevante Inhalte im JSON-Format zurück.

API-Endpunkt: /search
Abfrageparameter:
- Stichwort: Hauptsuchbegriff.
- von und Größe: Paginierungskontrolle.
- dateRangeStart und dateRangeEnd: Ergebnisse basierend auf dem Zeitstempel der Daten filtern.

Building a Web Search Engine in Go with Elasticsearch

Schlüsselkomponenten und Codeausschnitte

Im Folgenden finden Sie einige wichtige Komponenten und Codeauszüge von RelaxSearch, um die Funktionsweise zu veranschaulichen.

Haupt-Go-Code für RelaxEngine

Die Kernfunktionalität befindet sich in der Datei main.go, in der RelaxEngine mithilfe von Gocron einen Scheduler zur Verwaltung von Cron-Jobs initialisiert, den Elasticsearch-Client einrichtet und mit dem Crawlen von der Seed-URL aus beginnt.

func main() {
    cfg := config.LoadConfig()
    esClient := crawler.NewElasticsearchClient(cfg.ElasticsearchURL)
    c := crawler.NewCrawler(cfg.DepthLimit, 5)
    seedURL := "https://example.com/" // Replace with starting URL

    s := gocron.NewScheduler(time.UTC)
    s.Every(30).Minutes().Do(func() {
        go c.StartCrawling(seedURL, 0, esClient)
    })
    s.StartBlocking()
}

Nach dem Login kopieren

Crawler- und Indexierungslogik

Die Datei crawler.go verarbeitet Webseitenanfragen, extrahiert Inhalte und indiziert sie. Mithilfe des Elastic-Pakets wird jede gescrollte Seite in Elasticsearch gespeichert.

func (c *Crawler) StartCrawling(pageURL string, depth int, esClient *elastic.Client) {
    if depth > c.DepthLimit || c.isVisited(pageURL) {
        return
    }
    c.markVisited(pageURL)
    links, title, content, description, err := c.fetchAndParsePage(pageURL)
    if err == nil {
        pageData := PageData{URL: pageURL, Title: title, Content: content, Description: description}
        IndexPageData(esClient, pageData)
    }
    for _, link := range links {
        c.StartCrawling(link, depth+1, esClient)
    }
}

Nach dem Login kopieren

Suchen Sie nach API-Code in RelaxWeb

Im Relaxweb-Dienst stellt ein API-Endpunkt Volltextsuchfunktionen bereit. Der Endpunkt /search empfängt Anfragen und Abfragen von Elasticsearch und gibt relevante Inhalte basierend auf Schlüsselwörtern zurück.

func searchHandler(w http.ResponseWriter, r *http.Request) {
    keyword := r.URL.Query().Get("keyword")
    results := queryElasticsearch(keyword)
    json.NewEncoder(w).Encode(results)
}

Nach dem Login kopieren

RelaxSearch einrichten

Klonen Sie das Repository

   git clone https://github.com/Ravikisha/RelaxSearch.git
   cd RelaxSearch

Nach dem Login kopieren

Konfiguration

Aktualisieren Sie .env-Dateien für RelaxEngine und RelaxWeb mit Elasticsearch-Anmeldeinformationen.
Mit Docker ausführen

RelaxSearch verwendet Docker für eine einfache Einrichtung. Führen Sie einfach aus:

   docker-compose up --build

Nach dem Login kopieren

Building a Web Search Engine in Go with Elasticsearch

Herausforderungen und Verbesserungen

Skalierbarkeit: Elasticsearch lässt sich gut skalieren, aber die Handhabung von umfangreichem Scraping mit zahlreichen Links erfordert Optimierungen für größere Bereitstellungen.
Robuste Fehlerbehandlung: Eine Verbesserung der Fehlerbehandlung und der Wiederholungsmechanismen würde die Widerstandsfähigkeit erhöhen.

Abschluss

RelaxSearch ist eine lehrreiche und praktische Demonstration einer einfachen Suchmaschine. Obwohl es sich noch um einen Prototyp handelt, hat dieses Projekt entscheidend zum Verständnis der Grundlagen von Web Scraping, Volltextsuche und effizienter Datenindizierung mit Go und Elasticsearch beigetragen. Es eröffnet Möglichkeiten für Verbesserungen und praktische Anwendungen in skalierbaren Umgebungen.

Erkunden Sie das GitHub-Repository, um RelaxSearch selbst auszuprobieren!

Das obige ist der detaillierte Inhalt vonErstellen einer Websuchmaschine in Go mit Elasticsearch. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Wie kann ich KB5055612 in Windows 10 nicht installieren?

4 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

Nordhold: Fusionssystem, erklärt

4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1672

CakePHP-Tutorial

1428

Laravel-Tutorial

1333

PHP-Tutorial

1277

C#-Tutorial

1257

Related knowledge

Golang gegen Python: Leistung und Skalierbarkeit Apr 19, 2025 am 12:18 AM

Golang ist in Bezug auf Leistung und Skalierbarkeit besser als Python. 1) Golangs Kompilierungseigenschaften und effizientes Parallelitätsmodell machen es in hohen Parallelitätsszenarien gut ab. 2) Python wird als interpretierte Sprache langsam ausgeführt, kann aber die Leistung durch Tools wie Cython optimieren.

Golang und C: Parallelität gegen Rohgeschwindigkeit Apr 21, 2025 am 12:16 AM

Golang ist in Gleichzeitigkeit besser als C, während C bei Rohgeschwindigkeit besser als Golang ist. 1) Golang erreicht durch Goroutine und Kanal eine effiziente Parallelität, die zum Umgang mit einer großen Anzahl von gleichzeitigen Aufgaben geeignet ist. 2) C über Compiler -Optimierung und Standardbibliothek bietet es eine hohe Leistung in der Nähe der Hardware, die für Anwendungen geeignet ist, die eine extreme Optimierung erfordern.

Erste Schritte mit Go: Ein Anfängerführer Apr 26, 2025 am 12:21 AM

GoisidealforBeginersandSuitableforCloudandNetWorkServicesDuetoitsSimplicity, Effizienz und Konsumfeaturen.1) InstallgoFromTheofficialwebSiteAnDverifyWith'goversion'.2) CreateAneDrunyourFirstProgramwith'gorunhello.go.go.go.

Golang gegen C: Leistung und Geschwindigkeitsvergleich Apr 21, 2025 am 12:13 AM

Golang ist für schnelle Entwicklung und gleichzeitige Szenarien geeignet, und C ist für Szenarien geeignet, in denen extreme Leistung und Kontrolle auf niedriger Ebene erforderlich sind. 1) Golang verbessert die Leistung durch Müllsammlung und Parallelitätsmechanismen und eignet sich für die Entwicklung von Webdiensten mit hoher Konsequenz. 2) C erreicht die endgültige Leistung durch das manuelle Speicherverwaltung und die Compiler -Optimierung und eignet sich für eingebettete Systementwicklung.

Golang gegen Python: Schlüsselunterschiede und Ähnlichkeiten Apr 17, 2025 am 12:15 AM

Golang und Python haben jeweils ihre eigenen Vorteile: Golang ist für hohe Leistung und gleichzeitige Programmierung geeignet, während Python für Datenwissenschaft und Webentwicklung geeignet ist. Golang ist bekannt für sein Parallelitätsmodell und seine effiziente Leistung, während Python für sein Ökosystem für die kurze Syntax und sein reiches Bibliothek bekannt ist.

Golang und C: Die Kompromisse bei der Leistung Apr 17, 2025 am 12:18 AM

Die Leistungsunterschiede zwischen Golang und C spiegeln sich hauptsächlich in der Speicherverwaltung, der Kompilierungsoptimierung und der Laufzeiteffizienz wider. 1) Golangs Müllsammlung Mechanismus ist praktisch, kann jedoch die Leistung beeinflussen.

Das Performance -Rennen: Golang gegen C. Apr 16, 2025 am 12:07 AM

Golang und C haben jeweils ihre eigenen Vorteile bei Leistungswettbewerben: 1) Golang ist für eine hohe Parallelität und schnelle Entwicklung geeignet, und 2) C bietet eine höhere Leistung und eine feinkörnige Kontrolle. Die Auswahl sollte auf Projektanforderungen und Teamtechnologie -Stack basieren.

Golang gegen Python: Die Vor- und Nachteile Apr 21, 2025 am 12:17 AM

GolangissidealforbuildingsCalablesSystemduetoitseffizienz und Konsumverkehr, whilepythonexcelsinquickScriptingandDataanalyseduetoitssimplication und VacevastEcosystem.golangsDesineScouragesCouragescournations, tadelcodedeanDitsGoroutaTinoutgoroutaTinoutgoroutaTinoutsGoroutinesGoroutinesGoroutsGoroutins, t

See all articles