Heim Backend-Entwicklung Golang Wie schreibe ich einen Golang-Crawler?

Wie schreibe ich einen Golang-Crawler?

May 10, 2023 am 11:12 AM

Golang ist eine moderne Programmiersprache, die sich zum Schreiben effizienter und gleichzeitiger Webcrawler eignet. Die hohe Parallelitätsfunktion von Golang kann das Crawlen erheblich beschleunigen, und die Syntax ist prägnant und leicht zu erlernen und zu verstehen. In diesem Artikel wird ausführlich beschrieben, wie Sie mit Golang einen einfachen Webcrawler schreiben.

  1. Golang installieren

Zuerst müssen Sie Golang installieren. Sie können die Binärdateien des entsprechenden Betriebssystems von der offiziellen Website (https://golang.org/dl/) herunterladen und installieren. Nach der Installation müssen Sie Umgebungsvariablen festlegen. Unter Linux und Mac können Sie die Datei ~/.bashrc bearbeiten und am Ende der Datei Folgendes hinzufügen:

export GOPATH=$HOME/go
export PATH=$PATH:$GOPATH/bin

Unter Windows: Sie können die Umgebungsvariablen bearbeiten und GOPATH zu den Umgebungsvariablen hinzufügen und %GOPATH% zum PATH hinzufügen.

  1. Verwenden Sie Go-Module zum Verwalten von Abhängigkeiten

In Golang 1.13 und höher ist Go-Module offiziell als offizielles Abhängigkeitsmanagement-Tool anerkannt. Wir können es verwenden, um unsere Projektabhängigkeiten zu verwalten. Gehen Sie in das Stammverzeichnis des Projekts und führen Sie den folgenden Befehl aus:

go mod init Spider

erstellt eine go.mod-Datei, die Informationen über das Spider-Projekt enthält.

  1. Erstellen Sie einen HTTP-Client

Das Schreiben eines HTTP-Clients erfordert die Verwendung des net/http-Pakets, das mit Golang geliefert wird. Dieses Paket implementiert alle Details des HTTP-Protokolls, einschließlich der Analyse von HTTP-Anfragen und -Antworten.

Zuerst erstellen wir einen neuen HTTP-Client:

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}
Nach dem Login kopieren
Nach dem Login kopieren

}

Wir können diesen Client verwenden, um HTTP-GET-Anfragen zu senden:

func fetch( URL-String ) (Zeichenfolge, Fehler) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil
Nach dem Login kopieren
Nach dem Login kopieren

}

Die Abruffunktion gibt den Inhalt der angeforderten Webseite und alle Fehler zurück. Wir verwenden das Schlüsselwort defer, um sicherzustellen, dass der Antworttext geschlossen wird, wenn die Funktion zurückkehrt.

  1. HTML analysieren

Sobald wir den Quellcode der Webseite erfolgreich erhalten haben, müssen wir den HTML-Code analysieren, um die erforderlichen Informationen zu erhalten. Wir können die Standardpakete der Go-Sprache html/template (HTML-Vorlage) und html/parse (HTML-Parser) verwenden.

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...
Nach dem Login kopieren
Nach dem Login kopieren

}

Wir können die Funktion html.Parse verwenden, um den HTML-Quellcode zu analysieren und ihn als Baumstruktur zurückzugeben. Wir können die erforderlichen Informationen erhalten, indem wir diese Baumstruktur rekursiv durchlaufen.

  1. Reguläre Ausdrücke verwenden

Manchmal müssen wir bestimmte Informationen aus dem HTML-Quellcode extrahieren, beispielsweise einen URL-Link oder einen Text. In diesem Fall können wir reguläre Ausdrücke verwenden. Golang unterstützt reguläre Ausdrücke sehr gut und wir können das Paket regexp verwenden, um reguläre Ausdrücke zu implementieren.

Wenn wir beispielsweise alle Links eines Tags aus dem HTML-Quellcode extrahieren müssen, können wir den folgenden Code verwenden:

func extractLinks(htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links
Nach dem Login kopieren
Nach dem Login kopieren

}

regulärer Ausdruckhref="(.*?)"match all Verknüpfen Sie ein Array von Zeichenfolgen und geben Sie es zurück.

  1. Vollständiger Code

Das Folgende ist ein vollständiger Crawler-Code, der alle Tag-Links auf einer Website-Seite abruft:

package main

import (

"fmt"
"log"
"net/http"
"regexp"
"strings"
"time"

"golang.org/x/net/html"
Nach dem Login kopieren

)

const (

url = "https://example.com"
Nach dem Login kopieren

)

fu nc main() {

htmlContent, err := fetch(url)
if err != nil {
    log.Fatal(err)
}
links := extractLinks(htmlContent)
for _, link := range links {
    fmt.Println(link)
}
Nach dem Login kopieren

}

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}
Nach dem Login kopieren
Nach dem Login kopieren

}

func fetch(url string) (string, error) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil
Nach dem Login kopieren
Nach dem Login kopieren

}

func extractLinks( htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links
Nach dem Login kopieren
Nach dem Login kopieren

}

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...
Nach dem Login kopieren
Nach dem Login kopieren

}

Zusammenfassung

Die Verwendung von Golang zum Schreiben von Webcrawlern kann die Crawling-Geschwindigkeit erheblich verbessern, und die Verwendung einer leistungsstarken Sprache wie Golang To Durch das Schreiben von Crawler-Code können Sie eine höhere Wartbarkeit und Skalierbarkeit erreichen. In diesem Artikel wird beschrieben, wie Sie mit Golang einen einfachen Crawler schreiben. Ich hoffe, dieser Artikel kann Lesern helfen, die Webcrawler erlernen möchten, sowie Entwicklern, die Golang verwenden.

Das obige ist der detaillierte Inhalt vonWie schreibe ich einen Golang-Crawler?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Was sind die Schwachstellen von Debian Openensl Was sind die Schwachstellen von Debian Openensl Apr 02, 2025 am 07:30 AM

OpenSSL bietet als Open -Source -Bibliothek, die in der sicheren Kommunikation weit verbreitet sind, Verschlüsselungsalgorithmen, Tasten und Zertifikatverwaltungsfunktionen. In seiner historischen Version sind jedoch einige Sicherheitslücken bekannt, von denen einige äußerst schädlich sind. Dieser Artikel konzentriert sich auf gemeinsame Schwachstellen und Antwortmaßnahmen für OpenSSL in Debian -Systemen. DebianopensL Bekannte Schwachstellen: OpenSSL hat mehrere schwerwiegende Schwachstellen erlebt, wie z. Ein Angreifer kann diese Sicherheitsanfälligkeit für nicht autorisierte Lesen sensibler Informationen auf dem Server verwenden, einschließlich Verschlüsselungsschlüssel usw.

Wie verwenden Sie das PPROF -Tool, um die Go -Leistung zu analysieren? Wie verwenden Sie das PPROF -Tool, um die Go -Leistung zu analysieren? Mar 21, 2025 pm 06:37 PM

In dem Artikel wird erläutert, wie das PPROF -Tool zur Analyse der GO -Leistung verwendet wird, einschließlich der Aktivierung des Profils, des Sammelns von Daten und der Identifizierung gängiger Engpässe wie CPU- und Speicherprobleme.Character Count: 159

Wie schreibt man Unit -Tests in Go? Wie schreibt man Unit -Tests in Go? Mar 21, 2025 pm 06:34 PM

In dem Artikel werden Schreiben von Unit -Tests in GO erörtert, die Best Practices, Spottechniken und Tools für ein effizientes Testmanagement abdecken.

Welche Bibliotheken werden für die Operationen der schwimmenden Punktzahl in Go verwendet? Welche Bibliotheken werden für die Operationen der schwimmenden Punktzahl in Go verwendet? Apr 02, 2025 pm 02:06 PM

In der Bibliothek, die für den Betrieb der Schwimmpunktnummer in der GO-Sprache verwendet wird, wird die Genauigkeit sichergestellt, wie die Genauigkeit ...

Was ist das Problem mit Warteschlangen -Thread in Go's Crawler Colly? Was ist das Problem mit Warteschlangen -Thread in Go's Crawler Colly? Apr 02, 2025 pm 02:09 PM

Das Problem der Warteschlange Threading In Go Crawler Colly untersucht das Problem der Verwendung der Colly Crawler Library in Go -Sprache. Entwickler stoßen häufig auf Probleme mit Threads und Anfordern von Warteschlangen. � ...

Ist es vielversprechender, Java oder Golang von Front-End zu Back-End-Entwicklung zu verwandeln? Ist es vielversprechender, Java oder Golang von Front-End zu Back-End-Entwicklung zu verwandeln? Apr 02, 2025 am 09:12 AM

Backend Learning Path: Die Erkundungsreise von Front-End zu Back-End als Back-End-Anfänger, der sich von der Front-End-Entwicklung verwandelt, Sie haben bereits die Grundlage von Nodejs, ...

Was ist der Befehl go fmt und warum ist es wichtig? Was ist der Befehl go fmt und warum ist es wichtig? Mar 20, 2025 pm 04:21 PM

In dem Artikel wird der Befehl go fMT in Go -Programmierung erörtert, in dem Code formatiert werden, um offizielle Richtlinien für den Stil einzuhalten. Es zeigt die Bedeutung von GO FMT für die Aufrechterhaltung der Debatten mit Codekonsistenz, Lesbarkeit und Reduzierung von Stildebatten. Best Practices fo

PostgreSQL -Überwachungsmethode unter Debian PostgreSQL -Überwachungsmethode unter Debian Apr 02, 2025 am 07:27 AM

In diesem Artikel werden eine Vielzahl von Methoden und Tools eingeführt, um PostgreSQL -Datenbanken im Debian -System zu überwachen, um die Datenbankleistung vollständig zu erfassen. 1. verwenden Sie PostgreSQL, um die Überwachungsansicht zu erstellen. PostgreSQL selbst bietet mehrere Ansichten für die Überwachung von Datenbankaktivitäten: PG_STAT_ACTIVITY: Zeigt Datenbankaktivitäten in Echtzeit an, einschließlich Verbindungen, Abfragen, Transaktionen und anderen Informationen. PG_STAT_REPLIKATION: Monitore Replikationsstatus, insbesondere für Stream -Replikationscluster. PG_STAT_DATABASE: Bietet Datenbankstatistiken wie Datenbankgröße, Transaktionsausschüsse/Rollback -Zeiten und andere Schlüsselindikatoren. 2. Verwenden Sie das Log -Analyse -Tool PGBADG

See all articles