Web Scraping mal ausprobieren-Golang-php.cn

Web Scraping mal ausprobieren

王林

Freigeben： 2024-09-10 14:30:30

Original

699 Leute haben es durchsucht

Erste Schritte

Zuerst müssen wir Go installiert haben, Anweisungen zum Herunterladen und Installieren von Go.

Wir erstellen einen neuen Ordner für das Projekt, wechseln in das Verzeichnis und führen den folgenden Befehl aus:

go mod init scraper

Nach dem Login kopieren

? Der Befehl „go mod init“ wird verwendet, um ein neues Go-Modul in dem Verzeichnis zu initialisieren, in dem es ausgeführt wird, und erstellt eine go.mod-Datei, um Codeabhängigkeiten zu verfolgen. Abhängigkeitsmanagement

Jetzt installieren wir Colibri:

go get github.com/gonzxlez/colibri

Nach dem Login kopieren

? Colibri ist ein Go-Paket, das es uns ermöglicht, strukturierte Daten im Web mithilfe eines in JSON definierten Regelsatzes zu crawlen und zu extrahieren. Repository

Extraktionsregeln

Wir definieren die Regeln, die Colibri verwendet, um die von uns benötigten Daten zu extrahieren. Dokumentation

Wir werden eine HTTP-Anfrage an die URL https://pkg.go.dev/search?q=xpath stellen, die die Ergebnisse einer Abfrage nach Go-Paketen im Zusammenhang mit xpath in Go-Paketen enthält.

Mit den in unserem Webbrowser enthaltenen Entwicklungstools können wir die HTML-Struktur der Seite überprüfen. Was sind die Browser-Entwicklungstools?

Web Scraping en Go

<div class="SearchSnippet">
   <div class="SearchSnippet-headerContainer">
      <h2>
         <a href="/github.com/antchfx/xpath" data-gtmc="search result" data-gtmv="0" data-test-id="snippet-title">
         xpath
         <span class="SearchSnippet-header-path">(github.com/antchfx/xpath)</span>
         </a>
      </h2>
   </div>
   <div class="SearchSnippet-infoLabel">
      <a href="/github.com/antchfx/xpath?tab=importedby" aria-label="Go to Imported By">
      <span class="go-textSubtle">Imported by </span><strong>143</strong>
      </a>
      <span class="go-textSubtle">|</span>
      <span class="go-textSubtle">
      <strong>v1.2.5</strong> published on <span data-test-id="snippet-published"><strong>Oct 26, 2023</strong></span>
      </span>
      <span class="go-textSubtle">|</span>
      <span data-test-id="snippet-license">
      <a href="/github.com/antchfx/xpath?tab=licenses" aria-label="Go to Licenses">
      MIT
      </a>
      </span>
   </div>
</div>

Nach dem Login kopieren

Fragment der HTML-Struktur, die ein Ergebnis der Abfrage darstellt.

Dann brauchen wir einen Selektor „Pakete“, der alle div-Elemente im HTML mit der Klasse SearchSnippet findet, aus diesen Elementen einen Selektor „ name“ übernimmt den Text des Elements a innerhalb eines Elements h2 und einen Selektor „path“ nimmt den Wert des Attributs href des Elements a innerhalb eines an h2 Element. Mit anderen Worten: „Name“ übernimmt den Namen des Go-Pakets und „Pfad“ den Pfad des Pakets :)

{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}

Nach dem Login kopieren

Methode: gibt die HTTP-Methode an (GET, POST, PUT, ...).
URL:URL der Anfrage.
Timeout:Timeout in Millisekunden für die HTTP-Anfrage.
Selektoren:Selektoren.
- „Pakete“: ist der Name des Selektors.
  - expr: Selektorausdruck.
  - all: gibt an, dass alle Elemente gefunden werden sollen, die dem Ausdruck entsprechen.
  - Typ: der Typ des Ausdrucks, in diesem Fall ein CSS-Selektor.
  - Selektoren: verschachtelte Selektoren.
    - „Name“ und „Pfad“ sind die Namen der Selektoren und ihre Werte sind Ausdrücke, in diesem Fall XPath-Ausdrücke.

Code in Go

Wir sind bereit, eine scraper.go-Datei zu erstellen, die erforderlichen Pakete zu importieren und die Hauptfunktion zu definieren:

package main

import (
    "encoding/json"
    "fmt"

    "github.com/gonzxlez/colibri"
    "github.com/gonzxlez/colibri/webextractor"
)

var rawRules = `{
    "method": "GET",
    "url":    "https://pkg.go.dev/search?q=xpath",
    "timeout": 10000,
    "selectors": {
        "packages": {
            "expr": "div.SearchSnippet",
            "all": true,
            "type": "css",
            "selectors": {
                "name": "//h2/a/text()",
                "path": "//h2/a/@href"
            }
        }
    }
}`

func main() {
    we, err := webextractor.New()
    if err != nil {
        panic(err)
    }

    var rules colibri.Rules
    err = json.Unmarshal([]byte(rawRules), &rules)
    if err != nil {
        panic(err)
    }

    output, err := we.Extract(&rules)
    if err != nil {
        panic(err)
    }

    fmt.Println("URL:", output.Response.URL())
    fmt.Println("Status code:", output.Response.StatusCode())
    fmt.Println("Content-Type", output.Response.Header().Get("Content-Type"))
    fmt.Println("Data:", output.Data)
}

Nach dem Login kopieren

? WebExtractor sind Standardschnittstellen für Colibri, mit denen Sie mit dem Crawlen oder Extrahieren von Daten im Web beginnen können.

Mithilfe der neuen Funktion von WebExtractor generieren wir eine Colibri-Struktur mit allem, was zum Starten der Datenextraktion erforderlich ist.

Dann konvertieren wir unsere Regeln in JSON in eine Regelstruktur und rufen die Extract-Methode auf, um die Regeln als Argumente zu senden.

Wir erhalten die Ausgabe und die URL der HTTP-Antwort, den HTTP-Statuscode, den Inhaltstyp der Antwort und die mit den Selektoren extrahierten Daten werden auf dem Bildschirm gedruckt. Weitere Informationen finden Sie in der Dokumentation zur Ausgabestruktur.

Wir führen den folgenden Befehl aus:

go mod tidy

Nach dem Login kopieren

? Der Befehl „go mod Tidy“ stellt sicher, dass die Abhängigkeiten in go.mod mit dem Quellcode des Moduls übereinstimmen.

Zuletzt kompilieren wir unseren Code und führen ihn in Go mit dem Befehl aus:

go run scraper.go

Nach dem Login kopieren

Abschluss

In diesem Beitrag haben wir gelernt, wie man Web Scraping in Go mit dem Colibri-Paket durchführt und Extraktionsregeln mit CSS- und XPath-Selektoren definiert. Colibri ist ein Tool für diejenigen, die die Webdatenerfassung in Go automatisieren möchten. Sein regelbasierter Ansatz und seine Benutzerfreundlichkeit machen es zu einer attraktiven Option für Entwickler aller Erfahrungsstufen.

Kurz gesagt ist Web Scraping in Go eine leistungsstarke und vielseitige Technik, mit der Informationen aus einer Vielzahl von Websites extrahiert werden können. Es ist wichtig zu betonen, dass Web Scraping auf ethische Weise durchgeführt werden muss, die Geschäftsbedingungen der Websites respektiert werden und eine Überlastung ihrer Server vermieden werden muss.

Das obige ist der detaillierte Inhalt vonWeb Scraping mal ausprobieren. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!