Web クローラー開発に Go 言語を使用するにはどうすればよいですか?-Golang-php.cn

Web クローラー開発に Go 言語を使用するにはどうすればよいですか?

PHPz

リリース： 2023-06-10 15:09:08

オリジナル

1269 人が閲覧しました

インターネットの発展に伴い、情報は爆発的に増加し、ネットワークデータを自動的に取得する手段としての Web クローラーは、この情報化時代においてますます重要になっています。

その中でも、Go 言語は軽量で効率的なプログラミング言語として、Web クローラー開発においても大きな利用価値があります。次に、Web クローラー開発に Go 言語を使用する方法を詳しく紹介します。

1. Go 言語の利点

他のプログラミング言語と比較して、Go 言語には次のような利点があります:

優れたパフォーマンス: Go 言語の本来の目的は多数のネットワークタスクを効率的かつ同時に処理するための同時実行性とメモリ管理機能は、ほとんどのプログラミング言語よりも強力です。
シンプルな構文: Go 言語の構文は比較的シンプルで理解しやすく、学習の敷居は比較的低いです。
高い信頼性: Go 言語はインターネット企業で広く使用されており、長期にわたる検証と使用により、その安定性と信頼性が証明されています。
クロスプラットフォーム: Go 言語は豊富な標準ライブラリとツールを提供し、プラットフォーム間で実行でき、多くのオペレーティングシステムをサポートします。

上記の利点に基づいて、Go 言語は Web クローラー開発にとって重要な言語の 1 つになりました。

2. クローラーツールとライブラリの選択

Web クローラーを開発する前に、いくつかの一般的なクローラーツールとライブラリを理解する必要があります。

1. クローラーフレームワーク

クローラーフレームワークは、シンプルなインターフェイスと拡張性を提供するカプセル化されたクローラーツールで、クローラーの作成を容易にします。一般的なクローラーフレームワークには、次のようなものがあります。

#PuerkitoBio/goquery: HTML および XML ドキュメントを処理するための Go ライブラリ。

Colly: 非同期リクエストと分散クロールをサポートする柔軟な Web クローラーフレームワーク。
Gocolly/colly: Colly 1.0 をベースとした拡張改良版。
Gocrawl: 深さ優先と幅優先をサポートする、シンプルで使いやすい Web クローラーフレームワーク。
Teleport: URL ベースのクローラーと親ノードベースのクローラーの両方をサポートするマルチスレッドクローラーフレームワーク。
2. HTTP クライアント

Go 言語が提供する HTTP ライブラリは非常にシンプルで使いやすいです。一般的な HTTP クライアントライブラリは次のとおりです:

Go のown net/http client

unrolled/utl
PuekitoBio/goquery
Google の json
以下は Go です組み込みの net/ http クライアントを例として詳細を説明します

3. ケース分析

1. Web コンテンツをキャプチャし、結果を保存します

package main

import (
    "fmt"
    "io/ioutil"
    "log"
    "net/http"
)

func main() {
    resp, err := http.Get("https://www.baidu.com")
    if err != nil {
        log.Fatal(err)
    }
    defer resp.Body.Close()

    body, err := ioutil.ReadAll(resp.Body)
    if err != nil {
        log.Fatal(err)
    }

    fmt.Println(string(body))
}

ログイン後にコピー

上記のコードは最も単純なクローラですコード実装。Baidu のホームページの HTML コンテンツをキャプチャし、結果を端末に出力します。

2. Web ページコンテンツの正規表現解析

package main

import (
    "fmt"
    "io/ioutil"
    "log"
    "net/http"
    "regexp"
)

func main() {
    resp, err := http.Get("https://www.baidu.com")
    if err != nil {
        log.Fatal(err)
    }
    defer resp.Body.Close()

    body, err := ioutil.ReadAll(resp.Body)
    if err != nil {
        log.Fatal(err)
    }

    re := regexp.MustCompile(`href="(.*?)"`)
    result := re.FindAllStringSubmatch(string(body), -1)

    for _, v := range result {
        fmt.Println(v[1])
    }
}

ログイン後にコピー

上記のコードは、Baidu ホームページの HTML コンテンツ内のすべてのリンクアドレスの抽出を実装し、端末に出力します。

3. Web ページの同時クロール

package main

import (
    "fmt"
    "io/ioutil"
    "log"
    "net/http"
)

func fetch(url string, ch chan<- string) {
    resp, err := http.Get(url)
    if err != nil {
        log.Fatal(err)
    }
    defer resp.Body.Close()

    body, err := ioutil.ReadAll(resp.Body)
    if err != nil {
        log.Fatal(err)
    }

    ch <- fmt.Sprintf("%s %d", url, len(body))
}

func main() {
    urls := []string{
        "https://www.baidu.com",
        "https://www.sina.com",
        "https://www.qq.com",
    }

    ch := make(chan string)
    for _, url := range urls {
        go fetch(url, ch)
    }

    for range urls {
        fmt.Println(<-ch)
    }
}

ログイン後にコピー