ホームページ バックエンド開発 Golang Golang クローラーの書き方

Golang クローラーの書き方

May 10, 2023 am 11:12 AM

Golang は、効率的で同時実行可能な Web クローラーの作成に適した最新のプログラミング言語です。 Golang の高い同時実行機能によりクロールが大幅に高速化され、その構文は簡潔で学習と理解が容易です。この記事では、Golangを使った簡単なWebクローラーの書き方を詳しく紹介します。

  1. Golang のインストール

まず、Golang をインストールする必要があります。公式 Web サイト (https://golang.org/dl/) から、対応するオペレーティング システムのバイナリ ファイルをダウンロードしてインストールできます。インストール後、環境変数を設定する必要があります。 Linux および Mac では、~/.bashrc ファイルを編集して、ファイルの最後に次の行を追加できます:

export GOPATH=$HOME/go
export PATH=$PATH:$GOPATH/ bin

Windows では、環境変数を編集し、GOPATH を環境変数に追加し、%GOPATH% を PATH に追加できます。

  1. Go Modules を使用して依存関係を管理する

Golang 1.13 以降では、Go Modules が公式の依存関係管理ツールとして正式に認められています。これを使用してプロジェクトの依存関係を管理できます。プロジェクトのルート ディレクトリを入力し、次のコマンドを実行します。

go mod init Spider

は、スパイダー プロジェクトに関する情報を含む go.mod ファイルを作成します。

  1. HTTP クライアントの構築

HTTP クライアントを作成するには、Golang に付属の net/http パッケージを使用する必要があります。このパッケージは、HTTP リクエストとレスポンスの解析を含む、HTTP プロトコルの詳細をすべて実装します。

まず、新しい HTTP クライアントを作成します。

func newHTTPClient(timeout time.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}
ログイン後にコピー
ログイン後にコピー

}

このクライアントを使用して HTTP GET リクエストを送信します:

func fetch(url string) (string, error) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil
ログイン後にコピー
ログイン後にコピー

}

fetch 関数は、要求された Web を返します。ページのコンテンツとエラー。 defer キーワードを使用して、関数が返されたときに応答本文が確実に閉じられるようにします。

  1. HTML の解析

Web ページのソース コードを正常に取得したら、HTML を解析して必要な情報を取得する必要があります。 Go 言語の標準パッケージである html/template (HTML テンプレート) と html/parse (HTML パーサー) を使用できます。

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...
ログイン後にコピー
ログイン後にコピー

}

html.Parse 関数を使用して HTML ソース コードを解析し、ツリー構造として返すことができます。このツリー構造を再帰的にたどることで、必要な情報を取得できます。

  1. 正規表現の使用

URL リンクやテキストなど、HTML ソース コードから特定の情報を抽出する必要がある場合があります。この場合、正規表現を使用できます。 Golang は正規表現を非常に適切にサポートしており、正規表現を実装するために regexp パッケージを使用できます。

たとえば、HTML ソース コードからすべての a タグのリンクを抽出する必要がある場合は、次のコードを使用できます:

func extractLinks(htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links
ログイン後にコピー
ログイン後にコピー

}

正規表現href="(.*?)" すべてのリンクと一致し、文字列配列を返します。

  1. 完全なコード

以下は、Web サイト ページ上のすべてのタグ リンクを取得する完全なクローラー コードです:

package main

import (

"fmt"
"log"
"net/http"
"regexp"
"strings"
"time"

"golang.org/x/net/html"
ログイン後にコピー

)

const (

url = "https://example.com"
ログイン後にコピー

)

func main() {

htmlContent, err := fetch(url)
if err != nil {
    log.Fatal(err)
}
links := extractLinks(htmlContent)
for _, link := range links {
    fmt.Println(link)
}
ログイン後にコピー

}

func newHTTPClient(タイムアウト時間.Duration) *http.Client {

return &http.Client{
    Timeout: timeout,
}
ログイン後にコピー
ログイン後にコピー

}

func fetch(url string) (string, error) {

client := newHTTPClient(time.Second * 5)
resp, err := client.Get(url)
if err != nil {
    return "", err
}
defer resp.Body.Close()
if resp.StatusCode != http.StatusOK {
    return "", fmt.Errorf("status code error: %d %s", resp.StatusCode, resp.Status)
}
bodyBytes, _ := ioutil.ReadAll(resp.Body)
return string(bodyBytes), nil
ログイン後にコピー
ログイン後にコピー

}

func extractLinks(htmlContent string) []string {

linkRegex := regexp.MustCompile(`href="(.*?)"`)
matches := linkRegex.FindAllStringSubmatch(htmlContent, -1)
var links []string
for _, match := range matches {
    links = append(links, match[1])
}
return links
ログイン後にコピー
ログイン後にコピー

}

func parse(htmlContent string) {

doc, err := html.Parse(strings.NewReader(htmlContent))
if err != nil {
    log.Fatal(err)
}
// Do something with doc...
ログイン後にコピー
ログイン後にコピー

}

概要

Golang を使用して Web クローラーを作成すると、クロール速度が大幅に向上します。また、Golang のような強力な言語を使用してクローラー コードを作成すると、より高い保守性とスケーラビリティを実現できます。この記事では、Golang を使用して簡単なクローラーを作成する方法について説明します。この記事が、Web クローラーを学習したい読者や Golang を使用する開発者に役立つことを願っています。

以上がGolang クローラーの書き方の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Debian OpenSSLの脆弱性は何ですか Debian OpenSSLの脆弱性は何ですか Apr 02, 2025 am 07:30 AM

OpenSSLは、安全な通信で広く使用されているオープンソースライブラリとして、暗号化アルゴリズム、キー、証明書管理機能を提供します。ただし、その歴史的バージョンにはいくつかの既知のセキュリティの脆弱性があり、その一部は非常に有害です。この記事では、Debian SystemsのOpenSSLの共通の脆弱性と対応測定に焦点を当てます。 Debianopensslの既知の脆弱性:OpenSSLは、次のようないくつかの深刻な脆弱性を経験しています。攻撃者は、この脆弱性を、暗号化キーなどを含む、サーバー上の不正な読み取りの敏感な情報に使用できます。

PPROFツールを使用してGOパフォーマンスを分析しますか? PPROFツールを使用してGOパフォーマンスを分析しますか? Mar 21, 2025 pm 06:37 PM

この記事では、プロファイリングの有効化、データの収集、CPUやメモリの問題などの一般的なボトルネックの識別など、GOパフォーマンスを分析するためにPPROFツールを使用する方法について説明します。

Goでユニットテストをどのように書きますか? Goでユニットテストをどのように書きますか? Mar 21, 2025 pm 06:34 PM

この記事では、GOでユニットテストを書くことで、ベストプラクティス、モッキングテクニック、効率的なテスト管理のためのツールについて説明します。

Go's Crawler Collyのキュースレッドの問題は何ですか? Go's Crawler Collyのキュースレッドの問題は何ですか? Apr 02, 2025 pm 02:09 PM

Go Crawler Collyのキュースレッドの問題は、Go言語でColly Crawler Libraryを使用する問題を調査します。 �...

GOの浮動小数点番号操作に使用されるライブラリは何ですか? GOの浮動小数点番号操作に使用されるライブラリは何ですか? Apr 02, 2025 pm 02:06 PM

GO言語の浮動小数点数操作に使用されるライブラリは、精度を確保する方法を紹介します...

フロントエンドからバックエンドの開発に変身すると、JavaやGolangを学ぶことはより有望ですか? フロントエンドからバックエンドの開発に変身すると、JavaやGolangを学ぶことはより有望ですか? Apr 02, 2025 am 09:12 AM

バックエンド学習パス:フロントエンドからバックエンドへの探査の旅は、フロントエンド開発から変わるバックエンド初心者として、すでにNodeJSの基盤を持っています...

Beego ormのモデルに関連付けられているデータベースを指定する方法は? Beego ormのモデルに関連付けられているデータベースを指定する方法は? Apr 02, 2025 pm 03:54 PM

Beegoormフレームワークでは、モデルに関連付けられているデータベースを指定する方法は?多くのBEEGOプロジェクトでは、複数のデータベースを同時に操作する必要があります。 Beegoを使用する場合...

Go FMTコマンドとは何ですか?なぜそれが重要なのですか? Go FMTコマンドとは何ですか?なぜそれが重要なのですか? Mar 20, 2025 pm 04:21 PM

この記事では、GOプログラミングのGo FMTコマンドについて説明します。これは、公式スタイルのガイドラインに準拠するためのコードをフォーマットします。コードの一貫性、読みやすさ、およびスタイルの議論を削減するためのGO FMTの重要性を強調しています。 Best Practices fo

See all articles