Webスクレイピングを始める
最初のステップ
まず、Go をインストールする必要があります。Go をダウンロードしてインストールする手順。
プロジェクト用に新しいフォルダーを作成し、そのディレクトリに移動して、次のコマンドを実行します。
go mod init scraper
? go mod init コマンドは、実行されるディレクトリで新しい Go モジュールを初期化し、コードの依存関係を追跡するための go.mod ファイルを作成するために使用されます。依存関係の管理
Colibri をインストールしましょう:
go get github.com/gonzxlez/colibri
? Colibri は、JSON で定義された一連のルールを使用して、Web 上の構造化データをクロールおよび抽出できる Go パッケージです。リポジトリ
抽出ルール
必要なデータを抽出するために colibri が使用するルールを定義します。ドキュメント
URL https://pkg.go.dev/search?q=xpath に対して HTTP リクエストを作成します。これには、Go パッケージ内の xpath に関連する Go パッケージのクエリの結果が含まれます。
Web ブラウザに含まれる開発ツールを使用して、ページの HTML 構造を検査できます。ブラウザ開発ツールとは何ですか?
<div class="SearchSnippet"> <div class="SearchSnippet-headerContainer"> <h2> <a href="/github.com/antchfx/xpath" data-gtmc="search result" data-gtmv="0" data-test-id="snippet-title"> xpath <span class="SearchSnippet-header-path">(github.com/antchfx/xpath)</span> </a> </h2> </div> <div class="SearchSnippet-infoLabel"> <a href="/github.com/antchfx/xpath?tab=importedby" aria-label="Go to Imported By"> <span class="go-textSubtle">Imported by </span><strong>143</strong> </a> <span class="go-textSubtle">|</span> <span class="go-textSubtle"> <strong>v1.2.5</strong> published on <span data-test-id="snippet-published"><strong>Oct 26, 2023</strong></span> </span> <span class="go-textSubtle">|</span> <span data-test-id="snippet-license"> <a href="/github.com/antchfx/xpath?tab=licenses" aria-label="Go to Licenses"> MIT </a> </span> </div> </div>
クエリの結果を表す HTML 構造のフラグメント。
次に、クラス SearchSnippet を持つ HTML 内のすべての div 要素を検索するセレクター “packages” が必要です。これらの要素からセレクター “ name” は、要素 h2 内の要素 a のテキストとセレクター「path” は、 内の a 要素の href 属性の値を受け取ります。 h2 要素。つまり、「name」 は Go パッケージの名前を受け取り、「path」 はパッケージのパスを受け取ります :)
{ "method": "GET", "url": "https://pkg.go.dev/search?q=xpath", "timeout": 10000, "selectors": { "packages": { "expr": "div.SearchSnippet", "all": true, "type": "css", "selectors": { "name": "//h2/a/text()", "path": "//h2/a/@href" } } } }
- メソッド:
- は、HTTP メソッド (GET、POST、PUT など) を指定します。 url:
- リクエストの URL。 timeout:
- HTTP リクエストのタイムアウト (ミリ秒)。 セレクター:
- セレクター。
- “packages”
-
: はセレクターの名前です。
- expr:
- セレクター式。 all:
- は、式に一致するすべての要素が検索されることを指定します。 type:
- 式のタイプ (この場合は CSS セレクター)。 セレクター:
- ネストされたセレクター。
- “name”
- と “path” はセレクターの名前であり、その値は式、この場合は XPath 式です。
-
: はセレクターの名前です。
scraper.go ファイルを作成し、必要なパッケージをインポートして main 関数を定義する準備ができました。
package main import ( "encoding/json" "fmt" "github.com/gonzxlez/colibri" "github.com/gonzxlez/colibri/webextractor" ) var rawRules = `{ "method": "GET", "url": "https://pkg.go.dev/search?q=xpath", "timeout": 10000, "selectors": { "packages": { "expr": "div.SearchSnippet", "all": true, "type": "css", "selectors": { "name": "//h2/a/text()", "path": "//h2/a/@href" } } } }` func main() { we, err := webextractor.New() if err != nil { panic(err) } var rules colibri.Rules err = json.Unmarshal([]byte(rawRules), &rules) if err != nil { panic(err) } output, err := we.Extract(&rules) if err != nil { panic(err) } fmt.Println("URL:", output.Response.URL()) fmt.Println("Status code:", output.Response.StatusCode()) fmt.Println("Content-Type", output.Response.Header().Get("Content-Type")) fmt.Println("Data:", output.Data) }
webextractor の新しい機能を使用して、データの抽出を開始するために必要なものを含む Colibri 構造を生成します。
次に、JSON 内のルールを Rules 構造に変換し、Extract メソッドを呼び出してルールを引数として送信します。
出力を取得し、HTTP 応答の URL、HTTP ステータス コード、応答のコンテンツ タイプ、セレクターで抽出されたデータが画面に表示されます。出力構造についてはドキュメントを参照してください。
次のコマンドを実行します:
go mod tidy
最後に、次のコマンドを使用して Go でコードをコンパイルして実行します。
go run scraper.go
この投稿では、Colibri パッケージを使用して Go で Web スクレイピングを実行し、CSS および XPath セレクターで抽出ルールを定義する方法を学びました。 Colibri は、Go での Web データ収集の自動化を検討している人向けのツールとして登場します。ルールベースのアプローチと使いやすさにより、あらゆる経験レベルの開発者にとって魅力的なオプションとなっています。
つまり、Go の Web スクレイピングは、幅広い Web サイトから情報を抽出するために使用できる強力で多用途なテクニックです。 Web スクレイピングは、Web サイトの利用規約を尊重し、サーバーの過負荷を避けて倫理的に実行する必要があることを強調することが重要です。
以上がWebスクレイピングを始めるの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Golangは、パフォーマンスとスケーラビリティの点でPythonよりも優れています。 1)Golangのコンピレーションタイプの特性と効率的な並行性モデルにより、高い並行性シナリオでうまく機能します。 2)Pythonは解釈された言語として、ゆっくりと実行されますが、Cythonなどのツールを介してパフォーマンスを最適化できます。

Golangは並行性がCよりも優れていますが、Cは生の速度ではGolangよりも優れています。 1)Golangは、GoroutineとChannelを通じて効率的な並行性を達成します。これは、多数の同時タスクの処理に適しています。 2)Cコンパイラの最適化と標準ライブラリを介して、極端な最適化を必要とするアプリケーションに適したハードウェアに近い高性能を提供します。

speed、効率、およびシンプル性をspeedsped.1)speed:gocompilesquilesquicklyandrunseffictient、理想的なlargeprojects.2)効率:等系dribribraryreducesexexternaldedenciess、開発効果を高める3)シンプルさ:

GolangとPythonにはそれぞれ独自の利点があります。Golangは高性能と同時プログラミングに適していますが、PythonはデータサイエンスとWeb開発に適しています。 Golangは同時性モデルと効率的なパフォーマンスで知られていますが、Pythonは簡潔な構文とリッチライブラリエコシステムで知られています。

goisidealforforbeginnersandsutable forcloudnetworkservicesduetoitssimplicity、andconcurrencyfeatures.1)installgofromtheofficialwebsiteandverify with'goversion'.2)

Golangは迅速な発展と同時シナリオに適しており、Cは極端なパフォーマンスと低レベルの制御が必要なシナリオに適しています。 1)Golangは、ごみ収集と並行機関のメカニズムを通じてパフォーマンスを向上させ、高配列Webサービス開発に適しています。 2)Cは、手動のメモリ管理とコンパイラの最適化を通じて究極のパフォーマンスを実現し、埋め込みシステム開発に適しています。

GolangとCのパフォーマンスの違いは、主にメモリ管理、コンピレーションの最適化、ランタイム効率に反映されています。 1)Golangのゴミ収集メカニズムは便利ですが、パフォーマンスに影響を与える可能性があります。

Cは、ハードウェアリソースと高性能の最適化が必要なシナリオにより適していますが、Golangは迅速な開発と高い並行性処理が必要なシナリオにより適しています。 1.Cの利点は、ハードウェア特性と高い最適化機能に近いものにあります。これは、ゲーム開発などの高性能ニーズに適しています。 2.Golangの利点は、その簡潔な構文と自然な並行性サポートにあり、これは高い並行性サービス開発に適しています。
