Elasticsearch を使用して Go で Web 検索エンジンを構築する-Golang-php.cn

ホームページ

バックエンド開発

Golang

Elasticsearch を使用して Go で Web 検索エンジンを構築する

Susan Sarandon

Nov 05, 2024 am 10:33 AM

ウェブ検索エンジンは、膨大なオンライン情報のインデックスを作成し、ミリ秒単位でアクセスできるようにするために不可欠です。このプロジェクトでは、RelaxSearch という名前の検索エンジンを Go (Golang) で構築しました。強力な検索および分析エンジンである Elasticsearch と統合することで、Web スクレイピング、定期的なデータのインデックス作成、検索機能を組み合わせます。このブログでは、RelaxSearch の主要コンポーネント、アーキテクチャ、およびキーワードベースの高速検索のためにデータを効率的に収集してインデックスを作成する方法について説明します。

リラックスサーチの概要

RelaxSearch は 2 つの主要モジュールを中心に構築されています:

RelaxEngine: cron ジョブを利用した Web スクレイパー。指定された Web サイトを定期的にクロールし、コンテンツを抽出し、Elasticsearch でインデックスを作成します。
RelaxWeb: ユーザーがインデックス付きデータを検索できるようにする RESTful API サーバー。ページネーション、フィルタリング、コンテンツの強調表示を提供して、ユーザーフレンドリーな応答を提供します。

プロジェクトの動機

検索エンジンプロジェクトを最初から作成することは、Web スクレイピング、データのインデックス作成、効率的な検索テクニックを理解するのに最適な方法です。 Go の効率性と Elasticsearch の強力なインデックス作成を利用して、高速なデータ取得と簡単な拡張性を備えた、シンプルだが機能的な検索エンジンを作成したいと考えていました。

主な特長

自動クロール: cron ジョブを使用すると、RelaxEngine を定期的に実行し、データをスクレイピングして Elasticsearch に保存できます。
全文検索: RelaxWeb は全文検索機能を提供し、キーワードによってコンテンツにインデックスを付け、高速な検索を可能にします。
REST API: ページネーション、日付フィルター、コンテンツのハイライトのパラメーターを備えた RESTful API を通じてアクセスできます。
データストレージ: インデックス付きコンテンツは Elasticsearch に保存され、スケーラブルで応答性の高いクエリが可能になります。

RelaxSearch のアーキテクチャ

1. RelaxEngine (Web スクレイパーおよびインデクサー)

RelaxEngine は、Web ページをナビゲートし、コンテンツを抽出して保存する Go で書かれた Web スクレイパーです。これは cron ジョブとして実行されるため、定期的な間隔 (例: 30 分ごと) で動作し、最新の Web データでインデックスを更新し続けることができます。仕組みは次のとおりです:

シード URL: RelaxEngine は、指定されたシード URL からスクレイピングを開始し、設定可能な深さまでサイト内のリンクをたどります。
コンテンツ解析: ページごとに、タイトル、説明、キーワードを抽出し、有益なデータセットを構築します。
Elasticsearch でのインデックス作成: スクレイピングされたコンテンツは Elasticsearch でインデックス付けされ、全文検索の準備が整います。各ページのデータは、一意の識別子、タイトル、説明、その他のメタデータとともに保存されます。

2. RelaxWeb（検索API）

RelaxWeb は RESTful API エンドポイントを提供し、Elasticsearch に保存されているデータのクエリと取得を簡単にします。 API はキーワード、ページネーション、日付フィルタリングなどのいくつかのパラメータを受け入れ、関連するコンテンツを JSON 形式で返します。

API エンドポイント: /search
クエリパラメータ:
- キーワード: 主な検索語。
- 開始元とサイズ: ページネーション制御。
- dateRangeStart および dateRangeEnd: データのタイムスタンプに基づいて結果をフィルターします。

Building a Web Search Engine in Go with Elasticsearch

主要なコンポーネントとコードスニペット

以下は、RelaxSearch がどのように機能するかを説明するために、いくつかの重要なコンポーネントと RelaxSearch からのコードの抜粋です。

RelaxEngine のメイン Go コード

コア機能は main.go ファイルにあり、RelaxEngine は gocron を使用して cron ジョブを管理するスケジューラーを初期化し、Elasticsearch クライアントをセットアップし、シード URL からのクロールを開始します。

func main() {
    cfg := config.LoadConfig()
    esClient := crawler.NewElasticsearchClient(cfg.ElasticsearchURL)
    c := crawler.NewCrawler(cfg.DepthLimit, 5)
    seedURL := "https://example.com/" // Replace with starting URL

    s := gocron.NewScheduler(time.UTC)
    s.Every(30).Minutes().Do(func() {
        go c.StartCrawling(seedURL, 0, esClient)
    })
    s.StartBlocking()
}

ログイン後にコピー

クローラーとインデックス作成ロジック

crawler.go ファイルは、Web ページのリクエストを処理し、コンテンツを抽出し、インデックスを作成します。 Elastic パッケージを使用して、スクレイピングされた各ページは Elasticsearch に保存されます。

func (c *Crawler) StartCrawling(pageURL string, depth int, esClient *elastic.Client) {
    if depth > c.DepthLimit || c.isVisited(pageURL) {
        return
    }
    c.markVisited(pageURL)
    links, title, content, description, err := c.fetchAndParsePage(pageURL)
    if err == nil {
        pageData := PageData{URL: pageURL, Title: title, Content: content, Description: description}
        IndexPageData(esClient, pageData)
    }
    for _, link := range links {
        c.StartCrawling(link, depth+1, esClient)
    }
}

ログイン後にコピー

RelaxWeb で API コードを検索

relaxweb サービスでは、API エンドポイントが全文検索機能を提供します。エンドポイント /search はリクエストを受け取り、Elasticsearch にクエリを実行し、キーワードに基づいて関連コンテンツを返します。

func searchHandler(w http.ResponseWriter, r *http.Request) {
    keyword := r.URL.Query().Get("keyword")
    results := queryElasticsearch(keyword)
    json.NewEncoder(w).Encode(results)
}

ログイン後にコピー

RelaxSearch のセットアップ

リポジトリのクローンを作成します

   git clone https://github.com/Ravikisha/RelaxSearch.git
   cd RelaxSearch

ログイン後にコピー

構成

Elasticsearch 認証情報を使用して、RelaxEngine と RelaxWeb の両方の .env ファイルを更新します。
Docker で実行

RelaxSearch は Docker を使用してセットアップを簡単にします。次を実行するだけです:

   docker-compose up --build

ログイン後にコピー

Building a Web Search Engine in Go with Elasticsearch

課題と改善点

スケーラビリティ: Elasticsearch は拡張性に優れていますが、多数のリンクによる大規模なスクレイピングを処理するには、大規模なデプロイメント向けの最適化が必要です。
堅牢なエラー処理: エラー処理と再試行メカニズムを強化すると、復元力が向上します。

結論

RelaxSearch は、基本的な検索エンジンの教育的かつ実践的なデモンストレーションです。このプロジェクトはまだプロトタイプですが、Web スクレイピング、全文検索、Go と Elasticsearch を使用した効率的なデータインデックス作成の基礎を理解するのに役立ちました。これにより、スケーラブルな環境での改善と実際のアプリケーションへの道が開かれます。

GitHub リポジトリを探索して、RelaxSearch を自分で試してみてください!

以上がElasticsearch を使用して Go で Web 検索エンジンを構築するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1672

CakePHP チュートリアル

1428

Laravel チュートリアル

1333

PHP チュートリアル

1277

C# チュートリアル

1257

Related knowledge

Golang vs. Python：パフォーマンスとスケーラビリティ Apr 19, 2025 am 12:18 AM

Golangは、パフォーマンスとスケーラビリティの点でPythonよりも優れています。 1）Golangのコンピレーションタイプの特性と効率的な並行性モデルにより、高い並行性シナリオでうまく機能します。 2）Pythonは解釈された言語として、ゆっくりと実行されますが、Cythonなどのツールを介してパフォーマンスを最適化できます。

Golang and C：Concurrency vs. Raw Speed Apr 21, 2025 am 12:16 AM

Golangは並行性がCよりも優れていますが、Cは生の速度ではGolangよりも優れています。 1）Golangは、GoroutineとChannelを通じて効率的な並行性を達成します。これは、多数の同時タスクの処理に適しています。 2）Cコンパイラの最適化と標準ライブラリを介して、極端な最適化を必要とするアプリケーションに適したハードウェアに近い高性能を提供します。

ゴーを始めましょう：初心者のガイド Apr 26, 2025 am 12:21 AM

goisidealforforbeginnersandsutable forcloudnetworkservicesduetoitssimplicity、andconcurrencyfeatures.1）installgofromtheofficialwebsiteandverify with'goversion'.2）

Golang vs. C：パフォーマンスと速度の比較 Apr 21, 2025 am 12:13 AM

Golangは迅速な発展と同時シナリオに適しており、Cは極端なパフォーマンスと低レベルの制御が必要なシナリオに適しています。 1）Golangは、ごみ収集と並行機関のメカニズムを通じてパフォーマンスを向上させ、高配列Webサービス開発に適しています。 2）Cは、手動のメモリ管理とコンパイラの最適化を通じて究極のパフォーマンスを実現し、埋め込みシステム開発に適しています。

Golang vs. Python：重要な違いと類似点 Apr 17, 2025 am 12:15 AM

GolangとPythonにはそれぞれ独自の利点があります。Golangは高性能と同時プログラミングに適していますが、PythonはデータサイエンスとWeb開発に適しています。 Golangは同時性モデルと効率的なパフォーマンスで知られていますが、Pythonは簡潔な構文とリッチライブラリエコシステムで知られています。

GolangとC：パフォーマンスのトレードオフ Apr 17, 2025 am 12:18 AM

GolangとCのパフォーマンスの違いは、主にメモリ管理、コンピレーションの最適化、ランタイム効率に反映されています。 1）Golangのゴミ収集メカニズムは便利ですが、パフォーマンスに影響を与える可能性があります。

パフォーマンスレース：ゴラン対c Apr 16, 2025 am 12:07 AM

GolangとCにはそれぞれパフォーマンス競争において独自の利点があります。1）Golangは、高い並行性と迅速な発展に適しており、2）Cはより高いパフォーマンスと微細な制御を提供します。選択は、プロジェクトの要件とチームテクノロジースタックに基づいている必要があります。

Golang vs. Python：長所と短所 Apr 21, 2025 am 12:17 AM

GolangisidealforBuildingsCalables Systemsduetoitsefficiency andConcurrency、Whilepythonexcelsinquickscriptinganddataanalysisduetoitssimplicityand vastecosystem.golang'ssignencouragesclean、readisinediteNeditinesinedinediseNabletinedinedinedisedisedioncourase

See all articles

Elasticsearch を使用して Go で Web 検索エンジンを構築する

リラックスサーチの概要

プロジェクトの動機

主な特長

RelaxSearch のアーキテクチャ

1. RelaxEngine (Web スクレイパーおよびインデクサー)

2. RelaxWeb（検索API）

主要なコンポーネントとコード スニペット

RelaxEngine のメイン Go コード

クローラーとインデックス作成ロジック

RelaxWeb で API コードを検索

RelaxSearch のセットアップ

課題と改善点

結論

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

主要なコンポーネントとコードスニペット