PHP チュートリアル.アプリケーション例 15_PHP チュートリアル-PHPチュートリアル-php.cn

Linux ベースの検索エンジンの実装
検索エンジンは、ユーザーに Web ページ情報への迅速なアクセスを提供するツールです。その主な機能は、システムがユーザーのキーワード入力を通じてバックエンド Web ページデータベースを検索し、リンクと概要をフィードバックすることです。関連する Web ページの情報をユーザーに提供します。検索範囲から、サイト Web 検索とグローバル Web 検索に大別されます。 Web ページの数が急速に増加するにつれて、検索エンジンはインターネット上の情報を照会するために必要な手段となり、すべての大規模な Web サイトが Web ページデータ検索サービスを提供しており、大規模な Web サイト向けに専門的な検索エンジンサービスを提供する多くの企業が登場しています。、Yahooなどのサービスを提供するGoogleや、Sinaや263などの国内Webサイトのサービスを提供するBaiduなど。専門的な検索サービスは高価であり、無料の検索エンジンソフトウェアは基本的に英語検索に基づいているため、イントラネット環境 (キャンパスネットワークなど) のニーズには適していません。
検索エンジンの基本コンポーネントは、通常、Web ページ収集プログラム、Web ページのバックエンドデータの編成とストレージ、Web ページデータの取得の 3 つの部分に分かれています。検索エンジンの品質を決定する重要な要素は、データクエリの応答時間、つまり、全文検索のニーズを満たすために大量の Web ページデータを編成する方法です。
GNU/Linux は、Web サーバー (Apache + PHP)、ディレクトリサーバー (OpenLDAP)、スクリプト言語 (Perl)、Web ページ収集プログラムなどの多数のネットワークアプリケーションソフトウェアを統合した優れたネットワークオペレーティングシステムです。 (ウィゲット)待ってください。したがって、これらを組み合わせて適用することで、シンプルかつ効率的な検索エンジンサーバーを実現できます。
1. 基本的な構成と使用方法
1. Web ページのデータ収集
Wget プログラムは、Web ページのコンテンツをローカルディレクトリに簡単にミラーリングするための優れた Web ページ収集プログラムです。収集された Web ページ、再帰的収集レベル、ディレクトリクォータ、収集時間など。 Web ページの収集は専用の収集プログラムを通じて完了するため、デザインの難易度が軽減されるだけでなく、システムのパフォーマンスも向上します。ローカルデータのサイズを減らすために、グラフィックファイルやその他のデータファイルは収集せず、クエリ可能な html ファイル、txt ファイル、スクリプトプログラム asp および php のみを収集し、デフォルトの結果のみを使用できます。
2. Web ページデータのフィルタリング
HTML ファイルには

などのタグが多数あるため、これらのタグ付けされたデータには実際の検索値がないため、収集されたデータをフィルタリングする必要がありますデータベースに追加する前に。広く使用されているスクリプト言語として、Perl には、Web ページのフィルタリングを簡単に完了できる非常に強力で豊富なプログラムライブラリがあります。 HTML-Parserライブラリを利用すると、Webページに含まれるテキストデータ、タイトルデータ、リンクデータなどを簡単に抽出できます。このライブラリは www.cpan.net からダウンロードできます。このサイトの Perl プログラムのコレクションは、私たちの範囲をはるかに超えた幅広いトピックをカバーしています。
3. ディレクトリサービス
ディレクトリサービスは、大量のデータを取得するために開発されたサービスで、X.500 プロトコルセットで最初に登場し、後に TCP/IP に拡張され、LDAP (Lightweight Directory Access Protocol) プロトコルに発展しました。関連する規格としては、1995年に策定されたRFC1777、1997年に策定されたRFC2251があります。 LDAP プロトコルは、Sun、Lotus、Microsoft およびその他の企業の関連製品で業界標準として広く使用されていますが、Windows プラットフォームに基づいた専用のディレクトリサーバーが Unix システム上で動作することはまれです。優れたパフォーマンスを備え、多くの Linux ディストリビューション (Redhat、Mandrake など) に収録されており、C、Perl、PHP などの開発インターフェイスを提供します。