検索エンジン技術のコアが明らかに_PHPチュートリアル-PHPチュートリアル-php.cn

編集者注: これは、検索エンジンの原理を詳細に分析するだけでなく、PHP を使用して検索エンジンをコンパイルするための著者独自のアイデアも提供する素晴らしいプログラミング教育記事です。記事全体が簡単な言葉で説明されており、専門家も初心者も多くのインスピレーションを得ることができると思います。

ウェブ検索エンジンについて話すとき、ほとんどの人はYahooを思い浮かべます。実際、Yahoo はインターネット検索の時代を築きました。しかし、Yahoo が現在ウェブ検索に使用しているテクノロジーは、同社が元々開発したものではありません。 2000 年 8 月、Yahoo はスタンフォード大学の学生によって設立されたベンチャー企業である Google (www.google.com) のテクノロジーを採用しました。その理由は非常に単純です。Google の検索エンジンは、Yahoo が以前に使用していた技術よりも、より速く、より正確に必要な情報を検索できるからです。

強力で効率的な検索エンジンやデータベースを短期間に自分たちで設計・開発することは、技術的にも資金的にもおそらく不可能ですが、Yahooが他人の技術を使っているのですから、私たちもそれを使うことはできるでしょうか？他の人の既成の検索エンジン Web サイトについてはどうですか?

プログラミングのアイデアの分析

私たちは次のように想像できます: クエリをシミュレートし、対応する形式で検索エンジンの Web サイトに検索コマンドを発行し、検索結果を返し、結果の HTML コードを分析し、冗長な部分を削除します。最終的には、必要な形式で当社 Web サイトのページに表示されます。

このように、問題の鍵は、(検索がより意味のあるものになるように) 正確で、(検索結果を分析して表示するのに余分な時間がかかるため) 高速な検索情報を選択する必要があるということです。、新世代の検索エンジンである Google のさまざまな優れた機能により、検索結果は簡潔 (HTML ソースコードの分析やストリッピングに便利) な検索 Web サイトです。ここでは、PHP を使用してバックグラウンドを実装する方法を確認する例として選択します。 Google (www.google.com) 検索およびフロントエンドのパーソナライズされた表示プロセスの処理。

まず、Google のクエリコマンドの構造を見てみましょう。 www.google.com の Web サイトにアクセスし、クエリバーに「abcd」と入力してクエリボタンをクリックすると、ブラウザのアドレスバーが「http://www.google.com/search?q=」に変わることがわかります。 abcd&btnG=Google %CB%D1%CB%F7&hl=zh-CN&lr= を見ると、Google がクエリパラメータを渡し、フォームの get メソッドを通じてクエリコマンドを送信していることがわかります。 PHP の file() 関数を使用して、このクエリプロセスをシミュレートできます。

File()関数を理解する

構文: array file(string filename);

戻り値は配列であり、すべてのファイルが配列変数に読み込まれます。ここでのファイルはローカルまたはリモートにすることができ、リモートファイルは使用されるプロトコルを示す必要があります。例: result=file(“http://www.google.com/search?q=abcd&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=”)、このステートメントは、単語のクエリをシミュレートします。 Google の「abcd」処理により、検索結果が各行の要素の形式で配列変数の結果に返されます。ここで読み取られるファイルはリモートであるため、プロトコル名「http://」が欠落することはできません。

任意の検索でユーザーに検索文字を入力してもらいたい場合は、入力テキストボックスと送信ボタンを作成し、上記の検索文字「abcd」を変数に置き換えます:
echo ''; (isset(キーワード)) //送信後、PHPは変数kwywordsを生成します。これには、送信後に次のプログラムを実行する必要があります
{
urlencode(キーワード) //ユーザー入力コンテンツをURLエンコードします
result=file("http ://www.google.com/search?q=".Keywords."&btnG=Google%CB%D1%CB%F7&hl=zh-CN&lr=");
//クエリステートメント内の変数を置換し、クエリを変更しますresults 配列変数に保存します result
result_string=join(" ", result); // 配列 $result を文字列に結合し、各配列要素をスペースで貼り付けます
... // さらに処理します
}
? > ;

上記のプログラムはすでにユーザー入力に基づいてクエリを実行し、返された結果を文字列変数 $result_string に合成できます。入力された漢字、スペース、その他の特殊文字を正常にクエリできるように、urlencode() 関数を使用してユーザー入力を URL エンコードする必要があることに注意してください。これにより、Google のクエリコマンドが可能な限り現実的にシミュレートされ、検索が確実になります。結果は正確です。

Googleの分析

理解を容易にするために、本当に必要なのは検索結果のタイトルであると仮定しましょう。 URLや紹介文など。これはシンプルかつ典型的な要件です。このようにして、Google ロゴ、再検索用の入力ボックス、検索結果の説明などを含む Google 検索結果のヘッダーとフッターを削除し、残りの検索結果から元の HTML を削除するだけです。項目のフォーマットタグを希望のフォーマットに置き換えます。

これを行うには、Google 検索結果の HTML ソースコードを注意深く分析し、パターンを見つける必要があります。 Google 検索結果のテキストが常にソースコードの最初の
マークと最後から 2 番目の
マークの間に含まれ、最後から 2 番目の

マークの後に表の文字が続き、この組み合わせ「

」
以下のすべての手順は、上記の手順の「さらなる処理」セクションで継続されます。

result_string = strstr( result_string, "

"); //Googleヘッダーを削除するため、最初の

からresult_string以降の文字列を取得します
position= strpos( result_string, "

tableシンボルの位置
result_string= substr ( result_string,0,position);//最初の

table シンボルの前の文字列をインターセプトして脚注を削除します

アプリケーションと実装

OK、これで便利な HTML ソースコードのバックボーンが得られました。残りの質問は、これを表示する方法です。これらの検索結果項目を個別に分析して、各項目が
で区切られていること、つまり、それぞれが段落であることを確認してください。この機能に従って、各項目を分割するために、explode() 関数を使用します。 :

構文:explode(string separator, string string);

配列を返し、セパレータで分割されたそれぞれの小さな文字列が配列に保存されます:
result_array=explode("
" , result_string); /文字列 "
" を使用して結果を切り取ります

各要素が検索結果項目である配列 result_array を取得します。必要なのは、各項目とその HTML 表示を調べて、それを置き換えることだけです。次に、必要に応じて、ループを使用して、result_array の各エントリを処理します
for( i=0; i {
... //各エントリを処理します
}

各エントリについて、いくつかの特徴を見つけることも簡単です。 : 各エントリはタイトル、要約、紹介文、カテゴリ、URL などで構成されており、各部分は改行、つまり
マークが含まれているため、再度分割されます: (上記のループ内に次のハンドラーが配置されます)中)
every_item=explode("
", result_array[ i]);

このようにして、every_item[0]がタイトル、every_item[1]とevery_item[2]が概要である配列を取得します。 Every_item[3 ] や Every_item[4] など、ヘッダーに「
Introduction:
」、「< font size=-1 color=#6f6f6f>Category:< /font>」という文字が含まれている場合は、概要またはカテゴリ (一部の結果エントリにはこの項目がないため)。ヘッダーに「< font color=green>」が含まれる場合、それは URL である必要があります。この種の比較では、正規表現を使用することがよくあります (省略)。タイトルを含む $every_item[0] 自体がリンクされているなど、置換したい場合にも非常に便利です。新しいウィンドウでリンクが開くようにこのリンク属性を変更したいと思います: echo eregi_replace (' { ... // 各項目を処理して、1 つの項目の最初の各項目を削除します (最初の項目はタイトルであり、既に表示されています)
... // その他の形式の変更
}

リンク属性を変更します、その他多くの表示形式の変更、削除、置換を使用できます。通常の置換は eregi_replace() で行われます。

この時点で、各検索項目の各項目を取得できており、各項目の形式を自由に変更したり、美しい表を載せたりすることもできます。ただし、優れたプログラムはさまざまな動作環境に適応できる必要があり、ここでも例外ではありません。実際、これを完全に実行するには、HTML の検索結果を除去するためのフレームワーク方法についてのみ説明しました。検索結果の総数やページ数などを表示します。また、「カテゴリ」や「紹介文」などのGoogle関連のコードを削除して、元のWebサイトを閲覧できないようにすることもできます。全て。ただし、HTML を解析することで、これらのコンテンツと要件を抽出することができます。今では誰もが自分で行うことができ、高度にパーソナライズされた検索エンジンを構築できます。

抜粋: http://tech.163.com/tm/010228/010228_15747.html
著者: maxid

http://www.bkjia.com/PHPjc/315014.html