ホームページ php教程 php手册 PHP は最も単純なクローラー プロトタイプを実装します

PHP は最も単純なクローラー プロトタイプを実装します

Jun 14, 2016 am 12:01 AM
php コード プロトタイプ 成し遂げる オープンソース 爬虫類 単純 プログラミング プログラミング言語 ソフトウェア開発

最も単純なクローラー モデルは次のようになります。初期 URL が与えられると、クローラーはコンテンツをプルダウンし、ページ内の URL を見つけ、これらの URL を開始点として使用してクロールを開始します。

以下は、PHP で実装された最も単純なクローラー モデルです。

  1. /**
  2. * クローラー プログラム -- プロトタイプ
  3. *
  4. * BookMoth 2009-02-21
  5. */
  6. /**
  7. * 指定された URL から HTML コンテンツを取得します
  8. *
  9. * @param string $url
  10. * @戻り文字列
  11. */
  12. 関数_getUrlContent($url){
  13. $handle = fopen($url, "r");
  14. if($handle){
  15. $content = stream_get_contents($handle,1024*1024);
  16. $content を返す;
  17. }その他{
  18. false を返す;
  19. }
  20. }
  21. /**
  22. * HTML コンテンツからリンクをフィルタリングします
  23. *
  24. * @param string $web_content
  25. * @return array
  26. */
  27. 関数_filterUrl($web_content){
  28. $reg_tag_a = '/'" ]*).*?>/';
  29. $result = preg_match_all($reg_tag_a,$web_content,$match_result);
  30. if($result){
  31. return $match_result[1];
  32. }
  33. }
  34. /**
  35. * 正しい相対パス
  36. *
  37. * @param string $base_url
  38. * @param array $url_list
  39. * @return array
  40. */
  41. function _reviseUrl($base_url,$url_list){
  42. $url_info = parse_url($base_url);
  43. $base_url = $url_info["スキーム"].'://';
  44. if($url_info["user"]&&$url_info["pass"]){
  45. $base_url .= $url_info["user"].":".$url_info["pass"]."@";
  46. }
  47. $base_url .= $url_info["ホスト"];
  48. if($url_info["ポート"]){
  49. $base_url .= ":".$url_info["port"];
  50. }
  51. $base_url .= $url_info["パス"];
  52. print_r($base_url);
  53. if(is_array($url_list)){
  54. foreach ($url_list as $url_item) {
  55. if(preg_match('/^http/',$url_item)){
  56. //已经是完全的url
  57. $result[] = $url_item;
  58. }その他 {
  59. //不完全なurl
  60. $real_url = $base_url.'/'.$url_item;
  61. $result[] = $real_url;
  62. }
  63. }
  64. $result を返す;
  65. }else {
  66. 戻る;
  67. }
  68. }
  69. /**
  70. * 爬虫
  71. *
  72. * @param string $url
  73. * @return array
  74. */
  75. 関数クローラー($url){
  76. $content = _getUrlContent($url);
  77. if($content){
  78. $url_list = _reviseUrl($url,_filterUrl($content));
  79. if($url_list){
  80. $url_list を返す;
  81. }else {
  82. 戻る;
  83. }
  84. }それ以外{
  85. 戻る;
  86. }
  87. }
  88. /**
  89. * テスト用のメインプログラム
  90. *
  91. */
  92. 関数 main(){
  93. $current_url = "http://hao123.com/";//最初のurl
  94. $fp_puts = fopen("url.txt","ab");//记录url列表
  95. $fp_gets = fopen("url.txt","r");//保存url列表
  96. してください{
  97. $result_url_arr = クローラー($current_url);
  98. if($result_url_arr){
  99. foreach ($result_url_arr as $url) {
  100. fputs($fp_puts,$url."rn");
  101. }
  102. }
  103. }while($current_url = fgets($fp_gets,1024));//不断获得url
  104. }
  105. メイン();
  106. ?>

もちろん、この爬虫類はまだ次の進化を遂げる必要があります:

1. より正確な URL リンクを貼り付けます。現在のリンクの形式が正しくない可能性があります。

2. 重複した URL リンクを削除できます。今日のクローラーは多くの反復作業を実行します。

3. 環状道路を怖がるクローラーを避ける。常に右折する車は環状 300 号線のみを走行でき、他の場所には行けません。

4. マルチスレッドまたはマルチプロセス。 PHP にはスレッドの概念がないため、それをシミュレートするにはシェルのようなものが必要になる場合があります。

5. ...漢字 2 の N 乗を省略します。

とにかく、考えてみてください~

http://blog.csdn.net/bookmoth/archive/2009/02/21/3916538.aspx より

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド Dec 24, 2024 pm 04:42 PM

PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。 このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。

PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 Dec 20, 2024 am 11:31 AM

Visual Studio Code (VS Code とも呼ばれる) は、すべての主要なオペレーティング システムで利用できる無料のソース コード エディター (統合開発環境 (IDE)) です。 多くのプログラミング言語の拡張機能の大規模なコレクションを備えた VS Code は、

PHPでHTML/XMLを解析および処理するにはどうすればよいですか? PHPでHTML/XMLを解析および処理するにはどうすればよいですか? Feb 07, 2025 am 11:57 AM

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML(拡張可能なマークアップ言語)は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

母音を文字列にカウントするPHPプログラム 母音を文字列にカウントするPHPプログラム Feb 07, 2025 pm 12:12 PM

文字列は、文字、数字、シンボルを含む一連の文字です。このチュートリアルでは、さまざまな方法を使用してPHPの特定の文字列内の母音の数を計算する方法を学びます。英語の母音は、a、e、i、o、u、そしてそれらは大文字または小文字である可能性があります。 母音とは何ですか? 母音は、特定の発音を表すアルファベットのある文字です。大文字と小文字など、英語には5つの母音があります。 a、e、i、o、u 例1 入力:string = "tutorialspoint" 出力:6 説明する 文字列「TutorialSpoint」の母音は、u、o、i、a、o、iです。合計で6元があります

コーディングの鍵: 初心者のための Python の力を解き放つ コーディングの鍵: 初心者のための Python の力を解き放つ Oct 11, 2024 pm 12:17 PM

Python は、学習の容易さと強力な機能により、初心者にとって理想的なプログラミング入門言語です。その基本は次のとおりです。 変数: データ (数値、文字列、リストなど) を保存するために使用されます。データ型: 変数内のデータの型 (整数、浮動小数点など) を定義します。演算子: 数学的な演算と比較に使用されます。制御フロー: コード実行のフロー (条件文、ループ) を制御します。

Java をシンプルに: プログラミング能力を高める初心者向けガイド Java をシンプルに: プログラミング能力を高める初心者向けガイド Oct 11, 2024 pm 06:30 PM

Java をシンプルに: プログラミング能力の初心者向けガイド はじめに Java は、モバイル アプリケーションからエンタープライズ レベルのシステムに至るまで、あらゆるもので使用される強力なプログラミング言語です。初心者にとって、Java の構文はシンプルで理解しやすいため、プログラミングの学習に最適です。基本構文 Java は、クラスベースのオブジェクト指向プログラミング パラダイムを使用します。クラスは、関連するデータと動作をまとめて編成するテンプレートです。簡単な Java クラスの例を次に示します。 publicclassperson{privateStringname;privateintage;

未来を創る: まったくの初心者のための Java プログラミング 未来を創る: まったくの初心者のための Java プログラミング Oct 13, 2024 pm 01:32 PM

Java は、初心者と経験豊富な開発者の両方が学習できる人気のあるプログラミング言語です。このチュートリアルは基本的な概念から始まり、高度なトピックに進みます。 Java Development Kit をインストールしたら、簡単な「Hello, World!」プログラムを作成してプログラミングを練習できます。コードを理解したら、コマンド プロンプトを使用してプログラムをコンパイルして実行すると、コンソールに「Hello, World!」と出力されます。 Java の学習はプログラミングの旅の始まりであり、習熟が深まるにつれて、より複雑なアプリケーションを作成できるようになります。

Python による問題解決: 初心者プログラマーとして強力なソリューションをアンロックする Python による問題解決: 初心者プログラマーとして強力なソリューションをアンロックする Oct 11, 2024 pm 08:58 PM

Python は、問題解決の初心者に力を与えます。ユーザーフレンドリーな構文、広範なライブラリ、変数、条件文、ループによる効率的なコード開発などの機能を備えています。データの管理からプログラム フローの制御、反復的なタスクの実行まで、Python が提供します

See all articles