PHP と phpSpider を使用して特定の Web サイトのコンテンツを正確にクロールするにはどうすればよいですか?
はじめに:
インターネットの発展に伴い、Webサイト上のデータ量は増大しており、手作業で必要な情報を取得するのは非効率です。したがって、特定の Web サイトのコンテンツを取得するには自動クローリング ツールを使用する必要がよくありますが、PHP 言語と phpSpider ライブラリは非常に実用的なツールの 1 つです。この記事では、PHP と phpSpider を使用して特定の Web サイトのコンテンツを正確にクロールする方法とコード例を紹介します。
1. phpSpider のインストール
まず、phpSpider ライブラリをローカル環境にインストールする必要があります。 Composer を介してインストールし、ターミナルを開いてプロジェクト ディレクトリに入り、次のコマンドを実行します:
composer require phpspider/phpspider
このコマンドを実行すると、phpSpider が次の場所にインストールされます。ディレクトリ内のプロジェクト。
2. クロール スクリプトの作成
次に、Web サイトのコンテンツをクロールするための PHP スクリプトを作成する必要があります。 IDE ツール (Sublime Text、PHPStorm など) を使用して空の PHP ファイルを開いてコードの記述を開始できます。
以下は、指定された Web サイト上のニュース タイトルとコンテンツをクロールするための簡単なサンプル コードです:
require 'vendor/autoload.php ';
use phpspidercorephpspider;
use phpspidercoreequests;
use phpspidercoreselector;
// エンコーディングを設定
header("Content-type:text/html;charset=utf -8" );
// クロールのターゲット Web サイトを設定します。
$url = "http://www.example.com/news";
// プロキシを設定します
requests ::set_proxy(['127.0.0.1:8888']);
// ユーザー エージェントを設定します
requests::set_useragent(
};
// クロール開始
$spider->start();
?>
注: 上記のコード内の「http://www.example.com/news」はリンク例です。使用する場合は、リンクを置き換えてください。クロールへのリンク。
3. コード分析
上記のコードでは、まず phpspider ライブラリをインポートし、次にクロールするターゲット Web サイトの URL を設定し、プロキシやユーザー エージェントなどの関連構成を設定します。次に、各ページを処理するコールバック関数 handle_page を定義します。このコールバック関数では、phpSpider が提供するセレクター クラスを使用してページを解析し、必要なニュース タイトルとコンテンツを抽出します。最後にクロール結果を出力します。
次に、phpspider インスタンスを作成し、クロールする URL を追加し、on_scan_page コールバック関数を設定して、クロール プロセスを開始しました。
4. 概要
PHP と phpSpider を使用すると、特定の Web サイト コンテンツの正確なクロールを簡単に実現できます。 phpSpider ライブラリをインストールし、クロール スクリプトを作成し、必要なデータを自動的に取得するために関連するパラメータを設定するだけです。この記事が、PHP と phpSpider を使用して Web サイトのコンテンツをクロールする方法を学び、理解するのに役立つことを願っています。
参考文献:
以上がPHP と phpSpider を使用して特定の Web サイトのコンテンツを正確にクロールするにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。