PHP Linux スクリプト プログラミングの実践: Web クローラーを実装するには、特定のコード サンプルが必要です。
はじめに:
インターネットの発展に伴い、インターネット上のたくさんの情報。この情報を簡単に取得して使用するために、Web クローラーが登場しました。この記事では、Linux 環境で PHP を使用してスクリプトを記述し、単純な Web クローラーを実装する方法を紹介し、具体的なコード例を添付します。
1. Web クローラーとは何ですか?
Web クローラーは、Web ページに自動的にアクセスして情報を抽出するプログラムです。クローラーは、HTTP プロトコルを通じて Web ページのソース コードを取得し、所定のルールに従って解析して必要な情報を取得します。これは、大量のデータを迅速かつ効率的に収集して処理するのに役立ちます。
2. 準備
Web クローラーの作成を開始する前に、PHP と関連拡張機能をインストールする必要があります。 Linux では、次のコマンドを使用してインストールできます。
sudo apt update
sudo apt install php php-curl
ログイン後にコピー
インストールが完了したら、例としてターゲット Web サイトも必要になります。例として、Wikipedia の「コンピューター サイエンス」ページを見てみましょう。
3. 開発プロセス
次のコードを含む
crawler.php という名前の PHP ファイルを作成します:
<?php
// 定义目标URL
$url = "https://en.wikipedia.org/wiki/Computer_science";
// 创建cURL资源
$ch = curl_init();
// 设置cURL参数
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
// 获取网页源代码
$html = curl_exec($ch);
// 关闭cURL资源
curl_close($ch);
// 解析网页源代码
$dom = new DOMDocument();
@$dom->loadHTML($html);
// 获取所有标题
$headings = $dom->getElementsByTagName("h2");
foreach ($headings as $heading) {
echo $heading->nodeValue . "
";
}
?>
ログイン後にコピー
ファイルを保存した後、次のコマンドを実行します:
結果の出力は次のとおりです:
Contents
History[edit]
Terminology[edit]
Areas of computer science[edit]
Subfields[edit]
Relation to other fields[edit]
See also[edit]
Notes[edit]
References[edit]
External links[edit]
ログイン後にコピー
これらのタイトルはターゲット ページの一部です。 PHP スクリプトを使用して、Wikipedia のコンピューター サイエンス ページのタイトル情報を取得することに成功しました。
4. 概要
この記事では、PHP を使用して Linux 環境でスクリプトを作成し、単純な Web クローラーを実装する方法を紹介します。 cURL ライブラリを使用して Web ページのソース コードを取得し、DOMDocument クラスを使用して Web ページのコンテンツを解析します。具体的なコード例を通じて、読者が Web クローラー プログラムの作成方法を理解し、習得できることを願っています。
Web ページのクローリングは、関連する法律、規制および Web サイトの利用ルールを遵守する必要があり、違法な目的で使用してはなりません。 Web ページをクロールするときは、プライバシーと著作権の保護に注意し、倫理基準に従ってください。 ###
以上がPHP Linux スクリプト プログラミングの実践: Web クローラーの実装の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。