PHP によるページ クローリングとコード分析の実装_PHP チュートリアル

WBOY
リリース: 2016-07-13 17:48:04
オリジナル
826 人が閲覧しました

天気予報や RSS 購読プログラムを実行する場合、多くの場合、非ローカル ファイルをキャプチャする必要があります。一般に、PHP を使用してブラウザ アクセスをシミュレートし、HTTP リクエストを通じて URL アドレスにアクセスし、次に HTML ソース コードまたは XML データにアクセスします。データを直接出力することはできません。多くの場合、コンテンツを抽出して、よりわかりやすい方法で表示するためにフォーマットする必要があります。
1. PHP でページをクロールする主な方法:
1. file() 関数
2. file_get_contents() 関数
3. fopen()->fread()->fclose() モード
4.カールメソッド
5. fsockopen() 関数ソケットモード
6. プラグインを使用します (例: http://sourceforge.net/projects/snoopy/)
2. PHP が HTML または XML コードを解析する主な方法:
1. 正規表現 2. PHP DOMDocument オブジェクト 3. プラグイン (例:)
上記の内容をすでによく知っている場合は、次の内容は読み飛ばしていただいても構いません...
PHP クロール ページ
1. file() 関数

2. file_get_contents() 関数
file_get_contents と fopen を使用するには、allow_url_fopen を有効にする必要があります。方法: php.ini を編集し、allow_url_fopen = On に設定します。allow_url_fopen がオフの場合、fopen も file_get_contents もリモート ファイルを開くことができません。

3. fopen()->fread()->fclose() モード
curl を使用するには、curl を有効にするためのスペースが必要です。方法: Windows で php.ini を変更し、extension=php_curl.dll の前のセミコロンを削除し、ssleay32.dll と libeay32.dll を C:WINDOWSsystem32 にコピーします。Linux では、curl 拡張機能をインストールします。
ソケット モードが正しく実行できるかどうかは、サーバーの設定にも関係します。たとえば、ローカルの php ソケットでは http が有効になっていないため、テストには udp しか使用できません。それ。
n "; } else { fwrite($fp, "n"); echo fread($fp, 26); fclose($fp); } ?>
6. プラグイン
インターネット上にはさらに多くのプラグインがあるはずです。興味があれば調べてください。
PHP は XML (html) を解析します
1.正規表現:
(.*)',$lines_string,$タイトル); echo htmlspecialchars($title[0]); 2. PHP DOMDocument() オブジェクト
リモート HTML または XML に構文エラーがある場合、PHP は DOM を解析するときにエラーを報告します。
loadHTMLFile($url); $title=$html-> '); echo $title->item(0)->nodeValue ?>
3. プラグイン
この記事では、PHP Simple HTML DOM Parser を例として簡単に説明します。simple_html_dom の構文は、jQuery を使用して dom を操作するのと同じくらい簡単に PHP で dom を操作できます。
find('title'); echo $title[0]->plaintext; もちろん中国人はクリエイティブで、技術的には外国人の方が先にいることが多いですが、中国人のほうが使い方が上手で、リモートクローリングやPHPの解析など、外国人があえて思いつかないような機能を作ることもよくあります。データ統合の利便性を提供します。しかし、中国人はこれを非常に好むため、価値のあるコンテンツを自分たちで作成するのではなく、他の人の Web サイトのコンテンツをクロールして自分のものにすることに依存しているコレクション サイトが多数あります。 Baidu にキーワード「php small」を入力すると、候補リストの最初に「php thief Program」が表示されます。次に同じキーワードを Google に入力しても、何も言えず笑ってしまいます。さらに質問がある場合は、Q&A ウェブサイト (shenzhidao.com) にアクセスして質問してください。

「インターネットの世界は無から有を生み出す」より抜粋

www.bkjia.comtru​​ehttp://www.bkjia.com/PHPjc/478450.html技術記事天気予報や RSS 購読プログラムを実行する場合、多くの場合、非ローカル ファイルをキャプチャする必要があります。一般に、ブラウザ アクセスをシミュレートするために PHP が使用され、URL アドレスは http リクエストを通じてアクセスされます...
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート