php が Web ページのコンテンツをキャプチャする場合、より難しい可能性がある部分は DOM 解析です。どれを使用するかは好みに応じて異なります。
1.php には xpath 解析が付属しています。テクノロジー
xpath については、Baidu でその使用法を確認できます。簡単な例をいくつか紹介します。コードは次のとおりです。
error_reporting(0);
$url=' http://www.baidu.com';//クロールした Web ページの URL をここに書きます。何気なく書きました
$html=file_get_contents($url);
$dom=new DOMDocument;
$dom-> loadHTML($html);
$xml=simplexml_import_dom($dom);
$nav=$xml->xpath('//p[@id="nv"]');//簡単な説明は次のとおりです。つまり、simplexml の xpath メソッドを呼び出して、xpath 構文に準拠した文字列を渡すだけです。ここで私が言いたいのは、id 属性値 nv
print_r($nav);
2.phpquery 、
phpquery は、jQuery セレクターに基づいた dom パーサーです。jQuery をよく使用する場合は、このツールがとても気に入っていただけるでしょう。
include 'phpQuery.php';
phpQuery::newDocumentFile ('http://job.blueidea.com');
$companies = pq('#hotcoms .coms')->find('div');
foreach($companies as $company)
{
echo pq($company)->find('h3 a')->text()."
";
}
簡単な説明:
公式マニュアル: http://www.ecartina.com/php-simple-html-dom/manual.htm
自分の目で見てください。しばらくすれば理解できると思いますが、上手に使うのに30分もかかりませんでした
ちなみに、php を理解したい場合は、php クローリング システム phpcrawl もあります。検索エンジンに関する知識として彼のソース コードを見ることができます:
ソース コードのダウンロード アドレス
http://sourceforge.net/projects/phpcrawl/files/PHPCrawl/