PHP Web クローリングの問題
http://www.zootoo.com/petnews/canineheroesamemorialdaysalute-1612
http://www.zootoo.com/petnews/hailtothecatsasalutetofirstfel-1611
http: / /www.zootoo.com/petnews/mothersdaygiftsforthepetloving-1592
たとえば、これら 3 つの Web ページ
最初のページはページ分割されたコンテンツです。ページ分割は無視してください
メイン テキスト部分を抽出する必要があります。その対処方法それと一緒ですか?
PHP にあまり詳しくないので、スコアの高いアドバイスをお願いします。よろしくお願いします
-----解決策-------- ------------
メールを残していただければ例をお送りします
------解決策------------------
header("コンテンツタイプ:text/html;charset=utf-8"); $url="http://www.zootoo.com/petnews/hailtothecatsasalutetofirstfel-1611"; $contents=file_get_contents($url); $contents=preg_replace('/>(s+)/','>',$contents); $contents=str_replace("rn",'',$contents); $contents=str_replace("t",'',$contents); // $contents をエコーします。 preg_match_all('~<div class="f_right" style="width: 175px;">(.*?)</div>(.*?)</div><div class="sep_line1 e_push15 ">~is',$contents,$p); print_r($p[1]); print_r($p[2]); <div class="clear"></div>