使用するデータがすべて同じ Web サイト上にあり、データの表示形式が同じであることがよくあります。たとえば、淘宝網や Amazon では、情報を手動で入力すると、作業負荷が高くなります。現時点では、収集プログラムを作成して直接収集して表示することができます。 サーバーはfile_get_contentsとcurlをサポートしています
まず、ページにテキストボックスと送信ボタンを追加します。テキストボックスは、コレクションページのアドレスを入力するために使用されます。
コレクションは通常のインターセプト関数を使用する必要があります
function preg_substr($start, $end, $str) // 正则截取函数 { $temp = preg_split($start, $str); $content = preg_split($end, $temp[1]); return $content[0]; }
コレクションは文字列インターセプト関数を使用する必要があります
function str_substr($start, $end, $str) // 字符串截取函数 { $temp = explode($start, $str, 2); $content = explode($end, $temp[1], 2); return $content[0]; }
収集されたコンテンツを保存する機能もあります:
function writelog($str) { @unlink("log.txt"); $open=fopen("log.txt","a" ); fwrite($open,$str); fclose($open); }
収集されたコンテンツは異なる場合がありますfrom ours ブラウザーで表示されるコンテンツに一貫性がないため、正しい正規表現を見つけることができません。ここで、保存された txt ファイルを開いて、その中で正しいインターセプト文字列を見つけることができます。
画像さえ収集する必要がある場合は、画像機能を使用する必要があります:
function getImage($url, $filename='', $dirName, $fileType, $type=0) { if($url == ''){return false;} //获取文件原文件名 $defaultFileName = basename($url); //获取文件类型 $suffix = substr(strrchr($url,'.'), 1); if(!in_array($suffix, $fileType)){ return false; } //设置保存后的文件名 $filename = $filename == '' ? time().rand(0,9).'.'.$suffix : $defaultFileName; //获取远程文件资源 if($type){ $ch = curl_init(); $timeout = 5; curl_setopt($ch, CURLOPT_URL, $url); curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout); $file = curl_exec($ch); curl_close($ch); }else{ ob_start(); readfile($url); $file = ob_get_contents(); ob_end_clean(); } //设置文件保存路径 $dirName = $dirName.'/'.date('Y', time()).'/'.date('m', time()).'/'.date('d',time()).'/'; if(!file_exists($dirName)){ mkdir($dirName, 0777, true); } //保存文件 $res = fopen($dirName.$filename,'a'); fwrite($res,$file); fclose($res); return $dirName.$filename; }
コレクションコードは投稿を防ぐためにここに追加されているため、画像に直接アクセスしてください。例としてAmazonの商品ページを入力します:
以下に示すようにコレクション結果を見てください。データベースに参加するのは比較的簡単です。時間があれば紹介します。下位レベルのリンクを自動的に入力したり、ページを自動的にめくったりします。
以上がfile_get_contents とcurlを使用してコレクションを書き込むの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。