Web ページのタイトルとコンテンツを取得する必要がある場合があります。これはコレクション機能です。必要な友人の便宜のために、ここで簡単に共有します。
コードは以下のように表示されます:
関数 getPageContent($url) {
//$url='http://www.ttphp.com;
$pageinfo = 配列();
$pageinfo[content_type] = '';
$pageinfo[charset] =
$pageinfo[タイトル] = '';
$pageinfo[説明] = '';
$pageinfo[キーワード] = '';
$pageinfo[body] = '';
$pageinfo['httpcode'] = 200;
$pageinfo['all'] = '';
$ch =curl_init();
curl_setopt($ch, CURLOPT_USERAGENT, "Mozilla/4.0 (互換性; MSIE 5.01; Windows NT 5.0)");
curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, 0);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER,0);
curl_setopt($ch, CURLOPT_TIMEOUT, 8);
curl_setopt($ch, CURLOPT_FILETIME, 1);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
//curl_setopt($ch, CURLOPT_HEADER, 1);
curl_setopt($ch, CURLOPT_URL,$url);
$curl_start = microtime(true);
$store =curl_exec ($ch);
$curl_time = microtime(true) - $curl_start;
if(curl_error($ ch)){
$pageinfo['httpcode'] = 505; //ゲートウェイエラー
echo 'Curl エラー: ' .curl_error($ch) ."/n";
$ pageinfo を返します。
//print_r(curl_getinfo($ch));
$pageinfo['httpcode'] =curl_getinfo($ch,CURLINFO_HTTP_CODE);
//echocurl_getinfo($ch,CURLINFO_CONTENT_TYPE)."/n";
$pageinfo[content_type] =curl_getinfo($ch,CURLINFO_CONTENT_TYPE);
If(intval($pageinfo['httpcode']) <> 200 または !preg_match('@text/html@',curl_getinfo($ch,CURLINFO_CONTENT_TYPE) ) ) {
//print_r(curl_getinfo($ch) );
//出口;
$pageinfo を返します。
Preg_match('/charset=([^/s/n/r]+)/i',curl_getinfo($ch,CURLINFO_CONTENT_TYPE),$matches); //ヘッダーから文字セットを取得します。
if(trim($matches[1]) ) {
$pageinfo[charset] = trim($matches[1]);
} }
//エコー $pageinfo[charset];
//出口;
カール_クローズ ($ch);
// $store をエコーします。
//JavaScriptを削除
$store = preg_replace("/