class WebCrawl
{
private $url;
プライベート $リクエスト;
public $charset_arr=array(
'gb2312',
'utf-8',
'big5',
'gbk',
'ascii',
'cp936',
'ibm037',
'ibm437',
'ibm500'、
'asmo-708'、
'dos-720'、
'ibm737'、
'ibm775'、
'ibm850'、
'ibm852'、
'ibm855'、
'ibm857'、
' ibm00858'、
'ibm861'、
'ibm860'、
'dos-862'、
'ibm863'、
'ibm864'、
'ibm865'、
'cp866'、
'ibm869'、 870'、
'windows-874'、
'cp875'、
'shift_jis'、
'ks_c_5601-1987'、
'ibm1026'、
'ibm01047'、
'ibm01047'、
'ibm01040'、
'ibm01041'、
'ibm01042'、
'ibm01043'、
'ibm01044'、
'ibm01045'、
'ibm01046'、
'ibm01047'、
'ibm01048'、
'ibm01049'、 f-16'、
'ユニコデッフェ' 、
'windows-1250'、
'windows-1251'、
'windows-1252'、
'windows-1253'、
'windows-1254'、
'windows-1255'、
'windows-1256'、
'windows-1257'、
'windows-1258'、
'johab'、
'macintosh'、
'x-mac-japanese'、
'x-mac-chinesetrad'、
'x-mac-korean' 、
'x-mac-アラビア語'、
'x-mac-ヘブライ語'、
'x-mac-ギリシャ語'、
'x-mac-キリル語'、
'x-mac-chinesesimp'、
'x- mac-ルーマニア語'、
'x-mac-ウクライナ語'、
'x-mac-タイ'、
'x-mac-ce'、
'x-mac-アイスランド語'、
'x-mac-トルコ語'、
'x-mac-croatian'、
'x-chinese-cns'、
'x-cp20001'、
'x-chinese-eten'、
'x-cp20003'、
'x-cp20004'、
' x-cp20005'、
'x-ia5'、
'x-ia5-ドイツ語'、
'x-ia5-スウェーデン語'、
'x-ia5-ノルウェー語'、
'us-ascii'、
'x- cp20261'、
'x-cp20269'、
'ibm273'、
'ibm277'、
'ibm278'、
'ibm280'、
'ibm284'、
'ibm285'、
'ibm290'、 IBM420'、
'ibm423'、
'ibm424'、
'x-ebcdic-koreanextended'、
'ibm-thai'、
'koi8-r'、
'ibm871'、
'ibm880'、
'ibm905'、
' ibm00924'、
'x-cp20936'、
'x-cp20949'、
'cp1025'、
'koi8-u'、
'iso-8859-1'、
'iso-8859-2'、
'iso -8859-3'、
'iso-8859-4'、
'iso-8859-5'、
'iso-8859-6'、
'iso-8859-7'、
'iso-8859-8' 、
'iso-8859-9'、
'iso-8859-13'、
'iso-8859-15'、
'x-europa'、
'iso-8859-8-i'、
'iso- 2022-jp'、
'csiso2022jp'、
'iso-2022-jp'、
'iso-2022-kr'、
'x-cp50227'、
'euc-jp'、
'euc-cn'、
'euc-kr'、
'hz-gb-2312'、
'gb18030'、
'x-iscii-de'、
'x-iscii-be'、
'x-iscii-ta'、
'x -iscii-te'、
'x-iscii-as'、
'x-iscii-or'、
'x-iscii-ka'、
'x-iscii-ma'、
'x-iscii-gu' 、
'x-iscii-pa'、
'utf-7'、
'utf-32'、
'utf-32be'
);
パブリック関数 __construct($url)
{
$this->url=$url;
}
//打开网站
private function open($url)
{
if($this->request!==null)
{
if($this->request->status==200)
{
true を返します。
}
else
{
return false;
}
}
else
{
$this->request=new スヌーピー();
$this->リクエスト->fetch($url);
if($this->request->status==200)
{
$this->request->results=strto lower($this->request->results);
$charset=$this->getCharset();
if($charset!="utf-8")
{
if($charset=="windows-1252")
{
$this->request->results=$this->uni_decode($これ->リクエスト->結果);
}
else
{
$this->request->results=mb_convert_encoding($this->request->results,"UTF-8",$charset);
}
}
true を返します。
}
else
{
return false;
}
}
}
//获取网站title,keywords,description
public function getWebinfo()
{
$info=array(
'title'=>'',
'keywords'=>'',
'desc'=>'',
'ip'=>''
);
if(!$this->open($this->url)){return $info;exit;}
// print_r($this->request->results);exit;
preg_match('/
([^>]*)/si', $this->request->results, $titlematch );
if (isset($titlematch) && is_array($titlematch) && count($titlematch) > 0)
{
$info['title'] =trip_tags($titlematch[1]);
}
preg_match_all('/<[s]*meta[s]*name="?' . '([^>"]*)"?[s]*' . 'content="?([^ >"]*)"?[s]*[/]?[s]*>/si', $this->request->results, $match);
$フィート=0;
foreach($match[1] as $mt)
{
if($mt=="キーワード" || $mt=="説明")
{
$ft=1;
}
}
if($ft==0)
{
preg_match_all('/<[s]*meta[s]*content="?([^>"]*)"?[s]*name=? ' . '([^>"]*)"?[s]*[/]?[s]*>/si', $this->request->results, $match);
if (isset($match) && is_array($match) && count($match) == 3)
{
$originals = $match[0];
$names = $match[2];
$values = $match[1];
if (count($originals) == count($names) && count($names) == count($values))
{
$metaTags = array();
for ($i=0, $limiti=count($names); $i < $limiti; $i++)
{
$metaTags[$names[$i]] = array (
'html' => htmlentities($originals[$i]),
'value' => $values[$i]
);
}
}
}
}
else
{
if (isset($match) && is_array($match) && count($match) == 3)
{
$originals = $match[0];
$names = $match[1];
$values = $match[2];
if (count($originals) == count($names) && count($names) == count($values))
{
$metaTags = array();
for ($i=0, $limiti=count($names); $i < $limiti; $i++)
{
$metaTags[$names[$i]] = array (
'html' => htmlentities($originals[$i]),
'value' => $values[$i]
);
}
}
}
}
$result = array (
'metaTags' => $metaTags
);
if(isset($result['metaTags']['keywords']['value']))
{
$info['keywords']=$result['metaTags']['keywords']['value '];
}
else
{
$info['キーワード']="";
}
if(isset($result['metaTags']['description']['value']))
{
$info['desc']=$result['metaTags']['description'][ '価値'];
}
else
{
$info['desc']="";
}
$domain=preg_replace('/http:///si', '', $this->url);
$ip=@gethostbyname($domain);
$ip_arr=explode(".", $ip);
if(count($ip_arr)==4)
{
$info['ip']=$ip;
}
$info を返します。
}
パブリック関数 t($string,$o)
{
for($i=0;$i{
if(ord($string{$i})< ;128)
続ける;
if((ord($string{$i})&224)==224)
{
//第一个字节判断通过
$char = $string{++$i};
if((ord($char)&128)==128)
{
//第二字节判断通过
$char = $string{++$i};
if((ord($char)&128)==128)
{
$encoding = "UTF-8";
休憩;
}
}
}
if((ord($string{$i})&192)==192)
{
//第一个字节判断通过
$char = $string{++$i};
if((ord($char)&128)==128)
{
//第二字节判断通过
$encoding = "GB2312";
休憩;
}
}
}
return strto lower($encoding);
}
function uni_decode ($str, $code = 'utf-8'){
$str = json_decode(preg_replace_callback('/(d{5});/', create_function('$dec', 'return '\u'.dechex($dec[1]);'), '"'.$str.'"'));
if($code != 'utf-8'){ $str = iconv('utf-8', $code, $str);
$strを返します;
}
//获取网站编码
public function getCharset()
{
if(!$this->open($this->url)){return false;exit;}
//首先从html获取编码
preg_match("/request->results,$temp) ? strto lower($temp[1]):"";
if($temp[1]!="")
{
if(in_array($temp[1], $this->charset_arr))
{
if($temp[1]=="gb2312")
{
$tmp_charset=$this->t($this->request->results,$temp[1]);
if($tmp_charset==$temp[1])
{
return $temp[1];
}
}
else
{
return $temp[1];
}
}
}
if(!empty($this->request->headers))
{
//从ヘッダ中获取编码
$hstr=strto lower(implode("|||",$this ->リクエスト->ヘッダー));
preg_match("/charset=[^w]?([-w]+)/is",$hstr,$lang) ? strto lower($lang[1]):"";
if($lang[1]!="")
{
return $lang[1];
}
}
$encode_arr=array("UTF-8","GB2312","GBK","BIG5","ASCII","EUC-JP","Shift_JIS","CP936","ISO-8859 -1","JIS","eucjp-win","sjis-win");
$encoded=mb_detect_encoding($this->request->results,$encode_arr);
if($encoded)
{
return strto lower($encoded);
}
else
{
return false;
}
}
}
?>
http://www.bkjia.com/PHPjc/324325.htmlwww.bkjia.comtruehttp://www.bkjia.com/PHPjc/324325.html技術記事先要到网上下下Snoopy.class.php 调用方法: 复制代码 代码如下: ?php require 'lib/Snoopy.class.php'; require 'lib/WebCrawl.class.php';// 以下を含む $go=new W...