指定したURLのハイパーリンクアドレスを取得するPHP正規マッチング page

指定したURLのハイパーリンクアドレスを取得するPHP正規マッチング page_PHPチュートリアル

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

リリース： 2016-07-20 11:16:58

オリジナル

1194 人が閲覧しました

データ収集とページ分析では、多くの場合、特定の URL ページのコンテンツ、または第 2 レベルまたは第 3 レベルの詳細なページコンテンツをキャプチャする必要があります。

ここでは、参照のみを目的としたテスト例の実装を示します。

コードは次のとおりです:

/*
指定されたページリンクと一致します
return:配列の一致[リンク、コンテンツ、すべて]
*/
関数 match_links($host, $document) {
$pattern = '/(.*?)/i'; preg_match_all($pattern, $document, $m); $m を返します;

preg_match_all("']+))[^> ]*>?(.*?)'isx",$document,$links);

while(list($key,$val) = each($links[2])) {

if(!empty($val))
If(preg_match("/http/",$val)){
$match['link'][] = $val;
}
他に{
$match['link'][] = $host . }
}
while(list($key,$val) = each($links[3])) {
if(!empty($val))
If(preg_match("/http/",$val)){
$match['link'][] = $val;
}
他に{
$match['link'][] = $host . }
}
while(list($key,$val) = each($links[4])) {
if(!empty($val))
$match['content'][] = $val;
}
while(list($key,$val) = each($links[0])) {
if(!empty($val))
$match['all'][] = $val;
}
return $match['link'];
}

/*
指定された URL からページのテキストコンテンツを取得します
*/

関数 get_content_from_url($url) {

$str = @file_get_contents($url);
if(mb_check_encoding($str, "GBK"))
$str = iconv("GBK","UTF-8", $str);
$str =strip_tags($str); // HTML タグをフィルターします
; /*
$str = preg_replace( "@@is", "", $str );
$str = preg_replace( "@@is", "", $str ); $str = preg_replace( "@<style>@is", "", $str ); $str = preg_replace( "@<(.*?)>@is", "", $str ); */ //中国語以外の文字をフィルタリングします preg_match_all('/[x{4e00}-x{9fff}]+/u', $str, $matches); $str = join(',', $matches[0]); if(!$str) NULL を返します; $str; を返します } 関数 get_content($url,$ Depth) { if(!$url || $ Depth < 1) false を返します;</style>

while($ Depth > 1){
$str = @file_get_contents($url);
if(!$str)

false を返します;

$parseurl = parse_url($url); if($parseurl['host'])
$host = $parseurl[スキーム] . $parseurl['host'];

$arrlink = match_links($host,$str);

$arr_url = array_unique($arrlink);

$深さ--;
foreach($arr_url を $url){
$content .= get_content($url, $ Depth); // 再帰呼び出し
}

}

$content .= get_content_from_url($url);

$content を返します;
}

http://www.bkjia.com/PHPjc/372096.html