#网址:http://data.shishicai.cn/cqssc/haoma/#Demo:<?php/* Created on [2013-5-1] Author[Newton] Filename[action.php]*/#编码转换function convToUtf8($str) { if (mb_detect_encoding($str, "UTF-8, ISO-8859-1, GBK") != "UTF-8") { return iconv("GBK", "utf-8", $str); } else { return $str; }}header("content-type:text/html;charset:utf-8");error_reporting(E_ERROR);$pages = file_get_contents('http://data.shishicai.cn/cqssc/haoma/');//$pages = htmlspecialchars($pages);$pages = convToUtf8($pages);echo "pages-->>".print_r($pages);echo PHP_EOL;$doc = new DOMDocument();$new_doc = new DOMDocument('1.0', 'utf-8');echo "doc-->>".print_r($doc);echo PHP_EOL;$dom = $doc->getElementsByTagName('table');$newdoc = $new_doc->loadhtml($dom->item(2)->nodeValue);$table = $new_doc->saveHTML();echo "table-->>{$table}".PHP_EOL;#result:#……乱码……#pages-->>1 DOMDocument Object ( ) doc-->>1 table-->>#table是空的……?>
取得したいコンテンツは次のとおりです:
対応するコード スニペット:
ページ データは JS で埋められています。その JS スクリプトをクロールする必要があります。
面倒そうですよね?
tbodyにフレームを埋め込んで、JSコードを使ってhtmlを作るそうです。
http://datacache.shishicai.cn/script/2f67117ba1b58074.js を開いた後、
「フレーム」を検索すると 6 件の結果が表示されました
私の技術分析によると、フレームへのリンクはありません
LZ はテクノロジーの偉大なマスターです。ING に注目してください
http://data.shishicai.cn/handler/kuaikai/data.ashx
投稿:lottery=4&date=2013-05-06
収集されましたここにあります
上のリンクは空白をキャプチャしています...