晚上休息,想弄兩部好看的電影看看,
找了半天沒找到的,
發奇想,
沒事把BT天堂的電影資訊爬下來,下次闊以直接查資料庫。
只能說閒的蛋痛,哈哈,還能碼下程式碼 ^_^
1.抓取網站html源碼 (正規匹配)
<span style="font-size:24px;">$url = "www.bttiantang.cc"; $html = shell_exec("curl $url");</span>
3.抓取電影資訊(正則配對資訊
3.抓取電影資訊(正則配對資訊 <span style="font-size:24px;">preg_match("/<span class=\"pageinfo\">.*?<\/span>/", $html, $pageCount);
preg_match_all("/\d{1,10000}/",$pageCount[0],$pageCount);</span>
整體來說,php抓取的速度還是蠻快的,4min不到,採集2w多個資訊。
:0 end:01:26:11
<span style="font-size:24px;">preg_match("/\d{4}\/\d{2}\/\d{2}/" , $pageInfo[0][$i], $updateTime);
preg_match("/<font color=\"#FF6600\">(.*?)<i>/" , $pageInfo[0][$i], $movieName);
preg_match("/<strong>(\d{1})<\/strong>/" , $pageInfo[0][$i], $movieScore_int);
preg_match("/<em class=\"fm\">(\d{1})<\/em>/" , $pageInfo[0][$i], $movieScore_decimal);
preg_match("/href=\"(.*?)\"/" , $pageInfo[0][$i], $movieUrl);
preg_match("/<p class=\"des\">(.*?)<\/p>/" , $pageInfo[0][$i], $actor);
</span>
若有相關電影資訊涉及您的版權或智慧財產權或其他利益,請告知,確認後會盡快刪除。
版權聲明:本文為部落客原創文章,未經部落客允許不得轉載。
以上就介紹如何抓取BT天堂電影數據,包括了方面的內容,希望對PHP教程有興趣的朋友有所幫助。