目錄
寫入工作全部完成
輸入磨鐵中文網你想看到的小說ID號就可以下載小說啦
首頁 後端開發 php教程 使用curl和正規表示式抓取網頁數據

使用curl和正規表示式抓取網頁數據

Jul 25, 2016 am 08:48 AM

利用curl和正規表示式做的一個針對磨鐵中文網非vip章節的小說抓取器,支援輸入小說ID下載小說。
依賴項:curl
可以簡單的看下,裡面用到了curl ,正規表達式,ajax等技術,適合新手看看。在本地測試,必須保證聯網並且確保php開啟curl的mode.
  1. session_start();
  2. //封裝成類開啟這些自動抓取文章
  3. #header("Refresh:30;http:/ /www.test.com:8080");
  4. class SpiderTools{
  5. /////////////////////////////// ////////////////////////////////////////////////// //////////////////////////
  6. /*傳入文章ID 解析出文章標題*/
  7. ////// ////////////////////////////////////////////////// //////////////////////////////////////////////////
  8. public function getBookNameById($aid){
  9. //初始化curl
  10. $ch= curl_init();
  11. //url
  12. $url='http://www.motie.com /book/'.$aid;
  13. if(is_numeric($aid)){
  14. //正規表示式符合
  15. $ru="/s*(.*)s*s*/";
  16. }
  17. else{
  18. //殭屍爆發之全家求生路_第一章殭屍爆發為吾友愛樂兒更新~_磨鐵
  19. $ru="/(.*)/";
  20. }
  21. //設定選項,包括網址
  22. curl_setopt($ch, CURLOPT_URL, $url);
  23. curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自動輸出內容
  24. curl_setopt($ch, CUR-LO 0);//不回傳頭部訊息
  25. curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0);
  26. //執行curl
  27. $output = curl_exec($ch);
  28. //錯誤提示
  29. if(curl_exec($ch) === false){
  30. die(curl_error($ch));
  31. }
  32. // 檢查是否有錯誤發生
  33. if(curl_errno($ch )){
  34. echo 'Curl error: ' . curl_error($ch);
  35. }
  36. //釋放curl句柄
  37. curl_close($ch);
  38. $arr=array();
  39. preg_match_all($ru,$output,$arr);
  40. return $arr[1][0];
  41. }
  42. //////////////// ////////////////////////////////////////////////// /////////////////////////////////////////
  43. /*傳入文章ID解析文章內容*/
  44. ////////////////////////////////////////// ////////////////////////////////////////////////// //////////////
  45. public function getBookContextById($aid){
  46. //開始解析文章
  47. $ids=array();
  48. $ids=explode ("_",$aid);
  49. $titleId=trim($ids[0]);
  50. $aticleId=trim($ids[1]);
  51. $ch= curl_init();
  52. $ru="/
    [sS]*
    [sS]*(.*)<img  class="hidden lazy" src="/static/imghw/default1.png" data-src="/ajax/chapter/$titleId/$aticleId" alt="使用curl和正規表示式抓取網頁數據" >
    登入後複製
    /ui";
  53. $url='http://www.motie.com/book/'.$aid;
  54. //正規表示式符合
  55. //設定選項,包括URL
  56. curl_setopt ($ch, CURLOPT_URL, $url);
  57. curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);//不自動輸出內容
  58. curl_setopt($ch, CURLOPT_HEADER, 0); 🎜> curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0);
  59. //執行curl
  60. $output = curl_exec($ch);
  61. //錯誤提示
  62. if(curl_exec($ch) ==== = false){
  63. die(curl_error($ch));
  64. }
  65. // 檢查是否有錯誤發生
  66. if(curl_errno($ch)){
  67. echo 'Curl error: ' . curl_error($ch);
  68. }
  69. $arr=array();
  70. $arr2=array();
  71. preg_match_all($ru,$output,$arr);
  72. curl_close($ch);
  73. #var_dump($arr);
  74. $s=$arr[0][0];
  75. $s=substr($s,180);
  76. $arr2 =explode("使用curl和正規表示式抓取網頁數據 return trim($arr2[0]);
  77. }
  78. //////////////// ////////////////////////////////////////////////// /////////////////////////////////////////
  79. /*靜態方法@生成小說檔案可以直接呼叫*/
  80. //////////////////////////////////////// ////////////////////////////////////////////////// ////////////////
  81. public static function createBookById($id){
  82. if(!is_numeric($id)){
  83. echo "
    INIT BEGIN START WRITE!";
  84. $st=new self();
  85. $cons=$st->getBookContextById($id);
  86. $title=$st-> getBookNameById($id);
  87. $cons=trim($cons);
  88. $t=explode(" ",$title);
  89. //建構目錄
  90. $dir=array();
  91. $dir=explode("_",$t[0]);
  92. $wzdir=$dir[0]; //書名作為目錄名稱
  93. $wzchapter=$dir[1]; //第幾章
  94. //建立目錄
  95. $wzdir2=iconv("UTF-8", "GBK", $wzdir);//目錄編碼注意這裡保留對$wzdir字串的引用,用來建構檔名,不能用此處,防止二次編碼
  96. if(!file_exists($wzdir2)){
  97. mkdir($wzdir2); //建立目錄
  98. }
  99. //建構檔名
  100. $wztitle="./".$wzdir."/"."$t[0]".".txt";
  101. //保證儲存的檔案名稱不是亂碼
  102. $wztitle=iconv("UTF-8", "GBK", $wztitle);
  103. $f=fopen($wztitle,"w ");
  104. fwrite($f,$cons) ;
  105. echo "$wzdir ".$wzchapter."寫入成功";
  106. fclose($f );
  107. }
  108. else{
  109. $ids=self::getBookIdsById($id);
  110. //這裡伺服器可能會斷線,所以最好用session記錄迴圈
  111. #for($i=$_SESSION["$id"."_fid"];$i
  112. #self::createBookById($id."_".$ids[$_SESSION["$id"."_fid"] ]);//建構id
  113. #}
  114. for($i=$_SESSION["$id"."_fid"];$i
  115. self::createBookById($id."_".$ids[$i]);//建構id
  116. }
  117. #echo "


    寫入工作全部完成

    ";
  118. #echo $id."_".$ids[0]."
    ";
  119. #var_dump($ids) ;
  120. }
  121. }
  122. /*
  123. 取得小說的所有ID
  124. @param $id 文章ID
  125. @return array;
  126. */
  127. public static function getBookIdsById($aid){
  128. $ch= curl_init();
  129. $url='http://www.motie.com/book/'.$aid."/chapter";
  130. //注意這裡的?可以取得最少匹配項
  131. $ru='/[sS]*?
  132. [sS]*?.*? .*?/u';//正規表示式符合
  133. //設定選項,包括URL
  134. curl_setopt($ch, CURLOPT_URL, $url);
  135. curl_setopt($ch, CURLOPT_RETURNTRANSFERRETURNTRANSFER , 1);//不自動輸出內容
  136. curl_setopt($ch, CURLOPT_HEADER, 0);//不回傳頭部資訊
  137. curl_setopt($ch, CURLOPT_CONNECTTIMEOUT_MS, 0);
  138. //執行curl
  139. $output = curl_exec($ch);
  140. // 檢查是否有錯誤發生
  141. if(curl_errno($ch)){
  142. echo 'Curl error: ' . curl_error($ch);
  143. }
  144. //釋放curl句柄
  145. curl_close($ch);
  146. $arr=array();
  147. preg_match_all($ru,$output,$arr,PREG_PATTERN_ORDER);
  148. return $arr[1];
  149. }
  150. }
  151. ?>
複製程式碼
  1. session_start();
  2. require_once("SpiderTools.class.php");
  3. if($_REQUEST["bid"]){"bid"]){
  4. if(is_numeric($_REQUEST["bid"])){
  5. SpiderTools::createBookById(trim($_REQUEST["bid"]));
  6. }
  7. else{ echo "
    請輸入正確的文章ID
    ";
  8. }
  9. }
  10. ?>
複製程式碼
複製程式碼
  1. 下載小說啦
  2. 輸入磨鐵中文網你想看到的小說ID號就可以下載小說啦

  • 複製程式碼


    本網站聲明
    本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

    熱AI工具

    Undresser.AI Undress

    Undresser.AI Undress

    人工智慧驅動的應用程序,用於創建逼真的裸體照片

    AI Clothes Remover

    AI Clothes Remover

    用於從照片中去除衣服的線上人工智慧工具。

    Undress AI Tool

    Undress AI Tool

    免費脫衣圖片

    Clothoff.io

    Clothoff.io

    AI脫衣器

    AI Hentai Generator

    AI Hentai Generator

    免費產生 AI 無盡。

    熱門文章

    R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
    3 週前 By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O.最佳圖形設置
    3 週前 By 尊渡假赌尊渡假赌尊渡假赌
    R.E.P.O.如果您聽不到任何人,如何修復音頻
    4 週前 By 尊渡假赌尊渡假赌尊渡假赌
    WWE 2K25:如何解鎖Myrise中的所有內容
    1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

    熱工具

    記事本++7.3.1

    記事本++7.3.1

    好用且免費的程式碼編輯器

    SublimeText3漢化版

    SublimeText3漢化版

    中文版,非常好用

    禪工作室 13.0.1

    禪工作室 13.0.1

    強大的PHP整合開發環境

    Dreamweaver CS6

    Dreamweaver CS6

    視覺化網頁開發工具

    SublimeText3 Mac版

    SublimeText3 Mac版

    神級程式碼編輯軟體(SublimeText3)

    php中的捲曲:如何在REST API中使用PHP捲曲擴展 php中的捲曲:如何在REST API中使用PHP捲曲擴展 Mar 14, 2025 am 11:42 AM

    PHP客戶端URL(curl)擴展是開發人員的強大工具,可以與遠程服務器和REST API無縫交互。通過利用Libcurl(備受尊敬的多協議文件傳輸庫),PHP curl促進了有效的執行

    在PHP API中說明JSON Web令牌(JWT)及其用例。 在PHP API中說明JSON Web令牌(JWT)及其用例。 Apr 05, 2025 am 12:04 AM

    JWT是一種基於JSON的開放標準,用於在各方之間安全地傳輸信息,主要用於身份驗證和信息交換。 1.JWT由Header、Payload和Signature三部分組成。 2.JWT的工作原理包括生成JWT、驗證JWT和解析Payload三個步驟。 3.在PHP中使用JWT進行身份驗證時,可以生成和驗證JWT,並在高級用法中包含用戶角色和權限信息。 4.常見錯誤包括簽名驗證失敗、令牌過期和Payload過大,調試技巧包括使用調試工具和日誌記錄。 5.性能優化和最佳實踐包括使用合適的簽名算法、合理設置有效期、

    解釋PHP中晚期靜態結合的概念。 解釋PHP中晚期靜態結合的概念。 Mar 21, 2025 pm 01:33 PM

    文章討論了PHP 5.3中介紹的PHP中的晚期靜態結合(LSB),允許靜態方法的運行時間分辨率調用以更靈活的繼承。 LSB的實用應用和潛在的觸摸

    框架安全功能:防止漏洞。 框架安全功能:防止漏洞。 Mar 28, 2025 pm 05:11 PM

    文章討論了框架中的基本安全功能,以防止漏洞,包括輸入驗證,身份驗證和常規更新。

    如何用PHP的cURL庫發送包含JSON數據的POST請求? 如何用PHP的cURL庫發送包含JSON數據的POST請求? Apr 01, 2025 pm 03:12 PM

    使用PHP的cURL庫發送JSON數據在PHP開發中,經常需要與外部API進行交互,其中一種常見的方式是使用cURL庫發送POST�...

    自定義/擴展框架:如何添加自定義功能。 自定義/擴展框架:如何添加自定義功能。 Mar 28, 2025 pm 05:12 PM

    本文討論了將自定義功能添加到框架上,專注於理解體系結構,識別擴展點以及集成和調試的最佳實踐。

    ReactPHP的非阻塞特性究竟是什麼?如何處理其阻塞I/O操作? ReactPHP的非阻塞特性究竟是什麼?如何處理其阻塞I/O操作? Apr 01, 2025 pm 03:09 PM

    深入解讀ReactPHP的非阻塞特性ReactPHP的一段官方介紹引起了不少開發者的疑問:“ReactPHPisnon-blockingbydefault....

    See all articles