dede採集器利用PHP製作簡單的內容擷取器的原理分析-php教程-PHP中文網

首頁

後端開發

php教程

dede採集器利用PHP製作簡單的內容擷取器的原理分析

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jul 29, 2016 am 08:38 AM

前幾天做了個小說連載的程序，因為怕更新麻煩，順帶就寫了個採集器，採集八路中文網的，功能比較簡單，不能自訂規則，不過大概思路都在裡面了，自訂規則可以自己來擴充。
　　用php來做採集器主要用到兩個函數：file_get_contents()和preg_match_all()，前一個是遠端讀取網頁內容的，不過只在php5以上的版本才能用，後一個是正規函數，用來提取需要的內容的。
　　下面就一步一步來講功能實作。
　　因為是採集小說，所以首先要將書名、作者、類型這三個提取出來，別的資訊可根據需要提取。
　　這裡以《回到明朝當王爺》為目標，先打開書目頁，連結：http://www.86zw.com/Book/3727/Index.aspx
　　多打開幾本書會發現，書名的基本格式是：http://www.86zw.com/Book/書號/Index.aspx，所以我們可以做一個開始頁，定義一個，用來輸入需要採集的書號，以後就可以透過$_POST['number']這種格式來接收需要採集的書號了。接收到書號，以下要做的就是建構書目頁：$url=http://www.86zw.com/Book/$_POST['number']/Index.aspx，當然這裡是舉個例子，主要是為了講解方便，實際製作的時候最好檢查$_POST['number']的合法性。
　　構造好URL以後就可以開始採集書籍資訊了。使用file_get_contents() 函數開啟書目頁：$c 打開書目頁，查看原始文件，找到“《回到明朝當王爺》”，這就是要提取出來的書名了。提取書名的正規表示式：/(.*?)/is，使用preg_match_all()函數將書名取出：preg_match_all("/(.*?)/is",$contents,$title);這樣$title[0][0]的內容就是我們要的標題了（preg_match_all函數的用法可以去百度查，這裡就不詳細說明了）。取出了書籍信息，接下來就是取章節內容了，要取章節內容，首先要做的就是找到每一章的地址，然後遠程打開章節，用正則將內容取出來，入庫或者直接生成html靜態文件。這是章節清單的網址：http://www.86zw.com/Html/Book/18/3727/List.shtm，可以看出這篇和書目頁一樣，是有規律可尋的：http://www .86zw.com/Html/Book/分類號碼/書號/List.shtm。書號前面已經取得，這裡的關鍵是找到分類號，分類號可以在前面的書目頁找到，提取分類號：
　　preg_match_all("/Html/Book/[0-9]{1,}/[0 -9]{1,}/List.shtm/is",$contents,$typeid);這樣還不夠，還需要一個切取函數:
PHP程式碼如下:
function cut($string,$start ,$end){
$message = explode($start,$string);
$message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內容，$start為開始的地方，$end為結束的地方。取出分類號碼：
$start = "Html/Book/";
$end
= "List.shtm";
$typeid = cut($typeid[0][0],$ start,$end);
$typeid = explode("/",$typeid);[/php]
　　這樣，$typeid[0]就是我們要找的分類號碼了。接下來就是建構章節清單的網址了：$chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/$_POST[‘number']/List.shtm。有了這個就能找到每一章節的地址了。方法如下：
$ustart = """;
$uend
= """;
//t表示title的縮寫
$tstart = ">";
$ tend
= "//取路徑,例如:123.shtm,2342.shtm,233.shtm
preg_match_all("/"[0-9]{1,}.(shtm )"/is",$chapterurl,$url);
//取標題,例如:第一章九世善人
preg_match_all("//is",$file,$title);
$count = count($url[0]);
for($i=0;$i {
$u = cut($url[0][$i],$ustart,$uend);
$t = cut($title[0] [$i],$tstart,$tend);
$array[$u] = $t;
}
　　$array數組就是所有的章節位址了，到這裡，採集器就完成一半了，剩下的就是循環打開每個章節地址，讀取，然後將內容匹配出來。這個比較簡單，這裡就不詳細敘述了。好了，今天就先寫到這吧，第一次寫這麼長的文章，語言組織方面難免有問題，還請大家多包涵！

以上就介紹了dede採集器利用PHP製作簡單的內容採集器的原理分析，包括了dede採集器方面的內容，希望對PHP教程有興趣的朋友有所幫助。

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學

1665

CakePHP 教程

1423

Laravel 教程

1321

PHP教程

1269

C# 教程

1249

Related knowledge

PHP和Python：比較兩種流行的編程語言 Apr 14, 2025 am 12:13 AM

PHP和Python各有優勢，選擇依據項目需求。 1.PHP適合web開發，尤其快速開發和維護網站。 2.Python適用於數據科學、機器學習和人工智能，語法簡潔，適合初學者。

說明PHP中的安全密碼散列（例如，password_hash，password_verify）。為什麼不使用MD5或SHA1？ Apr 17, 2025 am 12:06 AM

在PHP中，應使用password_hash和password_verify函數實現安全的密碼哈希處理，不應使用MD5或SHA1。1)password_hash生成包含鹽值的哈希，增強安全性。 2)password_verify驗證密碼，通過比較哈希值確保安全。 3)MD5和SHA1易受攻擊且缺乏鹽值，不適合現代密碼安全。

PHP行動：現實世界中的示例和應用程序 Apr 14, 2025 am 12:19 AM

PHP在電子商務、內容管理系統和API開發中廣泛應用。 1)電子商務：用於購物車功能和支付處理。 2)內容管理系統：用於動態內容生成和用戶管理。 3)API開發：用於RESTfulAPI開發和API安全性。通過性能優化和最佳實踐，PHP應用的效率和可維護性得以提升。

PHP：網絡開發的關鍵語言 Apr 13, 2025 am 12:08 AM

PHP是一種廣泛應用於服務器端的腳本語言，特別適合web開發。 1.PHP可以嵌入HTML，處理HTTP請求和響應，支持多種數據庫。 2.PHP用於生成動態網頁內容，處理表單數據，訪問數據庫等，具有強大的社區支持和開源資源。 3.PHP是解釋型語言，執行過程包括詞法分析、語法分析、編譯和執行。 4.PHP可以與MySQL結合用於用戶註冊系統等高級應用。 5.調試PHP時，可使用error_reporting()和var_dump()等函數。 6.優化PHP代碼可通過緩存機制、優化數據庫查詢和使用內置函數。 7

PHP的持久相關性：它還活著嗎？ Apr 14, 2025 am 12:12 AM

PHP仍然具有活力，其在現代編程領域中依然佔據重要地位。 1)PHP的簡單易學和強大社區支持使其在Web開發中廣泛應用；2)其靈活性和穩定性使其在處理Web表單、數據庫操作和文件處理等方面表現出色；3)PHP不斷進化和優化，適用於初學者和經驗豐富的開發者。

PHP類型提示如何起作用，包括標量類型，返回類型，聯合類型和無效類型？ Apr 17, 2025 am 12:25 AM

PHP類型提示提升代碼質量和可讀性。 1)標量類型提示：自PHP7.0起，允許在函數參數中指定基本數據類型，如int、float等。 2)返回類型提示：確保函數返回值類型的一致性。 3)聯合類型提示：自PHP8.0起，允許在函數參數或返回值中指定多個類型。 4)可空類型提示：允許包含null值，處理可能返回空值的函數。

PHP和Python：代碼示例和比較 Apr 15, 2025 am 12:07 AM

PHP和Python各有優劣，選擇取決於項目需求和個人偏好。 1.PHP適合快速開發和維護大型Web應用。 2.Python在數據科學和機器學習領域佔據主導地位。

PHP與其他語言：比較 Apr 13, 2025 am 12:19 AM

PHP適合web開發，特別是在快速開發和處理動態內容方面表現出色，但不擅長數據科學和企業級應用。與Python相比，PHP在web開發中更具優勢，但在數據科學領域不如Python；與Java相比，PHP在企業級應用中表現較差，但在web開發中更靈活；與JavaScript相比，PHP在後端開發中更簡潔，但在前端開發中不如JavaScript。

See all articles

dede採集器 利用PHP製作簡單的內容擷取器的原理分析

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題

dede採集器利用PHP製作簡單的內容擷取器的原理分析