以織夢官方站為例,我們採集站長學院下的PHP教程欄目,打開列表地址http://www.dedecms.com/web-art/PHP_jiaocheng。
登入後台,進入“採集節點管理”,新建一個節點,選擇內容模型為“普通文章”。
1.設定節點基本資訊 (建議學習:dedecms教學)
先填入一個方便記憶的節點名稱,選擇目標頁面編碼為GB2312,防盜鏈模式不做設置,因目標站沒做限制,這一項就不做修改,系統預設超時時間10秒。
2.設定列表網址取得規則
這一步我們要做些設置,取得文章清單位址,回到目標站清單頁,觀察分頁間的變化,可以發現只有「14_」後的數字有規律的遞增變化。
首頁:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_1.html
中:http://www.dedecms.com/web-art/PHP_jiaocheng /list_14_(*).html
末頁:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html
複製一個分頁位址,回到「新增採集節點”頁面,選擇“來源屬性”為“批量生成列表網址”,把粘貼地址到“匹配網址”中,修改規律變化處為(*),“批量生成地址設定”處(*)輸入1到172,這裡的意思是產生出清單第一頁到最後172頁的所有位址。
測試一下,在彈出框中我們可以看到循環出172筆位址記錄,很順利的就設定好了。有時候會碰到較難取得的列表,那我們可以把沒規律的位址複製到」手動指定列表網址「文字方塊中來採集。
3.設定文章網址比對規則
上面指定了文章網址來源頁,這一步就需要在這些頁面中找出符合要求的文章網址頁了。打開一個清單頁面觀察,左欄的方框中包含了我們需要的全部位址,這種情況區分明顯的頁面,可以利「區域開始的HTML」和「區域結束的HTMLL」設定進行過濾。
不過也可以使用其他方法。把滑鼠移到各處連結位址,觀察瀏覽器左下角顯示的完整位址,我們需要的位址都包含“PHP_jiaocheng/20”,那我們把它填到“必須包含”中。
兩種方法都能夠過濾出地址,碰上複雜頁面,可以配合起來使用,加上正規,幾乎沒有篩選不出的地址,與下圖對照。最後確定,進入下一步「網頁內容取得規則」。
4.網頁內容取得規則
#上面介紹了清單設定的方法,接下來我們進入內容取得規則的設置,如果說採集是上菜的話,上面一到三步的作用,只是開胃菜為下面的主菜做引。接下來是介紹如何從目標站把文章內容收集過來,這一步是整個採集中最為核心的部分。
繼續回到織夢的PHP教學列表,隨便打開一篇列表中的文章,這裡我們以《正規表示式》這篇文章為例:http://www.dedecms.com/web -art/PHP_jiaocheng/20070420/38633.html ,把該地址複製到“預覽網址”;因為織夢所有文章都沒分頁,所以這裡的分頁就無需設置,直接進入“固定的採集項目”頁面
#(註:如果採集的內容含有分頁,只需要將分頁導覽部分的符合規則設定完成即可,這裡有全部列出的分頁清單、上一頁形式或不完整的分頁清單根據內容進行設定即可)
以下為引用的內容:
全部列出的分頁列表:分頁內容列出所有的鏈接,如下圖所示
上一頁形式或不完整的分頁清單:單頁顯示目前分頁內容,不完全顯示的清單形式
5. 固定的採集項目
進入這一步,就開始對頁面原始碼進行分析了,採集無非是分析HTML頁面的結構,從而獲取我們所需的內容。所以要求我們對HTML程式碼有一定的認識,能透過查看頁面來源文件,找出所需的內容,最好多開幾個頁面進行分析,找出相同處。
推薦大家使用Dreamweaver分析。在分析頁面程式碼的時候,多使用搜尋功能,會方便很多,特別是找到標籤後,搜尋一下看有無重複以減少分析錯誤。
1) 文章標題:這個頁面的標題是「正規表示式」複製下它,在Dreamweaver按Ctrl F鍵搜尋全部,有30項記錄。因為唯一性,這裡我們選擇105行這段「
2) 作者:以作者為關鍵字繼續搜索,只有110行有唯一的出現,連同alluse前後的標籤一起複製到匹配規則中,使用[內容]替換要採集處。
3) 來源:同上作業在109行找到標籤,複製過去,使用[內容]取代要收集處。若來源包含超連結標籤想去掉,則在過濾規則框,填寫如下規則過濾掉:
<a>]*)> <br></a><br>
4) 發佈時間:同上操作在111行處進行複製貼上和修改。
5) 文章內容:搜尋文章內容的開始部分,例如「第一部分」在118行發現目標,點擊狀態列
發現未能全部選取文章內容,繼續前一個
至此,內容的過濾都設定都完成了。
6. 節點採集
如果你的採集節點是一氣呵成而且測試成功的話,按提示點擊按鈕,就可以直接採集了,但是節點是之前寫的,就需到「節點管理頁」勾選需採集節點,按下「採集」按鈕進行採集了。若你想採集所有節點的新內容,那就到監控採集頁面進行操作吧。
每頁採集可以設定每頁採集的資料條數,一般來說不要設定太大,否則有可能導致系統處理不過來而部分採集不到,建議別超過15。
執行緒數是指每次有多少個執行緒同時進行採集,執行緒數的增加可以加快採集速度,但對應的會增加伺服器資源的佔用,所以請慎用。假若目標站點有防刷新限制,此處就可以根據目標站點的防刷新限制時間進行設置,假如沒有就默認0秒可以了。
附加選項這三個設定從字面上應該可以很容易理解,這就根據你的實際需求進行選擇了。
採集完成。
更多wordpress相關技術文章,請造訪wordpress教學欄位進行學習!
以上是dedecms採集怎麼用的詳細內容。更多資訊請關注PHP中文網其他相關文章!