目錄
正規表示式
[內容]
首頁 CMS教程 DEDECMS dedecms採集怎麼用

dedecms採集怎麼用

Jul 16, 2019 pm 03:04 PM
dedecms

以織夢官方站為例,我們採集站長學院下的PHP教程欄目,打開列表地址http://www.dedecms.com/web-art/PHP_jiaocheng。 

dedecms採集怎麼用

登入後台,進入“採集節點管理”,新建一個節點,選擇內容模型為“普通文章”。

1.設定節點基本資訊    (建議學習:dedecms教學

先填入一個方便記憶的節點名稱,選擇目標頁面編碼為GB2312,防盜鏈模式不做設置,因目標站沒做限制,這一項就不做修改,系統預設超時時間10秒。

2.設定列表網址取得規則 

這一步我們要做些設置,取得文章清單位址,回到目標站清單頁,觀察分頁間的變化,可以發現只有「14_」後的數字有規律的遞增變化。

首頁:http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_1.html 

中:http://www.dedecms.com/web-art/PHP_jiaocheng /list_14_(*​​).html 

末頁:​​http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html 

複製一個分頁位址,回到「新增採集節點”頁面,選擇“來源屬性”為“批量生成列表網址”,把粘貼地址到“匹配網址”中,修改規律變化處為(*),“批量生成地址設定”處(*)輸入1到172,這裡的意思是產生出清單第一頁到最後172頁的所有位址。 

測試一下,在彈出框中我們可以看到循環出172筆位址記錄,很順利的就設定好了。有時候會碰到較難取得的列表,那我們可以把沒規律的位址複製到」手動指定列表網址「文字方塊中來採集。

3.設定文章網址比對規則 

上面指定了文章網址來源頁,這一步就需要在這些頁面中找出符合要求的文章網址頁了。打開一個清單頁面觀察,左欄的方框中包含了我們需要的全部位址,這種情況區分明顯的頁面,可以利「區域開始的HTML」和「區域結束的HTMLL」設定進行過濾。 

不過也可以使用其他方法。把滑鼠移到各處連結位址,觀察瀏覽器左下角顯示的完整位址,我們需要的位址都包含“PHP_jiaocheng/20”,那我們把它填到“必須包含”中。 

兩種方法都能夠過濾出地址,碰上複雜頁面,可以配合起來使用,加上正規,幾乎沒有篩選不出的地址,與下圖對照。最後確定,進入下一步「網頁內容取得規則」。

dedecms採集怎麼用

4.網頁內容取得規則 

#上面介紹了清單設定的方法,接下來我們進入內容取得規則的設置,如果說採集是上菜的話,上面一到三步的作用,只是開胃菜為下面的主菜做引。接下來是介紹如何從目標站把文章內容收集過來,這一步是整個採集中最為核心的部分。

繼續回到織夢的PHP教學列表,隨便打開一篇列表中的文章,這裡我們以《正規表示式》這篇文章為例:http://www.dedecms.com/web -art/PHP_jiaocheng/20070420/38633.html ,把該地址複製到“預覽網址”;因為織夢所有文章都沒分頁,所以這裡的分頁就無需設置,直接進入“固定的採集項目”頁面 

#(註:如果採集的內容含有分頁,只需要將分頁導覽部分的符合規則設定完成即可,這裡有全部列出的分頁清單、上一頁形式或不完整的分頁清單根據內容進行設定即可)

以下為引用的內容:

全部列出的分頁列表:分頁內容列出所有的鏈接,如下圖所示

上一頁形式或不完整的分頁清單:單頁顯示目前分頁內容,不完全顯示的清單形式

5. 固定的採集項目 

進入這一步,就開始對頁面原始碼進行分析了,採集無非是分析HTML頁面的結構,從而獲取我們所需的內容。所以要求我們對HTML程式碼有一定的認識,能透過查看頁面來源文件,找出所需的內容,最好多開幾個頁面進行分析,找出相同處。 

推薦大家使用Dreamweaver分析。在分析頁面程式碼的時候,多使用搜尋功能,會方便很多,特別是找到標籤後,搜尋一下看有無重複以減少分析錯誤。 

1) 文章標題:這個頁面的標題是「正規表示式」複製下它,在Dreamweaver按Ctrl F鍵搜尋全部,有30項記錄。因為唯一性,這裡我們選擇105行這段「

正規表示式

」標籤,複製到「固定採集項目」文章標題的匹配規則中,並用關鍵字「[內容]」替換標題,最終為

[內容]

。 

2) 作者:以作者為關鍵字繼續搜索,只有110行有唯一的出現,連同alluse前後的標籤一起複製到匹配規則中,使用[內容]替換要採集處。 

3) 來源:同上作業在109行找到標籤,複製過去,使用[內容]取代要收集處。若來源包含超連結標籤想去掉,則在過濾規則框,填寫如下規則過濾掉: 

<a>]*)> <br></a><br>
登入後複製

4) 發佈時間:同上操作在111行處進行複製貼上和修改。

5) 文章內容:搜尋文章內容的開始部分,例如「第一部分」在118行發現目標,點擊狀態列

發現未能全部選取文章內容,繼續前一個

,藍色內容選取全部內容,知道
為文章內容的真正容器。複製內容前後標籤,到符合規則中。 

至此,內容的過濾都設定都完成了。

6. 節點採集 

如果你的採集節點是一氣呵成而且測試成功的話,按提示點擊按鈕,就可以直接採集了,但是節點是之前寫的,就需到「節點管理頁」勾選需採集節點,按下「採集」按鈕進行採集了。若你想採集所有節點的新內容,那就到監控採集頁面進行操作吧。 

每頁採集可以設定每頁採集的資料條數,一般來說不要設定太大,否則有可能導致系統處理不過來而部分採集不到,建議別超過15。 

執行緒數是指每次有多少個執行緒同時進行採集,執行緒數的增加可以加快採集速度,但對應的會增加伺服器資源的佔用,所以請慎用。假若目標站點有防刷新限制,此處就可以根據目標站點的防刷新限制時間進行設置,假如沒有就默認0秒可以了。 

附加選項這三個設定從字面上應該可以很容易理解,這就根據你的實際需求進行選擇了。 

採集完成。

更多wordpress相關技術文章,請造訪wordpress教學欄位進行學習!

以上是dedecms採集怎麼用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

AI Hentai Generator

AI Hentai Generator

免費產生 AI 無盡。

熱門文章

R.E.P.O.能量晶體解釋及其做什麼(黃色晶體)
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳圖形設置
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌
威爾R.E.P.O.有交叉遊戲嗎?
1 個月前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

帝國cms資源網模板在哪 帝國cms資源網模板在哪 Apr 17, 2024 am 10:00 AM

帝國CMS模板下載位置:官方模板下載:https://www.phome.net/template/第三方模板網站:https://www.dedecms.com/diy/https://www.0978.com.cn /https://www.jiaocheng.com/安裝方式:下載模板解壓縮模板上傳模板選擇模板

dedecms怎麼實現模板替換 dedecms怎麼實現模板替換 Apr 16, 2024 pm 12:12 PM

在 Dedecms 中實作範本替換可以透過以下步驟:修改 global.cfg 文件,設定所需的語言包。修改 taglib.inc.php 鉤子文件,加入對語言後綴模板文件的支援。建立帶有語言後綴的新模板文件,修改所需內容。清除 Dedecms 快取。

dedecms都能做什麼網站 dedecms都能做什麼網站 Apr 16, 2024 pm 12:24 PM

Dedecms是一款開源CMS,可用於創建各種類型的網站,包括:新聞網站部落格網站電商網站論壇和社群網站教育網站入口網站其他類型的網站(例如企業網站、個人網站、相簿網站、影片分享網站)

dedecms怎麼上傳本機視頻 dedecms怎麼上傳本機視頻 Apr 16, 2024 pm 12:39 PM

如何使用 Dedecms 上傳本機影片?準備影片文件,確保格式符合 Dedecms 支援的格式。登入 Dedecms 管理後台,建立新的影片分類。在影片管理頁面上傳影片文件,填寫相關資訊並選擇影片分類。在編輯文章時嵌入視頻,輸入上傳視頻的文件名並調整尺寸。

dedecms怎麼用 dedecms怎麼用 Apr 16, 2024 pm 12:15 PM

Dedecms 是一款開源中文 CMS 系統,提供內容管理、模板系統和安全保護等功能。具體使用方法包含以下步驟:1. 安裝 Dedecms。 2. 配置資料庫。 3. 登入管理介面。 4. 創建內容。 5. 設定模板。 6. 管理用戶。 7. 維護系統。

dedecms有什麼漏洞 dedecms有什麼漏洞 Aug 03, 2023 pm 03:56 PM

DedeCMS是一個開源的內容管理系統,會存在一些潛在的漏洞和安全風險:1、SQL注入漏洞,攻擊者可以透過建構惡意的SQL查詢語句來執行未經授權的操作或取得敏感資料;2、文件上傳漏洞,攻擊者可以上傳包含惡意程式碼的檔案到伺服器上,從而執行任意程式碼或取得伺服器權限;3、敏感資訊外洩;4、未經身份驗證的漏洞利用。

精準可靠的dedecms轉換工具評測報告 精準可靠的dedecms轉換工具評測報告 Mar 12, 2024 pm 07:03 PM

精準可靠的dedecms轉換工具評測報告隨著網路時代的快速發展,網站建置已成為許多企業和個人必備的工具之一。在網站建置中,使用內容管理系統(CMS)可以更方便有效率地管理網站內容和功能。其中,dedecms作為一款知名的CMS系統,被廣泛應用於各種網站建置專案中。然而,有時候我們會面臨著需要將dedecms網站轉換為其他格式的需求,這時就需要用到轉換工具

簡單學習dedecms編碼轉換功能的方法 簡單學習dedecms編碼轉換功能的方法 Mar 14, 2024 pm 02:09 PM

學習dedecms編碼轉換功能並不複雜,透過簡單的程式碼範例,可以幫助您快速掌握這項技能。在dedecms中,編碼轉換功能通常用於處理中文亂碼、特殊字元等問題,確保系統的正常運作和資料的準確性。以下將詳細介紹如何使用dedecms的編碼轉換功能,讓您輕鬆應對各種編碼相關的需求。 1.UTF-8轉GBK在dedecms中,如果需要將UTF-8編碼的字串轉換為G

See all articles