苦想了幾天,終於弄清楚了裡面的道理。在這裡寫出來,請高手指正。
採集程式的思路很簡單,無非就是先打一個頁面,一般都是列表頁,取得裡面全部鏈接的地址,然後打開逐條鏈接,尋找我們感興趣的東西,如果找到,就把它入庫或別的處理。下面以一個很簡單的例子來說說。
先確定一個採集頁,一般就是列表面了。這裡目標是:http://www.jb51.net/article/11/index.htm。這是一個清單頁,我們的目的就是要收集這個清單頁上全部的文章。
有清單頁了,第一步先打開它,把它的內容納入到我們的程式中。一般用fopen或是file_get_contents這兩個函數,我們這裡用fopen作範例。怎麼打開它?很簡單:$source=fopen("http://www.jb51.net/article/11/index.htm",'r');實際上已經把內容納入到我們的程式中來了。注意得到的$source是一個資源,不是可處理的文本,所以再用函數fread將內容讀到一個變數中,這次就是真正的可編輯的文本了。例:
$c//www.jb51.net/article/7/all/545.1.htm)]。透過查看原始程式碼,我們可以看到裡面文章的連結位址全是這個樣子