查看網站被百度抓取的情況的方法:透過分析網站日誌中百度蜘蛛的活躍性、抓取頻率、返回的HTTP狀態碼等來實現。還可以查看網站根目錄下的日誌文件,該文件記錄了網站被存取和操作的情況。
百度用來抓取網頁的程式叫做Baiduspider - 百度蜘蛛,我們查看網站被百度抓取的情況主要是分析,網站日誌裡百度蜘蛛Baiduspider的活躍性:抓取頻率,傳回的HTTP狀態碼。
查看日誌的方式:
透過FTP,在網站根目錄找到一個日誌文件,檔案名稱一般包含log,下載解壓縮裡面的記事本,這即是網站的日誌,記錄了網站被存取和操作的情況。
因為各伺服器和主機的狀況不同,不同的主機日誌功能記錄的內容不同,有的甚至沒有日誌功能。
日誌內容如下:
61.135.168.22 - - [11/Jan/2009:04:02:45 0800] "GET /bbs/thread-7303- 1-1.html HTTP/1.1" 200 8450 "-" "Baiduspider ( http://www.baidu.com/search/spider.htm)"
#分析:
GET / bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 此頁。
200 代表成功抓取。
8450 代表抓取了8450個位元組。
如果你的日誌裡格式不是如此,則代表日誌格式設定不同。
很多日誌可以看到 200 0 0和200 0 64 則都代表正常抓取。
抓取頻率是透過查看每日的日誌裡百度蜘蛛抓取次數來獲知。抓取頻率並沒有一個規範的時間表或頻率數字,我們一般透過多日的日誌對比來判斷。當然,我們希望百度蜘蛛每日抓取的次數越多越好。
以上是如何查看網站被百度抓取的情況的詳細內容。更多資訊請關注PHP中文網其他相關文章!