用Python27些爬虫,想要爬取一些网站,我需要判断网页是否可以爬取,第一反应是通过状态码来判断,但是写完运行后发现有许多目标网站访问它不存在的页面时会返回一个404错误页面,可他的状态码却是200,结果爬回来好多根本就不存在的页面。这个本来是网站设置的问题,但是现在也不能用状态码来判断了,请问还有什么方法可以正确判断一个页面是不是404该不该爬?
ringa_lee
首先, 200 狀態碼,是網路連線狀態, 所以你只判斷200並不能滿足所有網站。
其次, 寫爬蟲嘛, 你應該實際去看看這些網站的規則是什麼,可以先人工判斷下, 找找規律, 比如看看網頁返回內容是不是有什麼特點之類的。
做個網頁內容的判斷,如果他網頁裡面沒有內容就直接回傳。
就算是頁面狀態碼200,返回的404頁面,應該和正常能爬取的頁面html有不同的html元素吧,根據有沒有特定的html元素來判斷是不是404頁面也行的
首先, 200 狀態碼,是網路連線狀態, 所以你只判斷200並不能滿足所有網站。
其次, 寫爬蟲嘛, 你應該實際去看看這些網站的規則是什麼,可以先人工判斷下, 找找規律, 比如看看網頁返回內容是不是有什麼特點之類的。
做個網頁內容的判斷,如果他網頁裡面沒有內容就直接回傳。
就算是頁面狀態碼200,返回的404頁面,應該和正常能爬取的頁面html有不同的html元素吧,根據有沒有特定的html元素來判斷是不是404頁面也行的