网页爬虫 - Python爬虫如何正确判断页面是否可以爬取？

Question

用Python27些爬虫，想要爬取一些网站，我需要判断网页是否可以爬取，第一反应是通过状态码来判断，但是写完运行后发现有许多目标网站访问它不存在的页面时会返回一个404错误页面，可他的状态码却是200，结果爬回...

阿神 · Answer

首先， 200 狀態碼，是網路連線狀態，所以你只判斷200並不能滿足所有網站。

其次，寫爬蟲嘛，你應該實際去看看這些網站的規則是什麼，可以先人工判斷下，找找規律，比如看看網頁返回內容是不是有什麼特點之類的。

黄舟 · Answer

做個網頁內容的判斷，如果他網頁裡面沒有內容就直接回傳。

怪我咯 · Answer

就算是頁面狀態碼200，返回的404頁面，應該和正常能爬取的頁面html有不同的html元素吧，根據有沒有特定的html元素來判斷是不是404頁面也行的