网页爬虫 - Python爬虫如何正确判断页面是否可以爬取?
ringa_lee
ringa_lee 2017-04-18 10:24:44
0
3
1382

用Python27些爬虫,想要爬取一些网站,我需要判断网页是否可以爬取,第一反应是通过状态码来判断,但是写完运行后发现有许多目标网站访问它不存在的页面时会返回一个404错误页面,可他的状态码却是200,结果爬回来好多根本就不存在的页面。这个本来是网站设置的问题,但是现在也不能用状态码来判断了,请问还有什么方法可以正确判断一个页面是不是404该不该爬?

ringa_lee
ringa_lee

ringa_lee

全員に返信(3)
阿神

まず、ステータスコード200はネットワークの接続状態なので、200だけを判断するだけで全てのWebサイトを満足できるわけではありません。

次に、クローラーを作成するときは、これらの Web サイトのルールが何であるかを実際に確認する必要があります。たとえば、Web ページによって返されるコンテンツに何らかの特徴があるかどうかを最初に手動で判断できます。

いいねを押す +0
黄舟

ウェブページの内容を判断して、ウェブページにコンテンツがない場合は、直接返します。

いいねを押す +0
刘奇

ページステータスコードが200であっても、返される404ページには通常のクロール可能なページのHTMLとは異なるHTML要素が含まれているはずです

特定のHTML要素があるかどうかで404ページであるかどうかを判断することもできます。
いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート