Python クローラーが 403 エラーを返す解決策

伊谢尔伦
リリース: 2017-04-29 10:05:50
オリジナル
6456 人が閲覧しました

問題

データをクロールするとき、通常、デバッグ情報は次のとおりです:

DEBUG: Crawled (200) <GET http://www.php.cn/> (referer: None)
ログイン後にコピー

DEBUG: Crawled (403) <GET http://www.php.cn/> (referer: None)
ログイン後にコピー

が表示される場合、Web サイトが Web クローリング防止技術 (Amazon が使用) を使用していることを意味します。ユーザー エージェントを確認するのは比較的簡単です。 (ユーザーエージェント) 情報。

解決策

以下に示すように、リクエストヘッダーでユーザーエージェントを構築します:

def start_requests(self):  
    yield Request("http://www.php.cn/",  
                  headers={&#39;User-Agent&#39;: "your agent string"})
ログイン後にコピー


以上がPython クローラーが 403 エラーを返す解決策の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート