Python - Scrapy の settings.py で USER_AGENT が有効になっているのに何も収集できないのはなぜですか?レベルを閉じると、Web ページを収集できます。
伊谢尔伦
伊谢尔伦 2017-05-18 10:49:23
0
3
906

Baidu Tieba を収集しました

Python 2.7.11

スクレイピー1.3.3

user_agent が settings.py で有効になっている限り、次のどのメソッドが使用されても問題ありません。何も選ぶことができませんでした。

そして、この user_agent をオフにします。どれも普通に回収できます。これは変ですか?理由が分かりませんか?

USER_AGENT = 'xxxxxxxxxxxxxxxxxxxxxx'

または、ミドルウェア クラス RotateUserAgentMiddleware(UserAgentMiddleware):

を作成します。

settings.pyで設定します

DOWNLOADER_MIDDLEWARES = {

リーリー

}

user_agent が有効である限り、何も収集されません。走った後。次のコードを出力します:

リーリー リーリー

次のいずれの方法が使用されても問題ありません。何も選ぶことができませんでした。

そして、この user_agent をオフにします。どれも普通に回収できます。これは変ですか?理由が分かりませんか?

伊谢尔伦
伊谢尔伦

小伙看你根骨奇佳,潜力无限,来学PHP伐。

全員に返信(3)
为情所困

クロールした Web サイトにはクローラー対策が講じられている可能性があります

いいねを押す +0
巴扎黑

クロール防止後、Scrapy は独自に定義された useragent を有効にすると、先頭に追加されます。
模倣する useragent プールを作成することをお勧めします。ブラウザを定期的またはランダムに置き換えて、最も安全です

いいねを押す +0
大家讲道理

User_Agent ではなく、User-Agent です。以前にもこの問題がありましたが、後で変更しただけです

いいねを押す +0
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート