Baidu Tieba を収集しました
Python 2.7.11
スクレイピー1.3.3
user_agent が settings.py で有効になっている限り、次のどのメソッドが使用されても問題ありません。何も選ぶことができませんでした。
そして、この user_agent をオフにします。どれも普通に回収できます。これは変ですか?理由が分かりませんか?
USER_AGENT = 'xxxxxxxxxxxxxxxxxxxxxx'
または、ミドルウェア クラス RotateUserAgentMiddleware(UserAgentMiddleware):
を作成します。settings.pyで設定します
DOWNLOADER_MIDDLEWARES = {
リーリー}
user_agent が有効である限り、何も収集されません。走った後。次のコードを出力します:
リーリー リーリー次のいずれの方法が使用されても問題ありません。何も選ぶことができませんでした。
そして、この user_agent をオフにします。どれも普通に回収できます。これは変ですか?理由が分かりませんか?
クロールした Web サイトにはクローラー対策が講じられている可能性があります
クロール防止後、Scrapy は独自に定義された useragent を有効にすると、先頭に追加されます。
模倣する useragent プールを作成することをお勧めします。ブラウザを定期的またはランダムに置き換えて、最も安全です
User_Agent ではなく、User-Agent です。以前にもこの問題がありましたが、後で変更しただけです