php - スヌーピークローラーがエラー 405 を報告します許可されていません

Question

コード $httpClass = new Snoopy();$httpClass->fetch('https://v.qq.com/');$url = $httpClass->results;print_r($url);die(); https://www.baidu.com/ をクロールすると、405 エラーが報告され続けます。 https://v.qq.com/ のクロールは正常な操作です。

淡淡烟草味 · Answer

Baidu にはおそらくクローラーのような設定があるので、それを偽装して UA などを定義する必要があります
参考: http://www.4wei.cn/archives/396

天蓬老师 · Answer

これはスヌーピータイプの問題ではありません。クローラーについてあまり知らないからです。クローラーが存在するので、当然、対クローラー技術も存在します。最も単純なものは、ブラウザ識別子またはリクエストヘッダー内のリファラーなどに基づきます。 Baidu や Tencent のような大手 Web サイトは、私たちがデータをクロールすることを望まないため、多くの予防策を講じているはずです。したがって、データをクロールする前に、クローラーの知識を理解することをお勧めします。