禁止自己的网站被爬虫爬去?有什么方法啊
光阴似箭催人老,日月如移越少年。
次の内容を含む robots.txt ファイルを追加します:
robots.txt を追加して、クローラーに Web サイトをクロールしないよう指示します。ただし、これは、両当事者が遵守する必要がある単なる合意です。
あなたが話しているクローラーが、Baidu クローラーを指すのか、それとも私たちが独自に作成したクローラーを指すのかはわかりません。
Baidu クローラーは上記の方法に従うだけで、すべてのクラスや ID を動的に生成するなど、他の人のクローラーを防ぐ方法はたくさんあります。クローラーは通常、HTML を解析して、クラスまたは ID を通じて必要なものを取得するためです。
爬虫類の種類にもよります 紳士タイプ?ミニチュア? このクローラーが robots.txt の合意を遵守できるのであれば、問題ありませんしかし、これは単なる紳士協定です悪者に遭遇しても、問題ありません
1) JS の gzip 圧縮を試すことができます。多くのクローラーは gzip 圧縮された JS をクロールしません。2) 主要なリソースへの悪意のあるアクセスである場合は、ログを使用して分析します。相手は固定IPですので、相手のIPを禁止してみることができます
正直に言うと、絶対にそれを行うのは不可能です
まず、Web サイトが公開されている場合、内部ネットワークに変更しない限り、クローラーに対して公開されることになります。昨今の機密情報サイトはただ這い回っているだけで、基本的にユーザーエクスペリエンスは向上していません。
ふん、クラスと ID をめちゃくちゃにして、通常のルールと一致しなくすることもできます
Web ページのすべてのコンテンツを js を使用して動的に生成できるかどうかはわかりません
まず第一に、上記のような内部ネットワークでない限り、クローラーのクロールを 100% 防ぐことは困難です。
ただし、ローテク クローラーによる Web サイトの巡回を防ぐために、いくつかの対策を講じることはできます。
具体的な対策については、Zhihu にアクセスしてこの記事を読んでください
お役に立てば幸いです
次の内容を含む robots.txt ファイルを追加します:
リーリーrobots.txt を追加して、クローラーに Web サイトをクロールしないよう指示します。ただし、これは、両当事者が遵守する必要がある単なる合意です。
あなたが話しているクローラーが、Baidu クローラーを指すのか、それとも私たちが独自に作成したクローラーを指すのかはわかりません。
Baidu クローラーは上記の方法に従うだけで、すべてのクラスや ID を動的に生成するなど、他の人のクローラーを防ぐ方法はたくさんあります。クローラーは通常、HTML を解析して、クラスまたは ID を通じて必要なものを取得するためです。
爬虫類の種類にもよります
紳士タイプ?ミニチュア?
このクローラーが robots.txt の合意を遵守できるのであれば、問題ありません
しかし、これは単なる紳士協定です
悪者に遭遇しても、問題ありません
1) JS の gzip 圧縮を試すことができます。多くのクローラーは gzip 圧縮された JS をクロールしません。
2) 主要なリソースへの悪意のあるアクセスである場合は、ログを使用して分析します。相手は固定IPですので、相手のIPを禁止してみることができます
正直に言うと、絶対にそれを行うのは不可能です
まず、Web サイトが公開されている場合、内部ネットワークに変更しない限り、クローラーに対して公開されることになります。昨今の機密情報サイトはただ這い回っているだけで、基本的にユーザーエクスペリエンスは向上していません。
ふん、クラスと ID をめちゃくちゃにして、通常のルールと一致しなくすることもできます
Web ページのすべてのコンテンツを js を使用して動的に生成できるかどうかはわかりません
まず第一に、上記のような内部ネットワークでない限り、クローラーのクロールを 100% 防ぐことは困難です。
ただし、ローテク クローラーによる Web サイトの巡回を防ぐために、いくつかの対策を講じることはできます。
具体的な対策については、Zhihu にアクセスしてこの記事を読んでください
お役に立てば幸いです