python - 禁止自己的网站被爬虫爬去？

Question

禁止自己的网站被爬虫爬去？有什么方法啊

迷茫 · Answer

Ajouter un fichier robots.txt avec du contenu :

User-agent: *
Disallow: /

怪我咯 · Answer

Ajoutez robots.txt pour indiquer au robot d'exploration de ne pas explorer mon site Web, mais il ne sera pas interdit de force. Il s'agit simplement d'un accord que les deux parties doivent respecter.

巴扎黑 · Answer

Je ne sais pas si le robot dont vous parlez fait référence au robot Baidu ou au robot que nous avons écrit nous-mêmes.

Les robots d'exploration Baidu peuvent simplement suivre la méthode ci-dessus. Il existe de nombreuses façons d'empêcher les robots d'autres personnes, par exemple de générer dynamiquement toutes les classes ou tous les identifiants. Parce que les robots analysent généralement le HTML pour obtenir ce qu'ils veulent via la classe ou l'identifiant.

大家讲道理 · Answer

Cela dépend aussi de quel type de reptile il s'agit
Un type gentleman ? Miniature?
Si ce robot peut respecter l'accord robots.txt, alors ce n'est pas grave
Mais ce n'est qu'un gentleman's Agreement
S'il rencontre un méchant, alors ce n'est pas grave

迷茫 · Answer

1) Vous pouvez essayer la compression gzip pour JS. De nombreux robots d'exploration n'analyseront pas les js compressés avec gzip
2) Utilisez le journal pour analyser les journaux du serveur Web s'il s'agit d'un accès malveillant à vos ressources clés et à celles-ci. autre partie C'est une IP fixe, vous pouvez essayer de bannir l'IP de l'autre partie

黄舟 · Answer

Pour être honnête, c’est impossible de le faire absolument

天蓬老师 · Answer

C'est inutile. Tout d'abord, si votre site Web est ouvert aux gens, il sera naturellement ouvert aux robots d'exploration. A moins qu'il ne soit transformé en un réseau interne, si vous vous concentrez sur l'empêchement des robots d'exploration, autant vous améliorer. la qualité. De nos jours, les sites Web d'informations classifiées sont tout simplement rampants, mais l'expérience utilisateur n'est fondamentalement pas améliorée.

迷茫 · Answer

Pfft, vous pouvez gâcher les classes et les identifiants pour que les règles habituelles ne puissent pas correspondre

阿神 · Answer

Je ne sais pas s'il est possible de générer dynamiquement tout le contenu js dans la page Web

巴扎黑 · Answer

Tout d'abord, il vous est difficile d'empêcher l'exploration à 100 % des robots, à moins qu'il ne s'agisse d'un réseau interne comme mentionné ci-dessus.

Mais vous pouvez prendre certaines mesures pour empêcher certains robots d'exploration low-tech d'explorer votre site Web.

Pour des mesures spécifiques, vous pouvez vous rendre sur Zhihu. Pour lire cet article, cliquez ici

J'espère que cela vous aidera