python - 禁止自己的网站被爬虫爬去?
大家讲道理
大家讲道理 2017-04-17 17:33:35
0
13
1114

禁止自己的网站被爬虫爬去?有什么方法啊

大家讲道理
大家讲道理

光阴似箭催人老,日月如移越少年。

répondre à tous(13)
迷茫

Ajouter un fichier robots.txt avec du contenu :

User-agent: *
Disallow: /
刘奇

Ajoutez robots.txt pour indiquer au robot d'exploration de ne pas explorer mon site Web, mais il ne sera pas interdit de force. Il s'agit simplement d'un accord que les deux parties doivent respecter.

巴扎黑

Je ne sais pas si le robot dont vous parlez fait référence au robot Baidu ou au robot que nous avons écrit nous-mêmes.

Les robots d'exploration Baidu peuvent simplement suivre la méthode ci-dessus. Il existe de nombreuses façons d'empêcher les robots d'autres personnes, par exemple de générer dynamiquement toutes les classes ou tous les identifiants. Parce que les robots analysent généralement le HTML pour obtenir ce qu'ils veulent via la classe ou l'identifiant.

大家讲道理

Cela dépend aussi de quel type de reptile il s'agit
Un type gentleman ? Miniature?
Si ce robot peut respecter l'accord robots.txt, alors ce n'est pas grave
Mais ce n'est qu'un gentleman's Agreement
S'il rencontre un méchant, alors ce n'est pas grave

迷茫

1) Vous pouvez essayer la compression gzip pour JS. De nombreux robots d'exploration n'analyseront pas les js compressés avec gzip
2) Utilisez le journal pour analyser les journaux du serveur Web s'il s'agit d'un accès malveillant à vos ressources clés et à celles-ci. autre partie C'est une IP fixe, vous pouvez essayer de bannir l'IP de l'autre partie

黄舟

Pour être honnête, c’est impossible de le faire absolument

Peter_Zhu

C'est inutile. Tout d'abord, si votre site Web est ouvert aux gens, il sera naturellement ouvert aux robots d'exploration. A moins qu'il ne soit transformé en un réseau interne, si vous vous concentrez sur l'empêchement des robots d'exploration, autant vous améliorer. la qualité. De nos jours, les sites Web d'informations classifiées sont tout simplement rampants, mais l'expérience utilisateur n'est fondamentalement pas améliorée.

迷茫

Pfft, vous pouvez gâcher les classes et les identifiants pour que les règles habituelles ne puissent pas correspondre

阿神

Je ne sais pas s'il est possible de générer dynamiquement tout le contenu js dans la page Web

巴扎黑

Tout d'abord, il vous est difficile d'empêcher l'exploration à 100 % des robots, à moins qu'il ne s'agisse d'un réseau interne comme mentionné ci-dessus.

Mais vous pouvez prendre certaines mesures pour empêcher certains robots d'exploration low-tech d'explorer votre site Web.

Pour des mesures spécifiques, vous pouvez vous rendre sur Zhihu. Pour lire cet article, cliquez ici

J'espère que cela vous aidera

Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal