Maison développement back-end Tutoriel Python 如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求

如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求

Jun 06, 2016 am 11:14 AM
搜索引擎

网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent。

所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫(蜘蛛)的方式是不靠谱的,更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。

要获得ip的host,在windows下可以通过nslookup命令,在linux下可以通过host命令来获得,例如:

这里我在windows下执行了nslookup ip 的命令,从上图可以看到这个ip的主机名是crawl-66-249-64-119.googlebot.com。 这说明这个ip是一个google爬虫,google爬虫的域名都是 xxx.googlebot.com.

我们也可以通过python程序的方式来获得ip的host信息,代码如下:

import socket
def getHost(ip):
 try:
 result=socket.gethostbyaddr(ip)
 if result: return result[0], None
 except socket.herror,e:
 return None, e.message
Copier après la connexion

上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。

常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:

百度的蜘蛛通常是baidu.com或者baidu.jp的子域名

google爬虫通常是googlebot.com的子域名

微软bing搜索引擎爬虫是search.msn.com的子域名

搜狗蜘蛛是crawl.sogou.com的子域名

基于以上原理,我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面,该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。

附带常见搜索引擎蜘蛛的IP段:

蜘蛛名称 IP地址
Baiduspider

202.108.11.* 220.181.32.* 58.51.95.* 60.28.22.* 61.135.162.* 61.135.163.* 61.135.168.*

YodaoBot

202.108.7.215 202.108.7.220 202.108.7.221

Sogou web spider

219.234.81.* 220.181.61.*

Googlebot

203.208.60.*

Yahoo! Slurp

202.160.181.* 72.30.215.* 74.6.17.* 74.6.22.*

Yahoo ContentMatch Crawler

119.42.226.* 119.42.230.*

Sogou-Test-Spider

220.181.19.103 220.181.26.122

Twiceler

38.99.44.104 64.34.251.9

Yahoo! Slurp China

202.160.178.*

Sosospider 124.115.0.*
CollapsarWEB qihoobot

221.194.136.18

NaverBot

202.179.180.45

Sogou Orion spider

220.181.19.106 220.181.19.74

Sogou head spider

220.181.19.107

SurveyBot

216.145.5.42 64.246.165.160

Yanga WorldSearch Bot v

77.91.224.19 91.205.124.19

baiduspider-mobile-gate

220.181.5.34 61.135.166.31

discobot

208.96.54.70

ia_archiver 209.234.171.42
msnbot

65.55.104.209 65.55.209.86 65.55.209.96

sogou in spider

220.181.19.216

ps:https协议网页能够被搜索引擎收录吗

百度现在只能收录少部分的https,大部分的https网页无法收录。

不过我查询了google资料,Google能够比较好地收录https协议的网站。

所以如果你的网站是中文的,而且比较关注搜索引擎自然排名流量这块,建议尽量不要将所有内容都放到https中去加密去。

可考虑的方式是:

1、对于需要加密传递的数据,使用https,比如用户登录以及用户登录后的信息;

2、对于普通的新闻、图片,建议使用http协议来传输;

3、网站首页建议使用http协议的形式。

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Comment changer de moteur de recherche sur iPhone et iPad Comment changer de moteur de recherche sur iPhone et iPad Apr 25, 2023 am 08:28 AM

Il est facile de changer de moteur de recherche dans Safari, Google Chrome ou d'autres navigateurs sur votre iPhone ou iPad. Ce tutoriel vous montrera comment le faire sur quatre navigateurs Web différents disponibles sur iPhone et iPad. Comment changer le moteur de recherche Safari sur iPhone ou iPad Safari est le navigateur Web par défaut sur iOS et iPadOS, mais vous n'aimerez peut-être pas le moteur de recherche. Heureusement, vous pouvez suivre ces étapes pour le modifier : Sur votre iPhone ou iPad, lancez Paramètres depuis l'écran d'accueil. Faites glisser votre doigt vers le bas et appuyez sur Safari dans la liste. Dans le menu suivant,

Entrée du moteur de recherche de disque cloud Baidu Entrée du moteur de recherche de disque cloud Baidu Feb 27, 2024 pm 01:00 PM

Baidu Cloud est un logiciel qui permet aux utilisateurs de stocker de nombreux fichiers. Alors, quelle est l'entrée du moteur de recherche Baidu Cloud Disk ? Les utilisateurs peuvent saisir l'URL https://pan.baidu.com pour accéder à Baidu Cloud Disk. Ce partage de la dernière entrée du moteur de recherche Baidu Cloud Disk vous donnera une introduction détaillée. . Entrée du moteur de recherche de disque cloud Baidu 1. Site Web de recherche Qianfan : https://pan.qianfan.app Prend en charge le disque réseau : recherche globale, Alibaba, Baidu, Quark, Lanzuo, Tianyi, méthode de visualisation du disque réseau Xunlei : connexion requise, suivez l'entreprise Avantages de l'obtention du code d'activation : Le disque réseau est complet, les ressources sont nombreuses et l'interface est simple. 2. Site Internet de Maolipansou : alipansou.c

Développement Java : comment implémenter des fonctions de moteur de recherche et de récupération de texte intégral Développement Java : comment implémenter des fonctions de moteur de recherche et de récupération de texte intégral Sep 21, 2023 pm 01:10 PM

Développement Java : comment implémenter les fonctions de moteur de recherche et de récupération de texte intégral, des exemples de code spécifiques sont nécessaires. Les moteurs de recherche et la récupération de texte intégral sont des fonctions importantes à l'ère moderne d'Internet. Non seulement ils aident les utilisateurs à trouver rapidement ce qu’ils recherchent, mais ils offrent également une meilleure expérience utilisateur pour les sites Web et les applications. Cet article explique comment utiliser Java pour développer des moteurs de recherche et des fonctions de récupération de texte intégral, et fournit des exemples de code spécifiques. Recherche en texte intégral à l'aide de la bibliothèque Lucene Lucene est une bibliothèque de moteur de recherche en texte intégral open source, développée par ApacheSo.

Optimisation des performances du moteur de recherche PHP : le tour de magie d'Algolia Optimisation des performances du moteur de recherche PHP : le tour de magie d'Algolia Jul 23, 2023 pm 04:21 PM

Optimisation des performances des moteurs de recherche PHP : la méthode magique d'Algolia Avec le développement d'Internet et les exigences croissantes des utilisateurs en matière d'expérience de recherche, l'optimisation des performances des moteurs de recherche est devenue cruciale. Dans le monde du développement PHP, Algolia est un service de moteur de recherche puissant et facile à intégrer. Cet article présentera les utilisations magiques d'Algolia et comment optimiser les performances des moteurs de recherche PHP via Algolia. Introduction à AlgoliaAlgolia est un fournisseur de services de moteurs de recherche basé sur le modèle SaaS.

Dans le domaine de la recherche par intelligence artificielle, Google et Microsoft sont en concurrence Dans le domaine de la recherche par intelligence artificielle, Google et Microsoft sont en concurrence Apr 08, 2023 am 11:31 AM

Depuis son lancement à la fin de l'année dernière, ChatGPT est considéré comme une menace majeure pour les méthodes traditionnelles de recherche d'informations. Parce qu'il est diversifié, vous pouvez répondre aux questions des gens, écrire des essais ou des poèmes, ou même écrire du code de programme. La capacité de l'IA conversationnelle à fournir des réponses cohérentes est considérée comme une menace pour le moteur de recherche de Google, qui constitue depuis des décennies la plate-forme de référence permettant aux internautes de rechercher des informations sur Internet. ChatGPT d'OpenAI peut adapter les réponses aux questions spécifiques posées par les utilisateurs, ce qui peut faire gagner du temps lors de la navigation sur les sites Web. Un rapport publié par le New York Times en décembre a révélé que le succès immédiat de ChatGPT a forcé Google à l'appeler « Code Red » et à commencer à s'attaquer à la menace que représentent les chatbots à intelligence artificielle pour son activité de moteur de recherche. selon

Comment configurer Google Chrome pour changer de moteur de recherche ? Comment changer de moteur de recherche dans le navigateur ? Comment configurer Google Chrome pour changer de moteur de recherche ? Comment changer de moteur de recherche dans le navigateur ? Mar 15, 2024 pm 12:49 PM

Comment changer de moteur de recherche dans Google Chrome ? Google Chrome est un navigateur très populaire parmi les utilisateurs. Il propose non seulement des services simples et faciles à utiliser, des outils pratiques et d'autres fonctions auxiliaires, mais peut également répondre aux différents besoins des différents utilisateurs. Les moteurs de recherche sont généralement ceux de Google. je veux Comment dois-je le configurer pour le remplacer ? Permettez-moi de partager la méthode ci-dessous. Méthode de remplacement 1. Cliquez pour ouvrir Google Chrome. 2. Cliquez sur l'icône à trois points pour ouvrir l'interface du menu. 3. Cliquez sur l'option Paramètres pour accéder à l'interface des paramètres du navigateur. 4. Recherchez le module du moteur de recherche dans l'interface des paramètres. 5. Cliquez sur le bouton Gérer le moteur de recherche. 6. Vous pouvez voir un bouton Ajouter. Cliquez sur ce bouton Ajouter pour ajouter un moteur de recherche.​

Comment implémenter un moteur de recherche plein texte en PHP7.0 ? Comment implémenter un moteur de recherche plein texte en PHP7.0 ? May 26, 2023 pm 04:51 PM

Avec le développement continu de l’ère de l’information, les gens comptent de plus en plus sur Internet pour obtenir des informations. En tant que plate-forme de partage d’informations, les moteurs de recherche Web évoluent et s’améliorent également constamment. Cet article présentera comment implémenter un moteur de recherche en texte intégral dans PHP7.0, aidant les lecteurs à mieux utiliser la technologie PHP et à créer rapidement un moteur de recherche efficace. 1. Présentation du moteur de recherche en texte intégral La recherche en texte intégral utilise des mots-clés ou des expressions pour rechercher dans tout le document afin de trouver les résultats les plus correspondants. Les moteurs de recherche en texte intégral utilisent des algorithmes pour indexer les documents afin d'accélérer les recherches. exister

Comment utiliser le moteur de recherche Google Chrome Comment utiliser le moteur de recherche Google Chrome Jan 04, 2024 am 11:15 AM

Google Chrome est très bon. De nombreux amis l'utilisent. De nombreux amis souhaitent utiliser le moteur de recherche de Google, mais ne savent pas comment l'utiliser. Voici un aperçu rapide de la façon d'utiliser la barre de recherche Google Chrome. . Comment utiliser le moteur de recherche Google dans Google Chrome : 1. Ouvrez Google Chrome et cliquez sur Plus dans le coin supérieur droit pour ouvrir les paramètres. 2. Après avoir entré les paramètres, cliquez sur « Moteur de recherche » sur la gauche. 3. Vérifiez si votre moteur de recherche est « Google ». 4. Sinon, vous pouvez cliquer sur le bouton déroulant et le remplacer par « Google ».

See all articles