如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求
网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent。
所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫(蜘蛛)的方式是不靠谱的,更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。
要获得ip的host,在windows下可以通过nslookup命令,在linux下可以通过host命令来获得,例如:
这里我在windows下执行了nslookup ip 的命令,从上图可以看到这个ip的主机名是crawl-66-249-64-119.googlebot.com。 这说明这个ip是一个google爬虫,google爬虫的域名都是 xxx.googlebot.com.
我们也可以通过python程序的方式来获得ip的host信息,代码如下:
import socket def getHost(ip): try: result=socket.gethostbyaddr(ip) if result: return result[0], None except socket.herror,e: return None, e.message
上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。
常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:
百度的蜘蛛通常是baidu.com或者baidu.jp的子域名
google爬虫通常是googlebot.com的子域名
微软bing搜索引擎爬虫是search.msn.com的子域名
搜狗蜘蛛是crawl.sogou.com的子域名
基于以上原理,我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面,该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。
附带常见搜索引擎蜘蛛的IP段:
蜘蛛名称 | IP地址 |
---|---|
Baiduspider |
202.108.11.* 220.181.32.* 58.51.95.* 60.28.22.* 61.135.162.* 61.135.163.* 61.135.168.* |
YodaoBot |
202.108.7.215 202.108.7.220 202.108.7.221 |
Sogou web spider |
219.234.81.* 220.181.61.* |
Googlebot |
203.208.60.* |
Yahoo! Slurp |
202.160.181.* 72.30.215.* 74.6.17.* 74.6.22.* |
Yahoo ContentMatch Crawler |
119.42.226.* 119.42.230.* |
Sogou-Test-Spider |
220.181.19.103 220.181.26.122 |
Twiceler |
38.99.44.104 64.34.251.9 |
Yahoo! Slurp China |
202.160.178.* |
Sosospider | 124.115.0.* |
CollapsarWEB qihoobot |
221.194.136.18 |
NaverBot |
202.179.180.45 |
Sogou Orion spider |
220.181.19.106 220.181.19.74 |
Sogou head spider |
220.181.19.107 |
SurveyBot |
216.145.5.42 64.246.165.160 |
Yanga WorldSearch Bot v |
77.91.224.19 91.205.124.19 |
baiduspider-mobile-gate |
220.181.5.34 61.135.166.31 |
discobot |
208.96.54.70 |
ia_archiver | 209.234.171.42 |
msnbot |
65.55.104.209 65.55.209.86 65.55.209.96 |
sogou in spider |
220.181.19.216 |
ps:https协议网页能够被搜索引擎收录吗
百度现在只能收录少部分的https,大部分的https网页无法收录。
不过我查询了google资料,Google能够比较好地收录https协议的网站。
所以如果你的网站是中文的,而且比较关注搜索引擎自然排名流量这块,建议尽量不要将所有内容都放到https中去加密去。
可考虑的方式是:
1、对于需要加密传递的数据,使用https,比如用户登录以及用户登录后的信息;
2、对于普通的新闻、图片,建议使用http协议来传输;
3、网站首页建议使用http协议的形式。

Outils d'IA chauds

Undresser.AI Undress
Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover
Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool
Images de déshabillage gratuites

Clothoff.io
Dissolvant de vêtements AI

Video Face Swap
Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Outils chauds

Bloc-notes++7.3.1
Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise
Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1
Puissant environnement de développement intégré PHP

Dreamweaver CS6
Outils de développement Web visuel

SublimeText3 version Mac
Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Il est facile de changer de moteur de recherche dans Safari, Google Chrome ou d'autres navigateurs sur votre iPhone ou iPad. Ce tutoriel vous montrera comment le faire sur quatre navigateurs Web différents disponibles sur iPhone et iPad. Comment changer le moteur de recherche Safari sur iPhone ou iPad Safari est le navigateur Web par défaut sur iOS et iPadOS, mais vous n'aimerez peut-être pas le moteur de recherche. Heureusement, vous pouvez suivre ces étapes pour le modifier : Sur votre iPhone ou iPad, lancez Paramètres depuis l'écran d'accueil. Faites glisser votre doigt vers le bas et appuyez sur Safari dans la liste. Dans le menu suivant,

Baidu Cloud est un logiciel qui permet aux utilisateurs de stocker de nombreux fichiers. Alors, quelle est l'entrée du moteur de recherche Baidu Cloud Disk ? Les utilisateurs peuvent saisir l'URL https://pan.baidu.com pour accéder à Baidu Cloud Disk. Ce partage de la dernière entrée du moteur de recherche Baidu Cloud Disk vous donnera une introduction détaillée. . Entrée du moteur de recherche de disque cloud Baidu 1. Site Web de recherche Qianfan : https://pan.qianfan.app Prend en charge le disque réseau : recherche globale, Alibaba, Baidu, Quark, Lanzuo, Tianyi, méthode de visualisation du disque réseau Xunlei : connexion requise, suivez l'entreprise Avantages de l'obtention du code d'activation : Le disque réseau est complet, les ressources sont nombreuses et l'interface est simple. 2. Site Internet de Maolipansou : alipansou.c

Développement Java : comment implémenter les fonctions de moteur de recherche et de récupération de texte intégral, des exemples de code spécifiques sont nécessaires. Les moteurs de recherche et la récupération de texte intégral sont des fonctions importantes à l'ère moderne d'Internet. Non seulement ils aident les utilisateurs à trouver rapidement ce qu’ils recherchent, mais ils offrent également une meilleure expérience utilisateur pour les sites Web et les applications. Cet article explique comment utiliser Java pour développer des moteurs de recherche et des fonctions de récupération de texte intégral, et fournit des exemples de code spécifiques. Recherche en texte intégral à l'aide de la bibliothèque Lucene Lucene est une bibliothèque de moteur de recherche en texte intégral open source, développée par ApacheSo.

Optimisation des performances des moteurs de recherche PHP : la méthode magique d'Algolia Avec le développement d'Internet et les exigences croissantes des utilisateurs en matière d'expérience de recherche, l'optimisation des performances des moteurs de recherche est devenue cruciale. Dans le monde du développement PHP, Algolia est un service de moteur de recherche puissant et facile à intégrer. Cet article présentera les utilisations magiques d'Algolia et comment optimiser les performances des moteurs de recherche PHP via Algolia. Introduction à AlgoliaAlgolia est un fournisseur de services de moteurs de recherche basé sur le modèle SaaS.

Depuis son lancement à la fin de l'année dernière, ChatGPT est considéré comme une menace majeure pour les méthodes traditionnelles de recherche d'informations. Parce qu'il est diversifié, vous pouvez répondre aux questions des gens, écrire des essais ou des poèmes, ou même écrire du code de programme. La capacité de l'IA conversationnelle à fournir des réponses cohérentes est considérée comme une menace pour le moteur de recherche de Google, qui constitue depuis des décennies la plate-forme de référence permettant aux internautes de rechercher des informations sur Internet. ChatGPT d'OpenAI peut adapter les réponses aux questions spécifiques posées par les utilisateurs, ce qui peut faire gagner du temps lors de la navigation sur les sites Web. Un rapport publié par le New York Times en décembre a révélé que le succès immédiat de ChatGPT a forcé Google à l'appeler « Code Red » et à commencer à s'attaquer à la menace que représentent les chatbots à intelligence artificielle pour son activité de moteur de recherche. selon

Comment changer de moteur de recherche dans Google Chrome ? Google Chrome est un navigateur très populaire parmi les utilisateurs. Il propose non seulement des services simples et faciles à utiliser, des outils pratiques et d'autres fonctions auxiliaires, mais peut également répondre aux différents besoins des différents utilisateurs. Les moteurs de recherche sont généralement ceux de Google. je veux Comment dois-je le configurer pour le remplacer ? Permettez-moi de partager la méthode ci-dessous. Méthode de remplacement 1. Cliquez pour ouvrir Google Chrome. 2. Cliquez sur l'icône à trois points pour ouvrir l'interface du menu. 3. Cliquez sur l'option Paramètres pour accéder à l'interface des paramètres du navigateur. 4. Recherchez le module du moteur de recherche dans l'interface des paramètres. 5. Cliquez sur le bouton Gérer le moteur de recherche. 6. Vous pouvez voir un bouton Ajouter. Cliquez sur ce bouton Ajouter pour ajouter un moteur de recherche.

Avec le développement continu de l’ère de l’information, les gens comptent de plus en plus sur Internet pour obtenir des informations. En tant que plate-forme de partage d’informations, les moteurs de recherche Web évoluent et s’améliorent également constamment. Cet article présentera comment implémenter un moteur de recherche en texte intégral dans PHP7.0, aidant les lecteurs à mieux utiliser la technologie PHP et à créer rapidement un moteur de recherche efficace. 1. Présentation du moteur de recherche en texte intégral La recherche en texte intégral utilise des mots-clés ou des expressions pour rechercher dans tout le document afin de trouver les résultats les plus correspondants. Les moteurs de recherche en texte intégral utilisent des algorithmes pour indexer les documents afin d'accélérer les recherches. exister

Google Chrome est très bon. De nombreux amis l'utilisent. De nombreux amis souhaitent utiliser le moteur de recherche de Google, mais ne savent pas comment l'utiliser. Voici un aperçu rapide de la façon d'utiliser la barre de recherche Google Chrome. . Comment utiliser le moteur de recherche Google dans Google Chrome : 1. Ouvrez Google Chrome et cliquez sur Plus dans le coin supérieur droit pour ouvrir les paramètres. 2. Après avoir entré les paramètres, cliquez sur « Moteur de recherche » sur la gauche. 3. Vérifiez si votre moteur de recherche est « Google ». 4. Sinon, vous pouvez cliquer sur le bouton déroulant et le remplacer par « Google ».
