Heim Backend-Entwicklung Python-Tutorial 如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求

如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求

Jun 06, 2016 am 11:14 AM
搜索引擎

网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent。

所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫(蜘蛛)的方式是不靠谱的,更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。

要获得ip的host,在windows下可以通过nslookup命令,在linux下可以通过host命令来获得,例如:

这里我在windows下执行了nslookup ip 的命令,从上图可以看到这个ip的主机名是crawl-66-249-64-119.googlebot.com。 这说明这个ip是一个google爬虫,google爬虫的域名都是 xxx.googlebot.com.

我们也可以通过python程序的方式来获得ip的host信息,代码如下:

import socket
def getHost(ip):
 try:
 result=socket.gethostbyaddr(ip)
 if result: return result[0], None
 except socket.herror,e:
 return None, e.message
Nach dem Login kopieren

上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。

常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:

百度的蜘蛛通常是baidu.com或者baidu.jp的子域名

google爬虫通常是googlebot.com的子域名

微软bing搜索引擎爬虫是search.msn.com的子域名

搜狗蜘蛛是crawl.sogou.com的子域名

基于以上原理,我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面,该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。

附带常见搜索引擎蜘蛛的IP段:

蜘蛛名称 IP地址
Baiduspider

202.108.11.* 220.181.32.* 58.51.95.* 60.28.22.* 61.135.162.* 61.135.163.* 61.135.168.*

YodaoBot

202.108.7.215 202.108.7.220 202.108.7.221

Sogou web spider

219.234.81.* 220.181.61.*

Googlebot

203.208.60.*

Yahoo! Slurp

202.160.181.* 72.30.215.* 74.6.17.* 74.6.22.*

Yahoo ContentMatch Crawler

119.42.226.* 119.42.230.*

Sogou-Test-Spider

220.181.19.103 220.181.26.122

Twiceler

38.99.44.104 64.34.251.9

Yahoo! Slurp China

202.160.178.*

Sosospider 124.115.0.*
CollapsarWEB qihoobot

221.194.136.18

NaverBot

202.179.180.45

Sogou Orion spider

220.181.19.106 220.181.19.74

Sogou head spider

220.181.19.107

SurveyBot

216.145.5.42 64.246.165.160

Yanga WorldSearch Bot v

77.91.224.19 91.205.124.19

baiduspider-mobile-gate

220.181.5.34 61.135.166.31

discobot

208.96.54.70

ia_archiver 209.234.171.42
msnbot

65.55.104.209 65.55.209.86 65.55.209.96

sogou in spider

220.181.19.216

ps:https协议网页能够被搜索引擎收录吗

百度现在只能收录少部分的https,大部分的https网页无法收录。

不过我查询了google资料,Google能够比较好地收录https协议的网站。

所以如果你的网站是中文的,而且比较关注搜索引擎自然排名流量这块,建议尽量不要将所有内容都放到https中去加密去。

可考虑的方式是:

1、对于需要加密传递的数据,使用https,比如用户登录以及用户登录后的信息;

2、对于普通的新闻、图片,建议使用http协议来传输;

3、网站首页建议使用http协议的形式。

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

So ändern Sie Suchmaschinen auf iPhone und iPad So ändern Sie Suchmaschinen auf iPhone und iPad Apr 25, 2023 am 08:28 AM

Es ist ganz einfach, die Suchmaschine in Safari, Google Chrome oder anderen Browsern auf Ihrem iPhone oder iPad zu ändern. Dieses Tutorial zeigt Ihnen, wie Sie dies in vier verschiedenen Webbrowsern tun, die auf iPhone und iPad verfügbar sind. So ändern Sie die Safari-Suchmaschine auf dem iPhone oder iPad Safari ist der Standard-Webbrowser auf iOS und iPadOS, aber die Suchmaschine gefällt Ihnen möglicherweise nicht. Glücklicherweise können Sie dies mit den folgenden Schritten ändern: Starten Sie auf Ihrem iPhone oder iPad die Einstellungen auf dem Startbildschirm. Wischen Sie nach unten und tippen Sie in der Liste auf Safari. Im nächsten Menü

Einstieg in die Baidu-Cloud-Disk-Suchmaschine Einstieg in die Baidu-Cloud-Disk-Suchmaschine Feb 27, 2024 pm 01:00 PM

Baidu Cloud ist eine Software, die es Benutzern ermöglicht, viele Dateien zu speichern. Was ist also der Zugang zur Baidu Cloud Disk-Suchmaschine? Benutzer können die URL https://pan.baidu.com eingeben, um den neuesten Zugang zur Baidu Cloud Disk-Suchmaschine zu erhalten. Im Folgenden finden Sie eine detaillierte Einführung. . Einstieg in die Baidu-Cloud-Disk-Suchmaschine 1. Qianfan-Suchwebsite: https://pan.qianfan.app Unterstützt Netzwerkdatenträger: aggregierte Suche, Alibaba, Baidu, Quark, Lanzuo, Tianyi, Xunlei Netzwerkdatenträger-Anzeigemethode: Anmeldung erforderlich, folgen Sie dem Unternehmen Vorteile des Erwerbs des Aktivierungscodes: Die Netzwerkfestplatte ist umfassend, es gibt viele Ressourcen und die Schnittstelle ist einfach. 2. Maolipansou-Website: alipansou.c

Java-Entwicklung: So implementieren Sie Suchmaschinen- und Volltext-Retrieval-Funktionen Java-Entwicklung: So implementieren Sie Suchmaschinen- und Volltext-Retrieval-Funktionen Sep 21, 2023 pm 01:10 PM

Java-Entwicklung: Für die Implementierung von Suchmaschinen- und Volltext-Retrieval-Funktionen sind spezifische Codebeispiele erforderlich. Suchmaschinen und Volltext-Retrieval sind wichtige Funktionen im modernen Internetzeitalter. Sie helfen Benutzern nicht nur dabei, schnell zu finden, was sie suchen, sondern sorgen auch für ein besseres Benutzererlebnis für Websites und Apps. In diesem Artikel wird die Verwendung von Java zur Entwicklung von Suchmaschinen und Volltextabruffunktionen vorgestellt und einige spezifische Codebeispiele bereitgestellt. Volltextsuche mit der Lucene-Bibliothek Lucene ist eine Open-Source-Volltextsuchmaschinenbibliothek, die von ApacheSo entwickelt wurde

PHP-Suchmaschinenleistungsoptimierung: Algolias magische Wege PHP-Suchmaschinenleistungsoptimierung: Algolias magische Wege Jul 23, 2023 pm 04:21 PM

Optimierung der Suchmaschinenleistung mit PHP: Algolias magischer Weg Mit der Entwicklung des Internets und den steigenden Anforderungen der Benutzer an das Sucherlebnis ist die Optimierung der Suchmaschinenleistung von entscheidender Bedeutung geworden. In der Welt der PHP-Entwicklung ist Algolia ein leistungsstarker und einfach zu integrierender Suchmaschinendienst. In diesem Artikel werden die magischen Einsatzmöglichkeiten von Algolia vorgestellt und erläutert, wie Sie die Leistung von PHP-Suchmaschinen mithilfe von Algolia optimieren können. Einführung in AlgoliaAlgolia ist ein Suchmaschinendienstleister, der auf dem SaaS-Modell basiert.

Im Bereich der Suche mit künstlicher Intelligenz konkurrieren Google und Microsoft Im Bereich der Suche mit künstlicher Intelligenz konkurrieren Google und Microsoft Apr 08, 2023 am 11:31 AM

Seit seiner Einführung Ende letzten Jahres gilt ChatGPT als große Bedrohung für traditionelle Methoden der Informationssuche. Da es vielfältig ist, können Sie Fragen anderer beantworten, Aufsätze oder Gedichte schreiben oder sogar Programmcode schreiben. Die Fähigkeit der Konversations-KI, kohärente Antworten zu liefern, wird als Bedrohung für die Suchmaschine Google angesehen, die seit Jahrzehnten die Benchmark-Plattform für die Suche nach Informationen im Internet ist. ChatGPT von OpenAI kann Antworten auf spezifische Fragen von Benutzern zuschneiden, wodurch Zeit beim Surfen auf Websites gespart werden kann. Ein im Dezember veröffentlichter Bericht der New York Times enthüllte, dass der über Nacht große Erfolg von ChatGPT Google dazu zwang, es „Code Red“ zu nennen und damit zu beginnen, sich mit der Bedrohung zu befassen, die Chatbots mit künstlicher Intelligenz für sein Suchmaschinengeschäft darstellen. entsprechend

Wie richte ich Google Chrome ein, um die Suchmaschine zu ändern? Wie ändere ich die Suchmaschine im Browser? Wie richte ich Google Chrome ein, um die Suchmaschine zu ändern? Wie ändere ich die Suchmaschine im Browser? Mar 15, 2024 pm 12:49 PM

Wie ändere ich die Suchmaschine in Google Chrome? Google Chrome ist bei Nutzern ein sehr beliebter Browser. Er verfügt nicht nur über einfache und benutzerfreundliche Dienste, praktische Tools und andere Zusatzfunktionen, sondern kann auch die unterschiedlichen Anforderungen verschiedener Nutzer erfüllen möchte Wie soll ich es einrichten, um es zu ersetzen? Lassen Sie mich die Methode unten vorstellen. Ersetzungsmethode 1. Klicken Sie hier, um Google Chrome zu öffnen. 2. Klicken Sie auf das Dreipunktsymbol, um die Menüoberfläche zu öffnen. 3. Klicken Sie auf die Option „Einstellungen“, um die Einstellungsoberfläche des Browsers aufzurufen. 4. Suchen Sie das Suchmaschinenmodul in der Einstellungsoberfläche. 5. Klicken Sie auf die Schaltfläche „Suchmaschine verwalten“. 6. Sie sehen eine Schaltfläche zum Hinzufügen. Klicken Sie auf diese Schaltfläche, um eine Suchmaschine hinzuzufügen.​

Wie implementiert man eine Volltextsuchmaschine in PHP7.0? Wie implementiert man eine Volltextsuchmaschine in PHP7.0? May 26, 2023 pm 04:51 PM

Mit der kontinuierlichen Weiterentwicklung des Informationszeitalters verlassen sich die Menschen zunehmend auf das Internet, um Informationen zu erhalten. Als eine der Plattformen für den Informationsaustausch entwickeln sich auch Websuchmaschinen ständig weiter und verbessern sich. In diesem Artikel wird erläutert, wie eine Volltextsuchmaschine in PHP7.0 implementiert wird, um den Lesern dabei zu helfen, die PHP-Technologie besser zu nutzen und schnell eine effiziente Suchmaschine zu erstellen. 1. Übersicht über Volltextsuchmaschinen Bei der Volltextsuche werden Schlüsselwörter oder Phrasen verwendet, um das gesamte Dokument zu durchsuchen und die am besten passenden Ergebnisse zu finden. Volltextsuchmaschinen verwenden Algorithmen zur Indizierung von Dokumenten, um die Suche zu beschleunigen. existieren

So verwenden Sie die Suchmaschine Google Chrome So verwenden Sie die Suchmaschine Google Chrome Jan 04, 2024 am 11:15 AM

Google Chrome ist sehr gut. Viele Freunde möchten die Google-Suchmaschine verwenden, wissen aber nicht, wie man sie verwendet . So verwenden Sie die Google-Suchmaschine in Google Chrome: 1. Öffnen Sie Google Chrome und klicken Sie oben rechts auf „Mehr“, um die Einstellungen zu öffnen. 2. Klicken Sie nach Eingabe der Einstellungen links auf „Suchmaschine“. 3. Prüfen Sie, ob Ihre Suchmaschine „Google“ ist. 4. Wenn nicht, können Sie auf die Dropdown-Schaltfläche klicken und sie in „Google“ ändern.

See all articles