如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求
网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent。
所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫(蜘蛛)的方式是不靠谱的,更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。
要获得ip的host,在windows下可以通过nslookup命令,在linux下可以通过host命令来获得,例如:
这里我在windows下执行了nslookup ip 的命令,从上图可以看到这个ip的主机名是crawl-66-249-64-119.googlebot.com。 这说明这个ip是一个google爬虫,google爬虫的域名都是 xxx.googlebot.com.
我们也可以通过python程序的方式来获得ip的host信息,代码如下:
import socket def getHost(ip): try: result=socket.gethostbyaddr(ip) if result: return result[0], None except socket.herror,e: return None, e.message
上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。
常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:
百度的蜘蛛通常是baidu.com或者baidu.jp的子域名
google爬虫通常是googlebot.com的子域名
微软bing搜索引擎爬虫是search.msn.com的子域名
搜狗蜘蛛是crawl.sogou.com的子域名
基于以上原理,我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面,该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。
附带常见搜索引擎蜘蛛的IP段:
蜘蛛名称 | IP地址 |
---|---|
Baiduspider |
202.108.11.* 220.181.32.* 58.51.95.* 60.28.22.* 61.135.162.* 61.135.163.* 61.135.168.* |
YodaoBot |
202.108.7.215 202.108.7.220 202.108.7.221 |
Sogou web spider |
219.234.81.* 220.181.61.* |
Googlebot |
203.208.60.* |
Yahoo! Slurp |
202.160.181.* 72.30.215.* 74.6.17.* 74.6.22.* |
Yahoo ContentMatch Crawler |
119.42.226.* 119.42.230.* |
Sogou-Test-Spider |
220.181.19.103 220.181.26.122 |
Twiceler |
38.99.44.104 64.34.251.9 |
Yahoo! Slurp China |
202.160.178.* |
Sosospider | 124.115.0.* |
CollapsarWEB qihoobot |
221.194.136.18 |
NaverBot |
202.179.180.45 |
Sogou Orion spider |
220.181.19.106 220.181.19.74 |
Sogou head spider |
220.181.19.107 |
SurveyBot |
216.145.5.42 64.246.165.160 |
Yanga WorldSearch Bot v |
77.91.224.19 91.205.124.19 |
baiduspider-mobile-gate |
220.181.5.34 61.135.166.31 |
discobot |
208.96.54.70 |
ia_archiver | 209.234.171.42 |
msnbot |
65.55.104.209 65.55.209.86 65.55.209.96 |
sogou in spider |
220.181.19.216 |
ps:https协议网页能够被搜索引擎收录吗
百度现在只能收录少部分的https,大部分的https网页无法收录。
不过我查询了google资料,Google能够比较好地收录https协议的网站。
所以如果你的网站是中文的,而且比较关注搜索引擎自然排名流量这块,建议尽量不要将所有内容都放到https中去加密去。
可考虑的方式是:
1、对于需要加密传递的数据,使用https,比如用户登录以及用户登录后的信息;
2、对于普通的新闻、图片,建议使用http协议来传输;
3、网站首页建议使用http协议的形式。

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

Video Face Swap
Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen



Es ist ganz einfach, die Suchmaschine in Safari, Google Chrome oder anderen Browsern auf Ihrem iPhone oder iPad zu ändern. Dieses Tutorial zeigt Ihnen, wie Sie dies in vier verschiedenen Webbrowsern tun, die auf iPhone und iPad verfügbar sind. So ändern Sie die Safari-Suchmaschine auf dem iPhone oder iPad Safari ist der Standard-Webbrowser auf iOS und iPadOS, aber die Suchmaschine gefällt Ihnen möglicherweise nicht. Glücklicherweise können Sie dies mit den folgenden Schritten ändern: Starten Sie auf Ihrem iPhone oder iPad die Einstellungen auf dem Startbildschirm. Wischen Sie nach unten und tippen Sie in der Liste auf Safari. Im nächsten Menü

Baidu Cloud ist eine Software, die es Benutzern ermöglicht, viele Dateien zu speichern. Was ist also der Zugang zur Baidu Cloud Disk-Suchmaschine? Benutzer können die URL https://pan.baidu.com eingeben, um den neuesten Zugang zur Baidu Cloud Disk-Suchmaschine zu erhalten. Im Folgenden finden Sie eine detaillierte Einführung. . Einstieg in die Baidu-Cloud-Disk-Suchmaschine 1. Qianfan-Suchwebsite: https://pan.qianfan.app Unterstützt Netzwerkdatenträger: aggregierte Suche, Alibaba, Baidu, Quark, Lanzuo, Tianyi, Xunlei Netzwerkdatenträger-Anzeigemethode: Anmeldung erforderlich, folgen Sie dem Unternehmen Vorteile des Erwerbs des Aktivierungscodes: Die Netzwerkfestplatte ist umfassend, es gibt viele Ressourcen und die Schnittstelle ist einfach. 2. Maolipansou-Website: alipansou.c

Java-Entwicklung: Für die Implementierung von Suchmaschinen- und Volltext-Retrieval-Funktionen sind spezifische Codebeispiele erforderlich. Suchmaschinen und Volltext-Retrieval sind wichtige Funktionen im modernen Internetzeitalter. Sie helfen Benutzern nicht nur dabei, schnell zu finden, was sie suchen, sondern sorgen auch für ein besseres Benutzererlebnis für Websites und Apps. In diesem Artikel wird die Verwendung von Java zur Entwicklung von Suchmaschinen und Volltextabruffunktionen vorgestellt und einige spezifische Codebeispiele bereitgestellt. Volltextsuche mit der Lucene-Bibliothek Lucene ist eine Open-Source-Volltextsuchmaschinenbibliothek, die von ApacheSo entwickelt wurde

Optimierung der Suchmaschinenleistung mit PHP: Algolias magischer Weg Mit der Entwicklung des Internets und den steigenden Anforderungen der Benutzer an das Sucherlebnis ist die Optimierung der Suchmaschinenleistung von entscheidender Bedeutung geworden. In der Welt der PHP-Entwicklung ist Algolia ein leistungsstarker und einfach zu integrierender Suchmaschinendienst. In diesem Artikel werden die magischen Einsatzmöglichkeiten von Algolia vorgestellt und erläutert, wie Sie die Leistung von PHP-Suchmaschinen mithilfe von Algolia optimieren können. Einführung in AlgoliaAlgolia ist ein Suchmaschinendienstleister, der auf dem SaaS-Modell basiert.

Seit seiner Einführung Ende letzten Jahres gilt ChatGPT als große Bedrohung für traditionelle Methoden der Informationssuche. Da es vielfältig ist, können Sie Fragen anderer beantworten, Aufsätze oder Gedichte schreiben oder sogar Programmcode schreiben. Die Fähigkeit der Konversations-KI, kohärente Antworten zu liefern, wird als Bedrohung für die Suchmaschine Google angesehen, die seit Jahrzehnten die Benchmark-Plattform für die Suche nach Informationen im Internet ist. ChatGPT von OpenAI kann Antworten auf spezifische Fragen von Benutzern zuschneiden, wodurch Zeit beim Surfen auf Websites gespart werden kann. Ein im Dezember veröffentlichter Bericht der New York Times enthüllte, dass der über Nacht große Erfolg von ChatGPT Google dazu zwang, es „Code Red“ zu nennen und damit zu beginnen, sich mit der Bedrohung zu befassen, die Chatbots mit künstlicher Intelligenz für sein Suchmaschinengeschäft darstellen. entsprechend

Wie ändere ich die Suchmaschine in Google Chrome? Google Chrome ist bei Nutzern ein sehr beliebter Browser. Er verfügt nicht nur über einfache und benutzerfreundliche Dienste, praktische Tools und andere Zusatzfunktionen, sondern kann auch die unterschiedlichen Anforderungen verschiedener Nutzer erfüllen möchte Wie soll ich es einrichten, um es zu ersetzen? Lassen Sie mich die Methode unten vorstellen. Ersetzungsmethode 1. Klicken Sie hier, um Google Chrome zu öffnen. 2. Klicken Sie auf das Dreipunktsymbol, um die Menüoberfläche zu öffnen. 3. Klicken Sie auf die Option „Einstellungen“, um die Einstellungsoberfläche des Browsers aufzurufen. 4. Suchen Sie das Suchmaschinenmodul in der Einstellungsoberfläche. 5. Klicken Sie auf die Schaltfläche „Suchmaschine verwalten“. 6. Sie sehen eine Schaltfläche zum Hinzufügen. Klicken Sie auf diese Schaltfläche, um eine Suchmaschine hinzuzufügen.

Mit der kontinuierlichen Weiterentwicklung des Informationszeitalters verlassen sich die Menschen zunehmend auf das Internet, um Informationen zu erhalten. Als eine der Plattformen für den Informationsaustausch entwickeln sich auch Websuchmaschinen ständig weiter und verbessern sich. In diesem Artikel wird erläutert, wie eine Volltextsuchmaschine in PHP7.0 implementiert wird, um den Lesern dabei zu helfen, die PHP-Technologie besser zu nutzen und schnell eine effiziente Suchmaschine zu erstellen. 1. Übersicht über Volltextsuchmaschinen Bei der Volltextsuche werden Schlüsselwörter oder Phrasen verwendet, um das gesamte Dokument zu durchsuchen und die am besten passenden Ergebnisse zu finden. Volltextsuchmaschinen verwenden Algorithmen zur Indizierung von Dokumenten, um die Suche zu beschleunigen. existieren

Google Chrome ist sehr gut. Viele Freunde möchten die Google-Suchmaschine verwenden, wissen aber nicht, wie man sie verwendet . So verwenden Sie die Google-Suchmaschine in Google Chrome: 1. Öffnen Sie Google Chrome und klicken Sie oben rechts auf „Mehr“, um die Einstellungen zu öffnen. 2. Klicken Sie nach Eingabe der Einstellungen links auf „Suchmaschine“. 3. Prüfen Sie, ob Ihre Suchmaschine „Google“ ist. 4. Wenn nicht, können Sie auf die Dropdown-Schaltfläche klicken und sie in „Google“ ändern.
