首頁 後端開發 Python教學 如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求

如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求

Jun 06, 2016 am 11:14 AM
搜尋引擎

网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent。

所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫(蜘蛛)的方式是不靠谱的,更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。

要获得ip的host,在windows下可以通过nslookup命令,在linux下可以通过host命令来获得,例如:

这里我在windows下执行了nslookup ip 的命令,从上图可以看到这个ip的主机名是crawl-66-249-64-119.googlebot.com。 这说明这个ip是一个google爬虫,google爬虫的域名都是 xxx.googlebot.com.

我们也可以通过python程序的方式来获得ip的host信息,代码如下:

import socket
def getHost(ip):
 try:
 result=socket.gethostbyaddr(ip)
 if result: return result[0], None
 except socket.herror,e:
 return None, e.message
登入後複製

上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。

常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:

百度的蜘蛛通常是baidu.com或者baidu.jp的子域名

google爬虫通常是googlebot.com的子域名

微软bing搜索引擎爬虫是search.msn.com的子域名

搜狗蜘蛛是crawl.sogou.com的子域名

基于以上原理,我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面,该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。

附带常见搜索引擎蜘蛛的IP段:

蜘蛛名称 IP地址
Baiduspider

202.108.11.* 220.181.32.* 58.51.95.* 60.28.22.* 61.135.162.* 61.135.163.* 61.135.168.*

YodaoBot

202.108.7.215 202.108.7.220 202.108.7.221

Sogou web spider

219.234.81.* 220.181.61.*

Googlebot

203.208.60.*

Yahoo! Slurp

202.160.181.* 72.30.215.* 74.6.17.* 74.6.22.*

Yahoo ContentMatch Crawler

119.42.226.* 119.42.230.*

Sogou-Test-Spider

220.181.19.103 220.181.26.122

Twiceler

38.99.44.104 64.34.251.9

Yahoo! Slurp China

202.160.178.*

Sosospider 124.115.0.*
CollapsarWEB qihoobot

221.194.136.18

NaverBot

202.179.180.45

Sogou Orion spider

220.181.19.106 220.181.19.74

Sogou head spider

220.181.19.107

SurveyBot

216.145.5.42 64.246.165.160

Yanga WorldSearch Bot v

77.91.224.19 91.205.124.19

baiduspider-mobile-gate

220.181.5.34 61.135.166.31

discobot

208.96.54.70

ia_archiver 209.234.171.42
msnbot

65.55.104.209 65.55.209.86 65.55.209.96

sogou in spider

220.181.19.216

ps:https协议网页能够被搜索引擎收录吗

百度现在只能收录少部分的https,大部分的https网页无法收录。

不过我查询了google资料,Google能够比较好地收录https协议的网站。

所以如果你的网站是中文的,而且比较关注搜索引擎自然排名流量这块,建议尽量不要将所有内容都放到https中去加密去。

可考虑的方式是:

1、对于需要加密传递的数据,使用https,比如用户登录以及用户登录后的信息;

2、对于普通的新闻、图片,建议使用http协议来传输;

3、网站首页建议使用http协议的形式。

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

如何在 iPhone 和 iPad 上更改搜尋引擎 如何在 iPhone 和 iPad 上更改搜尋引擎 Apr 25, 2023 am 08:28 AM

在iPhone或iPad上的Safari、GoogleChrome或其他瀏覽器中更改搜尋引擎非常簡單。本教學將向您展示如何在iPhone和iPad上可用的四種不同網頁瀏覽器上進行操作。如何更改iPhone或iPad上的Safari搜尋引擎Safari是iOS和iPadOS上的預設網路瀏覽器,但您可能不喜歡這個搜尋引擎。幸運的是,您可以使用以下步驟進行更改:在iPhone或iPad上,從主畫面啟動設定。向下滑動並從清單中點按Safari。在下一個選單中,

百度雲端硬碟搜尋引擎入口 百度雲端硬碟搜尋引擎入口 Feb 27, 2024 pm 01:00 PM

百度雲是能夠讓使用者存放很多文件的軟體,那麼百度雲端硬碟搜尋引擎入口是什麼呢?使用者可以輸入https://pan.baidu.com這個網址就能夠進入百度雲盤,這篇百度雲盤搜尋引擎最新入口分享就能夠告訴大家具體的介紹,以下就是詳細的介紹,趕緊看看吧。百度雲盤搜尋引擎入口1、千帆搜尋網址:https://pan.qianfan.app支援網盤:聚合搜索,阿里、百度、夸克、藍奏、天翼、迅雷網盤查看方式:需登入、關注公號獲取啟動碼優點:網盤很全,資源很多,介面簡單。 2、貓狸盤搜尋網址:alipansou.c

Java開發:如何實作搜尋引擎和全文檢索功能 Java開發:如何實作搜尋引擎和全文檢索功能 Sep 21, 2023 pm 01:10 PM

Java開發:如何實現搜尋引擎和全文檢索功能,需要具體程式碼範例搜尋引擎和全文檢索是現代網路時代的重要功能。它們不僅可以幫助用戶快速找到想要的內容,還可以為網站和應用程式提供更好的用戶體驗。本文將介紹如何使用Java開發搜尋引擎和全文檢索功能,並提供一些具體的程式碼範例。使用Lucene函式庫實作全文檢索Lucene是一款開源的全文檢索引擎函式庫,由ApacheSo

PHP搜尋引擎效能優化:Algolia的妙用之道 PHP搜尋引擎效能優化:Algolia的妙用之道 Jul 23, 2023 pm 04:21 PM

PHP搜尋引擎效能優化:Algolia的妙用之道隨著網路的發展和使用者對搜尋體驗的要求不斷提高,搜尋引擎的效能優化變得至關重要。在PHP開發領域,Algolia是一個強大且易於整合的搜尋引擎服務。本文將介紹Algolia的妙用之道以及如何透過Algolia來優化PHP搜尋引擎的效能。 Algolia介紹Algolia是一家基於SaaS模式的搜尋引擎服務供應商,

人工智慧搜尋領域,Google微軟展開對抗 人工智慧搜尋領域,Google微軟展開對抗 Apr 08, 2023 am 11:31 AM

自去年年底推出以來,ChatGPT被視為對傳統搜尋資訊方式的重大威脅。因為它是多樣化的,可以回答人們的問題,寫論文或詩歌,甚至編寫程式碼。對話式人工智慧提供連貫答案的能力被認為是對Google搜尋引擎的威脅,幾十年來,谷歌一直是人們在網路上搜尋資訊的標竿平台。 OpenAI的ChatGPT可以客製化使用者提出的特定問題的答案,這可以節省瀏覽網站的時間。 《紐約時報》12月發布的一份報告顯示,ChatGPT一夜之間的成功迫使谷歌稱其為“紅色代碼”,並開始應對人工智慧聊天機器人對其搜尋引擎業務造成的威脅。根據

如何在PHP7.0實現一個全文搜尋引擎? 如何在PHP7.0實現一個全文搜尋引擎? May 26, 2023 pm 04:51 PM

隨著資訊時代的不斷發展,人們越來越依賴網路來獲取資訊。而作為資訊分享的平台之一,網頁搜尋引擎也不斷進化、完善。本文將介紹如何在PHP7.0實現一個全文搜尋引擎,幫助讀者更好地利用PHP技術,快速建立高效率的搜尋引擎。一、全文搜尋引擎概述全文搜尋即使用關鍵字或短語在整篇文件中進行搜索,以找到最匹配的結果。全文搜尋引擎使用演算法對文件進行索引,以加速搜尋。在

谷歌瀏覽器更換搜尋引擎怎麼設定?​​瀏覽器更換搜尋引擎方法 谷歌瀏覽器更換搜尋引擎怎麼設定?​​瀏覽器更換搜尋引擎方法 Mar 15, 2024 pm 12:49 PM

  谷歌瀏覽器怎麼更換搜尋引擎?谷歌瀏覽器是一款很受用戶歡迎的瀏覽器,它不僅擁有簡單易上手的服務、實用的工具等輔助功能,能夠滿足不同用戶的不同需求,搜尋引擎一般都是默認谷歌,如果我們想要更換該怎麼設定呢?下面小編就來分享一下方法吧。  更換方法  1、點選開啟Google瀏覽器。  2、點選三點圖示開啟選單介面。  3、點選設定選項可以進入到瀏覽器的設定介面中。  4、在設定介面找到搜尋引擎模組。  5、點選管理搜尋引擎按鈕。  6、可以看到一個新增按鈕,點選這個新增按鈕可以新增搜尋引擎。 

PHP與Manticore Search開發:打造高效率的搜尋引擎 PHP與Manticore Search開發:打造高效率的搜尋引擎 Aug 07, 2023 am 09:45 AM

PHP和ManticoreSearch開發:打造高效率的搜尋引擎搜尋引擎在現代網路應用中扮演非常重要的角色。為了實現高效和準確的搜尋功能,我們需要選擇合適的搜尋引擎,並使用適當的開發工具進行開發。本文將介紹如何使用PHP和ManticoreSearch開發一個高效率的搜尋引擎。 ManticoreSearch是一個強大的開源搜尋引擎,它是基於SphinxS

See all articles