如何准确判断请求是搜索引擎爬虫（蜘蛛）发出的请求-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

如何准确判断请求是搜索引擎爬虫（蜘蛛）发出的请求

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 06, 2016 am 11:14 AM

검색 엔진

网站经常会被各种爬虫光顾，有的是搜索引擎爬虫，有的不是，通常情况下这些爬虫都有UserAgent，而我们知道UserAgent是可以伪装的，UserAgent的本质是Http请求头中的一个选项设置，通过编程的方式可以给请求设置任意的UserAgent。

所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫（蜘蛛）的方式是不靠谱的，更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。

要获得ip的host，在windows下可以通过nslookup命令，在linux下可以通过host命令来获得，例如：

这里我在windows下执行了nslookup ip 的命令，从上图可以看到这个ip的主机名是crawl-66-249-64-119.googlebot.com。这说明这个ip是一个google爬虫，google爬虫的域名都是 xxx.googlebot.com.

我们也可以通过python程序的方式来获得ip的host信息，代码如下：

import socket
def getHost(ip):
 try:
 result=socket.gethostbyaddr(ip)
 if result: return result[0], None
 except socket.herror,e:
 return None, e.message

로그인 후 복사

上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。

常用蜘蛛的域名都和搜索引擎官网的域名相关，例如：

百度的蜘蛛通常是baidu.com或者baidu.jp的子域名

google爬虫通常是googlebot.com的子域名

微软bing搜索引擎爬虫是search.msn.com的子域名

搜狗蜘蛛是crawl.sogou.com的子域名

基于以上原理，我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面，该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。

附带常见搜索引擎蜘蛛的IP段：

蜘蛛名称	IP地址
Baiduspider	202.108.11.* 220.181.32.* 58.51.95.* 60.28.22.* 61.135.162.* 61.135.163.* 61.135.168.*
YodaoBot	202.108.7.215 202.108.7.220 202.108.7.221
Sogou web spider	219.234.81.* 220.181.61.*
Googlebot	203.208.60.*
Yahoo! Slurp	202.160.181.* 72.30.215.* 74.6.17.* 74.6.22.*
Yahoo ContentMatch Crawler	119.42.226.* 119.42.230.*
Sogou-Test-Spider	220.181.19.103 220.181.26.122
Twiceler	38.99.44.104 64.34.251.9
Yahoo! Slurp China	202.160.178.*
Sosospider	124.115.0.*
CollapsarWEB qihoobot	221.194.136.18
NaverBot	202.179.180.45
Sogou Orion spider	220.181.19.106 220.181.19.74
Sogou head spider	220.181.19.107
SurveyBot	216.145.5.42 64.246.165.160
Yanga WorldSearch Bot v	77.91.224.19 91.205.124.19
baiduspider-mobile-gate	220.181.5.34 61.135.166.31
discobot	208.96.54.70
ia_archiver	209.234.171.42
msnbot	65.55.104.209 65.55.209.86 65.55.209.96
sogou in spider	220.181.19.216

ps：https协议网页能够被搜索引擎收录吗

百度现在只能收录少部分的https，大部分的https网页无法收录。

不过我查询了google资料，Google能够比较好地收录https协议的网站。

所以如果你的网站是中文的，而且比较关注搜索引擎自然排名流量这块，建议尽量不要将所有内容都放到https中去加密去。

可考虑的方式是：

1、对于需要加密传递的数据，使用https，比如用户登录以及用户登录后的信息；

2、对于普通的新闻、图片，建议使用http协议来传输；

3、网站首页建议使用http协议的形式。

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7531

Cakephp 튜토리얼

1379

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

iPhone 및 iPad에서 검색 엔진을 변경하는 방법 Apr 25, 2023 am 08:28 AM

iPhone이나 iPad의 Safari, Google Chrome 또는 기타 브라우저에서 검색 엔진을 쉽게 변경할 수 있습니다. 이 튜토리얼에서는 iPhone 및 iPad에서 사용할 수 있는 네 가지 웹 브라우저에서 이를 수행하는 방법을 보여줍니다. iPhone 또는 iPad에서 Safari 검색 엔진을 변경하는 방법 Safari는 iOS 및 iPadOS의 기본 웹 브라우저이지만 검색 엔진이 마음에 들지 않을 수 있습니다. 다행히 다음 단계에 따라 변경할 수 있습니다. iPhone 또는 iPad의 홈 화면에서 설정을 실행하세요. 아래로 스와이프하여 목록에서 Safari를 탭하세요. 다음 메뉴에서는

Baidu 클라우드 디스크 검색 엔진 입구 Feb 27, 2024 pm 01:00 PM

Baidu Cloud는 사용자가 많은 파일을 저장할 수 있는 소프트웨어입니다. 그러면 Baidu Cloud Disk 검색 엔진의 입구는 무엇입니까? 사용자는 URL https://pan.baidu.com을 입력하여 Baidu Cloud Disk에 들어갈 수 있습니다. Baidu Cloud Disk 검색 엔진에 대한 자세한 소개는 다음과 같습니다. . Baidu 클라우드 디스크 검색 엔진 입구 1. Qianfan 검색 웹사이트: https://pan.qianfan.app 지원 네트워크 디스크: 집계 검색, Alibaba, Baidu, Quark, Lanzuo, Tianyi, Xunlei 네트워크 디스크 보기 방법: 로그인 필요, 회사 팔로우 활성화 코드 획득의 장점: 네트워크 디스크는 포괄적이고 리소스가 많으며 인터페이스가 간단합니다. 2. Maolipansou 웹사이트: alipansou.c

Java 개발: 검색 엔진 및 전체 텍스트 검색 기능을 구현하는 방법 Sep 21, 2023 pm 01:10 PM

Java 개발: 검색 엔진 및 전체 텍스트 검색 기능을 구현하는 방법, 특정 코드 예제가 필요합니다. 검색 엔진 및 전체 텍스트 검색은 현대 인터넷 시대에 중요한 기능입니다. 사용자가 원하는 것을 빠르게 찾을 수 있도록 도울 뿐만 아니라 웹사이트와 앱에 대한 더 나은 사용자 경험을 제공합니다. 이 기사에서는 Java를 사용하여 검색 엔진 및 전체 텍스트 검색 기능을 개발하는 방법을 소개하고 몇 가지 구체적인 코드 예제를 제공합니다. Lucene 라이브러리를 사용한 전체 텍스트 검색 Lucene은 ApacheSo에서 개발한 오픈 소스 전체 텍스트 검색 엔진 라이브러리입니다.

PHP 검색 엔진 성능 최적화: Algolia의 마법 같은 방법 Jul 23, 2023 pm 04:21 PM

PHP 검색 엔진 성능 최적화: Algolia의 마법 같은 방법 인터넷이 발전하고 검색 경험에 대한 사용자 요구 사항이 증가함에 따라 검색 엔진 성능 최적화가 중요해졌습니다. PHP 개발 세계에서 Algolia는 강력하고 통합이 쉬운 검색 엔진 서비스입니다. 이 기사에서는 Algolia의 마법 같은 용도와 Algolia를 통해 PHP 검색 엔진의 성능을 최적화하는 방법을 소개합니다. Algolia 소개 Algolia는 SaaS 모델을 기반으로 한 검색 엔진 서비스 제공업체입니다.

인공지능 검색 분야에서는 구글과 마이크로소프트가 경쟁한다. Apr 08, 2023 am 11:31 AM

ChatGPT는 작년 말 출시된 이후 전통적인 정보 검색 방식에 대한 주요 위협으로 여겨져 왔습니다. 다양하기 때문에 사람들의 질문에 답할 수도 있고, 에세이나 시를 쓸 수도 있고, 프로그램 코드를 작성할 수도 있습니다. 일관된 답변을 제공하는 대화형 AI의 능력은 수십 년 동안 사람들이 인터넷에서 정보를 검색하는 벤치마크 플랫폼이었던 Google 검색 엔진에 대한 위협으로 간주됩니다. OpenAI의 ChatGPT는 사용자가 묻는 특정 질문에 대한 답변을 맞춤화하여 웹사이트 탐색 시간을 절약할 수 있습니다. 지난 12월 The New York Times가 발표한 보고서에 따르면 ChatGPT의 하룻밤 성공으로 인해 Google은 이를 "코드 레드"라고 부르고 인공 지능 챗봇이 검색 엔진 비즈니스에 가하는 위협을 해결하기 시작했습니다. ~에 따르면

검색 엔진을 변경하기 위해 Chrome을 설정하는 방법은 무엇입니까? 브라우저에서 검색 엔진을 변경하는 방법은 무엇입니까? Mar 15, 2024 pm 12:49 PM

Chrome에서 검색 엔진을 변경하는 방법은 무엇입니까? Google 크롬은 간단하고 사용하기 쉬운 서비스, 실용적인 도구 및 기타 보조 기능을 갖추고 있을 뿐만 아니라 일반적으로 Google을 기본으로 하는 다양한 사용자의 다양한 요구 사항을 충족할 수 있는 브라우저입니다. 교체하려면 어떻게 설정해야 하나요? 아래 방법을 공유해보겠습니다. 교체 방법 1. 클릭하여 Google Chrome을 엽니다. 2. 점 3개 아이콘을 클릭하여 메뉴 인터페이스를 엽니다. 3. 설정 옵션을 클릭하여 브라우저의 설정 인터페이스로 들어갑니다. 4. 설정 인터페이스에서 검색 엔진 모듈을 찾으세요. 5. 검색 엔진 관리 버튼을 클릭합니다. 6. 추가 버튼을 클릭하면 검색 엔진을 추가할 수 있습니다.

Google 크롬 검색 엔진을 사용하는 방법 Jan 04, 2024 am 11:15 AM

Chrome은 매우 훌륭합니다. 많은 친구들이 Google의 자체 검색 엔진을 사용하고 싶지만 사용 방법을 모릅니다. Google Chrome에서 Google 검색 엔진을 사용하는 방법: 1. Google Chrome을 열고 오른쪽 상단에 있는 더보기를 클릭하여 설정을 엽니다. 2. 설정 입력 후 좌측의 '검색엔진'을 클릭하세요. 3. 검색엔진이 'Google'인지 확인하세요. 4. 그렇지 않은 경우 드롭다운 버튼을 클릭하여 'Google'로 변경할 수 있습니다.

PHP7.0에서 전체 텍스트 검색 엔진을 구현하는 방법은 무엇입니까? May 26, 2023 pm 04:51 PM

정보화 시대가 계속 발전함에 따라 사람들은 정보를 얻기 위해 인터넷에 점점 더 의존하고 있습니다. 정보 공유 플랫폼 중 하나인 웹 검색 엔진 역시 끊임없이 진화하고 발전하고 있습니다. 이 기사에서는 PHP7.0에서 전체 텍스트 검색 엔진을 구현하는 방법을 소개하여 독자가 PHP 기술을 더 잘 활용하고 효율적인 검색 엔진을 신속하게 구축할 수 있도록 돕습니다. 1. 전체 텍스트 검색 엔진 개요 전체 텍스트 검색은 키워드나 구문을 사용하여 문서 전체를 검색하여 가장 일치하는 결과를 찾습니다. 전체 텍스트 검색 엔진은 알고리즘을 사용하여 문서를 색인화하여 검색 속도를 높입니다. 존재하다

See all articles

如何准确判断请求是搜索引擎爬虫（蜘蛛）发出的请求

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제