如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求
网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent。
所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫(蜘蛛)的方式是不靠谱的,更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。
要获得ip的host,在windows下可以通过nslookup命令,在linux下可以通过host命令来获得,例如:
这里我在windows下执行了nslookup ip 的命令,从上图可以看到这个ip的主机名是crawl-66-249-64-119.googlebot.com。 这说明这个ip是一个google爬虫,google爬虫的域名都是 xxx.googlebot.com.
我们也可以通过python程序的方式来获得ip的host信息,代码如下:
import socket def getHost(ip): try: result=socket.gethostbyaddr(ip) if result: return result[0], None except socket.herror,e: return None, e.message
上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。
常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:
百度的蜘蛛通常是baidu.com或者baidu.jp的子域名
google爬虫通常是googlebot.com的子域名
微软bing搜索引擎爬虫是search.msn.com的子域名
搜狗蜘蛛是crawl.sogou.com的子域名
基于以上原理,我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面,该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。
附带常见搜索引擎蜘蛛的IP段:
蜘蛛名称 | IP地址 |
---|---|
Baiduspider |
202.108.11.* 220.181.32.* 58.51.95.* 60.28.22.* 61.135.162.* 61.135.163.* 61.135.168.* |
YodaoBot |
202.108.7.215 202.108.7.220 202.108.7.221 |
Sogou web spider |
219.234.81.* 220.181.61.* |
Googlebot |
203.208.60.* |
Yahoo! Slurp |
202.160.181.* 72.30.215.* 74.6.17.* 74.6.22.* |
Yahoo ContentMatch Crawler |
119.42.226.* 119.42.230.* |
Sogou-Test-Spider |
220.181.19.103 220.181.26.122 |
Twiceler |
38.99.44.104 64.34.251.9 |
Yahoo! Slurp China |
202.160.178.* |
Sosospider | 124.115.0.* |
CollapsarWEB qihoobot |
221.194.136.18 |
NaverBot |
202.179.180.45 |
Sogou Orion spider |
220.181.19.106 220.181.19.74 |
Sogou head spider |
220.181.19.107 |
SurveyBot |
216.145.5.42 64.246.165.160 |
Yanga WorldSearch Bot v |
77.91.224.19 91.205.124.19 |
baiduspider-mobile-gate |
220.181.5.34 61.135.166.31 |
discobot |
208.96.54.70 |
ia_archiver | 209.234.171.42 |
msnbot |
65.55.104.209 65.55.209.86 65.55.209.96 |
sogou in spider |
220.181.19.216 |
ps:https协议网页能够被搜索引擎收录吗
百度现在只能收录少部分的https,大部分的https网页无法收录。
不过我查询了google资料,Google能够比较好地收录https协议的网站。
所以如果你的网站是中文的,而且比较关注搜索引擎自然排名流量这块,建议尽量不要将所有内容都放到https中去加密去。
可考虑的方式是:
1、对于需要加密传递的数据,使用https,比如用户登录以及用户登录后的信息;
2、对于普通的新闻、图片,建议使用http协议来传输;
3、网站首页建议使用http协议的形式。

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











iPhone이나 iPad의 Safari, Google Chrome 또는 기타 브라우저에서 검색 엔진을 쉽게 변경할 수 있습니다. 이 튜토리얼에서는 iPhone 및 iPad에서 사용할 수 있는 네 가지 웹 브라우저에서 이를 수행하는 방법을 보여줍니다. iPhone 또는 iPad에서 Safari 검색 엔진을 변경하는 방법 Safari는 iOS 및 iPadOS의 기본 웹 브라우저이지만 검색 엔진이 마음에 들지 않을 수 있습니다. 다행히 다음 단계에 따라 변경할 수 있습니다. iPhone 또는 iPad의 홈 화면에서 설정을 실행하세요. 아래로 스와이프하여 목록에서 Safari를 탭하세요. 다음 메뉴에서는

Baidu Cloud는 사용자가 많은 파일을 저장할 수 있는 소프트웨어입니다. 그러면 Baidu Cloud Disk 검색 엔진의 입구는 무엇입니까? 사용자는 URL https://pan.baidu.com을 입력하여 Baidu Cloud Disk에 들어갈 수 있습니다. Baidu Cloud Disk 검색 엔진에 대한 자세한 소개는 다음과 같습니다. . Baidu 클라우드 디스크 검색 엔진 입구 1. Qianfan 검색 웹사이트: https://pan.qianfan.app 지원 네트워크 디스크: 집계 검색, Alibaba, Baidu, Quark, Lanzuo, Tianyi, Xunlei 네트워크 디스크 보기 방법: 로그인 필요, 회사 팔로우 활성화 코드 획득의 장점: 네트워크 디스크는 포괄적이고 리소스가 많으며 인터페이스가 간단합니다. 2. Maolipansou 웹사이트: alipansou.c

Java 개발: 검색 엔진 및 전체 텍스트 검색 기능을 구현하는 방법, 특정 코드 예제가 필요합니다. 검색 엔진 및 전체 텍스트 검색은 현대 인터넷 시대에 중요한 기능입니다. 사용자가 원하는 것을 빠르게 찾을 수 있도록 도울 뿐만 아니라 웹사이트와 앱에 대한 더 나은 사용자 경험을 제공합니다. 이 기사에서는 Java를 사용하여 검색 엔진 및 전체 텍스트 검색 기능을 개발하는 방법을 소개하고 몇 가지 구체적인 코드 예제를 제공합니다. Lucene 라이브러리를 사용한 전체 텍스트 검색 Lucene은 ApacheSo에서 개발한 오픈 소스 전체 텍스트 검색 엔진 라이브러리입니다.

PHP 검색 엔진 성능 최적화: Algolia의 마법 같은 방법 인터넷이 발전하고 검색 경험에 대한 사용자 요구 사항이 증가함에 따라 검색 엔진 성능 최적화가 중요해졌습니다. PHP 개발 세계에서 Algolia는 강력하고 통합이 쉬운 검색 엔진 서비스입니다. 이 기사에서는 Algolia의 마법 같은 용도와 Algolia를 통해 PHP 검색 엔진의 성능을 최적화하는 방법을 소개합니다. Algolia 소개 Algolia는 SaaS 모델을 기반으로 한 검색 엔진 서비스 제공업체입니다.

ChatGPT는 작년 말 출시된 이후 전통적인 정보 검색 방식에 대한 주요 위협으로 여겨져 왔습니다. 다양하기 때문에 사람들의 질문에 답할 수도 있고, 에세이나 시를 쓸 수도 있고, 프로그램 코드를 작성할 수도 있습니다. 일관된 답변을 제공하는 대화형 AI의 능력은 수십 년 동안 사람들이 인터넷에서 정보를 검색하는 벤치마크 플랫폼이었던 Google 검색 엔진에 대한 위협으로 간주됩니다. OpenAI의 ChatGPT는 사용자가 묻는 특정 질문에 대한 답변을 맞춤화하여 웹사이트 탐색 시간을 절약할 수 있습니다. 지난 12월 The New York Times가 발표한 보고서에 따르면 ChatGPT의 하룻밤 성공으로 인해 Google은 이를 "코드 레드"라고 부르고 인공 지능 챗봇이 검색 엔진 비즈니스에 가하는 위협을 해결하기 시작했습니다. ~에 따르면

Chrome에서 검색 엔진을 변경하는 방법은 무엇입니까? Google 크롬은 간단하고 사용하기 쉬운 서비스, 실용적인 도구 및 기타 보조 기능을 갖추고 있을 뿐만 아니라 일반적으로 Google을 기본으로 하는 다양한 사용자의 다양한 요구 사항을 충족할 수 있는 브라우저입니다. 교체하려면 어떻게 설정해야 하나요? 아래 방법을 공유해보겠습니다. 교체 방법 1. 클릭하여 Google Chrome을 엽니다. 2. 점 3개 아이콘을 클릭하여 메뉴 인터페이스를 엽니다. 3. 설정 옵션을 클릭하여 브라우저의 설정 인터페이스로 들어갑니다. 4. 설정 인터페이스에서 검색 엔진 모듈을 찾으세요. 5. 검색 엔진 관리 버튼을 클릭합니다. 6. 추가 버튼을 클릭하면 검색 엔진을 추가할 수 있습니다.

Chrome은 매우 훌륭합니다. 많은 친구들이 Google의 자체 검색 엔진을 사용하고 싶지만 사용 방법을 모릅니다. Google Chrome에서 Google 검색 엔진을 사용하는 방법: 1. Google Chrome을 열고 오른쪽 상단에 있는 더보기를 클릭하여 설정을 엽니다. 2. 설정 입력 후 좌측의 '검색엔진'을 클릭하세요. 3. 검색엔진이 'Google'인지 확인하세요. 4. 그렇지 않은 경우 드롭다운 버튼을 클릭하여 'Google'로 변경할 수 있습니다.

정보화 시대가 계속 발전함에 따라 사람들은 정보를 얻기 위해 인터넷에 점점 더 의존하고 있습니다. 정보 공유 플랫폼 중 하나인 웹 검색 엔진 역시 끊임없이 진화하고 발전하고 있습니다. 이 기사에서는 PHP7.0에서 전체 텍스트 검색 엔진을 구현하는 방법을 소개하여 독자가 PHP 기술을 더 잘 활용하고 효율적인 검색 엔진을 신속하게 구축할 수 있도록 돕습니다. 1. 전체 텍스트 검색 엔진 개요 전체 텍스트 검색은 키워드나 구문을 사용하여 문서 전체를 검색하여 가장 일치하는 결과를 찾습니다. 전체 텍스트 검색 엔진은 알고리즘을 사용하여 문서를 색인화하여 검색 속도를 높입니다. 존재하다
