如何准确判断请求是搜索引擎爬虫(蜘蛛)发出的请求
网站经常会被各种爬虫光顾,有的是搜索引擎爬虫,有的不是,通常情况下这些爬虫都有UserAgent,而我们知道UserAgent是可以伪装的,UserAgent的本质是Http请求头中的一个选项设置,通过编程的方式可以给请求设置任意的UserAgent。
所以通过UserAgent判断请求的发起者是否是搜索引擎爬虫(蜘蛛)的方式是不靠谱的,更靠谱的方法是通过请求者的ip对应的host主机名是否是搜索引擎自己家的host的方式来判断。
要获得ip的host,在windows下可以通过nslookup命令,在linux下可以通过host命令来获得,例如:
这里我在windows下执行了nslookup ip 的命令,从上图可以看到这个ip的主机名是crawl-66-249-64-119.googlebot.com。 这说明这个ip是一个google爬虫,google爬虫的域名都是 xxx.googlebot.com.
我们也可以通过python程序的方式来获得ip的host信息,代码如下:
1 2 3 4 5 6 7 |
|
上述代码使用了socket模块的gethostbyaddr的方法获得ip地址的主机名。
常用蜘蛛的域名都和搜索引擎官网的域名相关,例如:
百度的蜘蛛通常是baidu.com或者baidu.jp的子域名
google爬虫通常是googlebot.com的子域名
微软bing搜索引擎爬虫是search.msn.com的子域名
搜狗蜘蛛是crawl.sogou.com的子域名
基于以上原理,我写了一个工具页面提供判断ip是否是真实搜索引擎的工具页面,该页面上提供了网页判断的工具和常见的google和bing的搜索引擎爬虫的ip地址。
附带常见搜索引擎蜘蛛的IP段:
蜘蛛名称 | IP地址 |
---|---|
Baiduspider |
202.108.11.* 220.181.32.* 58.51.95.* 60.28.22.* 61.135.162.* 61.135.163.* 61.135.168.* |
YodaoBot |
202.108.7.215 202.108.7.220 202.108.7.221 |
Sogou web spider |
219.234.81.* 220.181.61.* |
Googlebot |
203.208.60.* |
Yahoo! Slurp |
202.160.181.* 72.30.215.* 74.6.17.* 74.6.22.* |
Yahoo ContentMatch Crawler |
119.42.226.* 119.42.230.* |
Sogou-Test-Spider |
220.181.19.103 220.181.26.122 |
Twiceler |
38.99.44.104 64.34.251.9 |
Yahoo! Slurp China |
202.160.178.* |
Sosospider | 124.115.0.* |
CollapsarWEB qihoobot |
221.194.136.18 |
NaverBot |
202.179.180.45 |
Sogou Orion spider |
220.181.19.106 220.181.19.74 |
Sogou head spider |
220.181.19.107 |
SurveyBot |
216.145.5.42 64.246.165.160 |
Yanga WorldSearch Bot v |
77.91.224.19 91.205.124.19 |
baiduspider-mobile-gate |
220.181.5.34 61.135.166.31 |
discobot |
208.96.54.70 |
ia_archiver | 209.234.171.42 |
msnbot |
65.55.104.209 65.55.209.86 65.55.209.96 |
sogou in spider |
220.181.19.216 |
ps:https协议网页能够被搜索引擎收录吗
百度现在只能收录少部分的https,大部分的https网页无法收录。
不过我查询了google资料,Google能够比较好地收录https协议的网站。
所以如果你的网站是中文的,而且比较关注搜索引擎自然排名流量这块,建议尽量不要将所有内容都放到https中去加密去。
可考虑的方式是:
1、对于需要加密传递的数据,使用https,比如用户登录以及用户登录后的信息;
2、对于普通的新闻、图片,建议使用http协议来传输;
3、网站首页建议使用http协议的形式。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











iPhone や iPad の Safari、Google Chrome、またはその他のブラウザで検索エンジンを変更するのは簡単です。このチュートリアルでは、iPhone および iPad で利用できる 4 つの異なる Web ブラウザーでこれを行う方法を説明します。 iPhone または iPad で Safari 検索エンジンを変更する方法 Safari は iOS および iPadOS のデフォルトの Web ブラウザですが、この検索エンジンが気に入らないかもしれません。幸いなことに、次の手順を使用して変更できます。 iPhone または iPad で、ホーム画面から [設定] を起動します。下にスワイプして、リストから「Safari」をタップします。次のメニューでは、

Baidu Cloud は多くのファイルを保存できるソフトウェアですが、Baidu Cloud Disk 検索エンジンへの入り口は何でしょうか?ユーザーは URL https://pan.baidu.com を入力して Baidu Cloud Disk にアクセスできます。Baidu Cloud Disk 検索エンジンへの最新の入り口を共有することで、詳細な紹介が得られます。以下は詳細な紹介です。見てください。 。 Baidu クラウド ディスク検索エンジンの入り口 1. Qianfan 検索 Web サイト: https://pan.qianfan.app ネットワーク ディスクをサポート: 集約検索、Alibaba、Baidu、Quark、Lanzuo、Tianyi、Xunlei ネットワーク ディスクの表示方法: ログインが必要、会社に従ってくださいアクティベーション コードを取得する利点: ネットワーク ディスクは包括的で、多くのリソースがあり、インターフェイスがシンプルです。 2. マオリパンソウのウェブサイト: alipansou.c

Java 開発: 検索エンジンと全文検索機能の実装方法、具体的なコード例が必要です 検索エンジンと全文検索は、現代のインターネット時代において重要な機能です。これらは、ユーザーが必要なものをすぐに見つけられるようにするだけでなく、Web サイトやアプリのユーザー エクスペリエンスを向上させます。この記事では、Java を使用して検索エンジンと全文検索機能を開発する方法と、いくつかの具体的なコード例を紹介します。 Lucene ライブラリを使用した全文検索 Lucene は、ApacheSo によって開発されたオープンソースの全文検索エンジン ライブラリです。

PHP 検索エンジンのパフォーマンスの最適化: アルゴリアの魔法の方法 インターネットの発展と検索エクスペリエンスに対するユーザーの要件の増大に伴い、検索エンジンのパフォーマンスの最適化が重要になってきています。 PHP 開発の世界では、Algolia は強力で統合が簡単な検索エンジン サービスです。この記事では、Algolia の魔法のような使い方と、Algolia を通じて PHP 検索エンジンのパフォーマンスを最適化する方法を紹介します。 Algolia の紹介 Algolia は、SaaS モデルに基づく検索エンジン サービス プロバイダーです。

昨年末の発表以来、ChatGPT は従来の情報検索方法に対する大きな脅威とみなされてきました。多様性があるため、人々の質問に答えたり、エッセイや詩を書いたり、プログラム コードを書いたりすることもできます。一貫した回答を提供する会話型 AI の能力は、人々がインターネット上で情報を検索するためのベンチマーク プラットフォームとして数十年にわたり使用されてきた Google の検索エンジンに対する脅威と考えられています。 OpenAI の ChatGPT は、ユーザーからの特定の質問に対する回答を調整できるため、Web サイトの閲覧時間を節約できます。 12月にニューヨーク・タイムズが発行した報告書では、ChatGPTが一夜にして成功を収めたため、Googleはそれを「コードレッド」と呼び、人工知能チャットボットが同社の検索エンジン事業にもたらす脅威に対処し始めたことが明らかになった。によると

Google Chrome で検索エンジンを変更するにはどうすればよいですか? Google Chrome はユーザーの間で非常に人気のあるブラウザです。シンプルで使いやすいサービス、実用的なツール、その他の補助機能を備えているだけでなく、さまざまなユーザーのさまざまなニーズを満たすことができます。一般に、検索エンジンのデフォルトは Google です。交換するにはどのように設定すればよいですか?以下にその方法をシェアさせていただきます。交換方法 1. クリックして Google Chrome を開きます。 2. 三点アイコンをクリックしてメニュー インターフェイスを開きます。 3. [設定] オプションをクリックして、ブラウザの設定インターフェイスに入ります。 4. 設定インターフェースで検索エンジンモジュールを見つけます。 5. 「検索エンジンの管理」ボタンをクリックします。 6. 追加ボタンが表示されるので、この追加ボタンをクリックして検索エンジンを追加します。

情報化時代の継続的な発展に伴い、人々は情報を入手するためにますますインターネットに依存するようになりました。情報共有プラットフォームの 1 つとして、Web 検索エンジンも常に進化し、改善されています。この記事では、PHP 7.0 で全文検索エンジンを実装する方法を紹介し、読者が PHP テクノロジを有効に活用して効率的な検索エンジンを迅速に構築できるようにします。 1. 全文検索エンジンの概要 全文検索では、キーワードまたは語句を使用してドキュメント全体を検索し、最も一致する結果を見つけます。全文検索エンジンは、アルゴリズムを使用してドキュメントにインデックスを付け、検索を高速化します。存在する

PHP および ManticoreSearch の開発: 効率的な検索エンジンの構築 検索エンジンは、現代のインターネット アプリケーションにおいて非常に重要な役割を果たしています。効率的かつ正確な検索機能を実現するには、適切な検索エンジンを選択し、適切な開発ツールを使用して開発する必要があります。この記事では、PHP と ManticoreSearch を使用して効率的な検索エンジンを開発する方法を紹介します。 ManticoreSearch は、SphinxS をベースにした強力なオープンソース検索エンジンです。
