首頁 web前端 html教學 robot.txt_html/css_WEB-ITnose

robot.txt_html/css_WEB-ITnose

Jun 24, 2016 am 11:53 AM

在国内,网站管理者似乎对robots.txt并没有引起多大重视,可是一些功能离开它又不能是,因此今天石家庄SEO想通过这篇文章来简单谈一下robots.txt的写作。?的部分,或者指定搜索引擎只收录指定的内容。

 

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,

 

robots.txt基本介绍

 

robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

 

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

 

另外,robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

 

robots.txt写作语法

 

首先,我们来看一个robots.txt范例:http://www.shijiazhuangseo.com.cn/robots.txt

 

访问以上具体地址,我们可以看到robots.txt的具体内容如下:

 

# Robots.txt file from http://www.shijiazhuangseo.com.cn

# All robots will spider the domain

 

User-agent: *

Disallow:

 

以上文本表达的意思是允许所有的搜索机器人访问www.shijiazhuangseo.com..cn站点下的所有文件。

 

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

 

下面,我将列举一些robots.txt的具体用法:

 

允许所有的robot访问

 

User-agent: *

Disallow:

 

或者也可以建一个空文件 "/robots.txt" file

 

禁止所有搜索引擎访问网站的任何部分

 

User-agent: *

Disallow: /

 

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

 

User-agent: *

Disallow: /01/

Disallow: /02/

Disallow: /03/

 

禁止某个搜索引擎的访问(下例中的BadBot)

 

User-agent: BadBot

Disallow: /

 

只允许某个搜索引擎的访问(下例中的Crawler)

 

User-agent: Crawler

Disallow:

 

User-agent: *

Disallow: /

 

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

 

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

 

Robots META标签的写法:

 

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

 

INDEX 指令告诉搜索机器人抓取该页面;

 

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

 

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

 

这样,一共有四种组合:

 

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

 

其中

 

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;

 

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

 

目 前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以 限制GOOGLE是否保留网页快照。例如:

 

<META NAME="googlebot" CONTENT="index,follow,noarchive">

 

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

以上就是石家庄SEO对robots.txt写作语法

 

首先,我们来看一个robots.txt范例:http://www.shijiazhuangseo.com.cn/robots.txt

 

访问以上具体地址,我们可以看到robots.txt的具体内容如下:

 

# Robots.txt file from http://www.shijiazhuangseo.com.cn# All robots will spider the domain

 

User-agent: *

Disallow:

 

以上文本表达的意思是允许所有的搜索机器人访问www.shijiazhuangseo.com.cn站点下的所有文件。

 

具体语法分析:其中#后面文字为说明信息;User-agent:后面为搜索机器人的名称,后面如果是*,则泛指所有的搜索机器人;Disallow:后面为不允许访问的文件目录。

 

下面,我将列举一些robots.txt的具体用法:

 

允许所有的robot访问

 

User-agent: *

Disallow:

 

或者也可以建一个空文件 "/robots.txt" file

 

禁止所有搜索引擎访问网站的任何部分

 

User-agent: *

Disallow: /

 

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)

 

User-agent: *

Disallow: /01/

Disallow: /02/

Disallow: /03/

 

禁止某个搜索引擎的访问(下例中的BadBot)

 

User-agent: BadBot

Disallow: /

 

只允许某个搜索引擎的访问(下例中的Crawler)

 

User-agent: Crawler

Disallow:

 

User-agent: *

Disallow: /

 

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

 

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

 

Robots META标签的写法:

 

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

 

INDEX 指令告诉搜索机器人抓取该页面;

 

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

 

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

 

这样,一共有四种组合:

 

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,FOLLOW">

<META NAME="ROBOTS" CONTENT="INDEX,NOFOLLOW">

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">

 

其中

 

<META NAME="ROBOTS" CONTENT="INDEX,FOLLOW">可以写成<META NAME="ROBOTS" CONTENT="ALL">;

 

<META NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW">可以写成<META NAME="ROBOTS" CONTENT="NONE">

 

目 前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以 限制GOOGLE是否保留网页快照。例如:

 

<META NAME="googlebot" CONTENT="index,follow,noarchive">

 

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

HTML容易為初學者學習嗎? HTML容易為初學者學習嗎? Apr 07, 2025 am 12:11 AM

HTML適合初學者學習,因為它簡單易學且能快速看到成果。 1)HTML的學習曲線平緩,易於上手。 2)只需掌握基本標籤即可開始創建網頁。 3)靈活性高,可與CSS和JavaScript結合使用。 4)豐富的學習資源和現代工具支持學習過程。

HTML,CSS和JavaScript的角色:核心職責 HTML,CSS和JavaScript的角色:核心職責 Apr 08, 2025 pm 07:05 PM

HTML定義網頁結構,CSS負責樣式和佈局,JavaScript賦予動態交互。三者在網頁開發中各司其職,共同構建豐富多彩的網站。

了解HTML,CSS和JavaScript:初學者指南 了解HTML,CSS和JavaScript:初學者指南 Apr 12, 2025 am 12:02 AM

WebDevelovermentReliesonHtml,CSS和JavaScript:1)HTMLStructuresContent,2)CSSStyleSIT和3)JavaScriptAddSstractivity,形成thebasisofmodernWebemodernWebExexperiences。

HTML中起始標籤的示例是什麼? HTML中起始標籤的示例是什麼? Apr 06, 2025 am 12:04 AM

AnexampleOfAstartingTaginHtmlis,beginSaparagraph.startingTagSareEssentialInhtmlastheyInitiateEllements,defiteTheeTheErtypes,andarecrucialforsstructuringwebpages wepages webpages andConstructingthedom。

Gitee Pages靜態網站部署失敗:單個文件404錯誤如何排查和解決? Gitee Pages靜態網站部署失敗:單個文件404錯誤如何排查和解決? Apr 04, 2025 pm 11:54 PM

GiteePages靜態網站部署失敗:404錯誤排查與解決在使用Gitee...

如何用CSS3和JavaScript實現圖片點擊後周圍圖片散開並放大效果? 如何用CSS3和JavaScript實現圖片點擊後周圍圖片散開並放大效果? Apr 05, 2025 am 06:15 AM

實現圖片點擊後周圍圖片散開並放大效果許多網頁設計中,需要實現一種交互效果:點擊某張圖片,使其周圍的...

HTML,CSS和JavaScript:Web開發人員的基本工具 HTML,CSS和JavaScript:Web開發人員的基本工具 Apr 09, 2025 am 12:12 AM

HTML、CSS和JavaScript是Web開發的三大支柱。 1.HTML定義網頁結構,使用標籤如、等。 2.CSS控製網頁樣式,使用選擇器和屬性如color、font-size等。 3.JavaScript實現動態效果和交互,通過事件監聽和DOM操作。

網頁批註如何實現Y軸位置的自適應佈局? 網頁批註如何實現Y軸位置的自適應佈局? Apr 04, 2025 pm 11:30 PM

網頁批註功能的Y軸位置自適應算法本文將探討如何實現類似Word文檔的批註功能,特別是如何處理批註之間的間�...

See all articles