首页 专题 SEO 什么是robots.txt?

什么是robots.txt?

May 23, 2019 am 11:01 AM

robots.txt是搜索引擎访问网站时要查看的第一个文件,是用于规定搜索引擎对网站内容抓取范围的文本文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,则会按照文件中的内容来确定访问的范围。

什么是robots.txt?

在网站建设过程中我们会有一部分内容不希望被搜索引擎抓取到或者不希望其在互联网中出现,那么要怎么办呢?我要怎么跟搜索引擎说你不要抓取我的xx内容呢?这时候robots就派上用场了。

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

语法:最简单的 robots.txt 文件使用两条规则:

• User-Agent: 适用下列规则的漫游器

• Disallow: 要拦截的网页

但是我们需要注意的几点:

1.robots.txt必须存放在网站的根目录下,

2.其命名必须为robots.txt,且文件名必须全部小写。

3.Robots.txt是搜索引擎访问网站的第一个页面

4.Robots.txt中必须指明user-agent

robots.txt使用误区

 误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。

 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。

 误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。

 网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。

 具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。

 误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。

 如果这样的话,会导致整个网站不能被搜索引擎收录。

robots.txt使用技巧

 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。

 2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

 下面是VeryCMS里的robots.txt文件:

 User-agent: *

 Disallow: /admin/ 后台管理文件

 Disallow: /require/ 程序文件

 Disallow: /attachment/ 附件

 Disallow: /images/ 图片

 Disallow: /data/ 数据库文件

 Disallow: /template/ 模板文件

 Disallow: /css/ 样式表文件

 Disallow: /lang/ 编码文件

 Disallow: /script/ 脚本文件

 3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。

 4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:

 Sitemap: http://www.***.com/sitemap.xml

 目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。

 5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面

以上是什么是robots.txt?的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
4 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.聊天命令以及如何使用它们
1 个月前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

Google在浏览功能时删除AI Google在浏览功能时删除AI Apr 02, 2025 am 09:25 AM

Google的“浏览中的AI”功能(以前称为“ SGE浏览”时,已停止使用。 尽管Google尚未公开陈述原因,但该功能的删除已在其帮助部分中记录下来。 b是什么ai

下一波搜索:AI模式,深入研究及其他 下一波搜索:AI模式,深入研究及其他 Apr 01, 2025 am 11:49 AM

AI正在将搜索引擎从信息总监转换为直接答案提供商。这种转变会影响SEO,内容发现和数字营销,促使有关搜索未来的问题。 最近的AI进步正在加速这一问题

分页和SEO:您需要知道2025年 分页和SEO:您需要知道2025年 Apr 01, 2025 am 11:54 AM

为什么您的电子商务产品和博客文章可能是Google看不见的:分页难题 您的网页是否阻碍了其Google搜索排名? 本文深入研究了分页的复杂性,其SEO的含义及其R

Google 2025年3月核心更新发布现已完成 Google 2025年3月核心更新发布现已完成 Apr 02, 2025 am 09:24 AM

2025年3月的Google核心更新:全面分析 Google的2025年3月核心更新于3月13日开始,并于3月27日结束,现已完成。 此更新是对Google核心排名算法的标准调整,目的是ENHA

认识LLMS.TXT,这是AI网站内容爬网的拟议标准 认识LLMS.TXT,这是AI网站内容爬网的拟议标准 Apr 01, 2025 am 11:52 AM

澳大利亚技术专家杰里米·霍华德(Jeremy Howard)提出了一个新的标准LLMS.TXT,旨在改善大型语言模型(LLMS)访问和索引网站内容。 该标准类似于robots.txt和XML站点地图,旨在简化Proces

新的SEO命令:建立您的品牌 新的SEO命令:建立您的品牌 Apr 08, 2025 am 11:28 AM

在2025年,SEO策略必须超越Google的搜索引擎,以涵盖更广泛的多模式搜索景观。 搜索行为越来越分散在各种平台上 - 包括AI驱动的搜索,Tiktok,Reddit和YouTube

搜索营销中的最新工作 搜索营销中的最新工作 Apr 01, 2025 am 11:51 AM

在搜索营销中发现激动人心的职业机会! 该策划的列表展示了领先品牌和代理商的最新SEO,PPC和数字营销工作。 我们还包括前几周的一些职位,这些职位保持开放。 霍特

See all articles