Rumah Topik SEO 什么是robots.txt?

什么是robots.txt?

May 23, 2019 am 11:01 AM

robots.txt是搜索引擎访问网站时要查看的第一个文件,是用于规定搜索引擎对网站内容抓取范围的文本文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,则会按照文件中的内容来确定访问的范围。

什么是robots.txt?

在网站建设过程中我们会有一部分内容不希望被搜索引擎抓取到或者不希望其在互联网中出现,那么要怎么办呢?我要怎么跟搜索引擎说你不要抓取我的xx内容呢?这时候robots就派上用场了。

robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。

当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。

语法:最简单的 robots.txt 文件使用两条规则:

• User-Agent: 适用下列规则的漫游器

• Disallow: 要拦截的网页

但是我们需要注意的几点:

1.robots.txt必须存放在网站的根目录下,

2.其命名必须为robots.txt,且文件名必须全部小写。

3.Robots.txt是搜索引擎访问网站的第一个页面

4.Robots.txt中必须指明user-agent

robots.txt使用误区

 误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。

 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。

 误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。

 网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。

 具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。

 误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。

 如果这样的话,会导致整个网站不能被搜索引擎收录。

robots.txt使用技巧

 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。

 2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。

 下面是VeryCMS里的robots.txt文件:

 User-agent: *

 Disallow: /admin/ 后台管理文件

 Disallow: /require/ 程序文件

 Disallow: /attachment/ 附件

 Disallow: /images/ 图片

 Disallow: /data/ 数据库文件

 Disallow: /template/ 模板文件

 Disallow: /css/ 样式表文件

 Disallow: /lang/ 编码文件

 Disallow: /script/ 脚本文件

 3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。

 4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:

 Sitemap: http://www.***.com/sitemap.xml

 目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。

 5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面

Atas ialah kandungan terperinci 什么是robots.txt?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Gelombang carian seterusnya: mod AI, penyelidikan mendalam dan seterusnya Gelombang carian seterusnya: mod AI, penyelidikan mendalam dan seterusnya Apr 01, 2025 am 11:49 AM

AI sedang mengubah enjin carian dari pengarah maklumat untuk mengarahkan pembekal jawapan. Peralihan ini memberi kesan kepada SEO, penemuan kandungan, dan pemasaran digital, mendorong soalan mengenai masa depan carian. Kemajuan AI baru -baru ini mempercepatkan ch ini

Temui LLMS.TXT, standard yang dicadangkan untuk kandungan laman web AI Crawling Temui LLMS.TXT, standard yang dicadangkan untuk kandungan laman web AI Crawling Apr 01, 2025 am 11:52 AM

Jeremy Howard, seorang ahli teknologi Australia, mencadangkan standard baru, LLMS.TXT, yang direka untuk memperbaiki bagaimana kandungan laman web dan indeks yang besar model bahasa (LLMS). Standard ini, serupa dengan robots.txt dan XML Sitemaps, bertujuan untuk menyelaraskan proses

Pagination dan SEO: Apa yang Anda Perlu Tahu pada tahun 2025 Pagination dan SEO: Apa yang Anda Perlu Tahu pada tahun 2025 Apr 01, 2025 am 11:54 AM

Mengapa produk dan catatan blog anda mungkin tidak dapat dilihat dengan Google: teka -teki penomboran Adakah penomboran laman web anda menghalang ranking carian Google? Artikel ini menyelidiki kerumitan penomboran, implikasi SEOnya, dan r yang rnya

Pekerjaan terkini dalam Pemasaran Carian Pekerjaan terkini dalam Pemasaran Carian Apr 01, 2025 am 11:51 AM

Temui peluang kerjaya yang menarik dalam pemasaran carian! Senarai yang dikendalikan ini mempamerkan pekerjaan pemasaran SEO, PPC, dan digital terkini dari jenama dan agensi terkemuka. Kami juga telah memasukkan beberapa jawatan dari minggu -minggu sebelumnya yang masih terbuka. Hotte

Google Drops AI Semasa Ciri Melayari Google Drops AI Semasa Ciri Melayari Apr 02, 2025 am 09:25 AM

Ciri "AI semasa melayari" Google, yang sebelum ini dikenali sebagai "SGE semasa melayari," telah dihentikan. Walaupun Google tidak menyatakan secara terbuka sebabnya, penyingkiran ciri itu didokumenkan dalam bahagian bantuan mereka. Apa itu AI sementara b

Pelancaran Kemas Kini Teras Google Mac 2025 kini selesai Pelancaran Kemas Kini Teras Google Mac 2025 kini selesai Apr 02, 2025 am 09:24 AM

Kemas kini Google Core Mac 2025: Analisis Komprehensif Kemas kini teras Google Mac 2025, yang bermula pada 13 Mac dan disimpulkan pada 27 Mac, kini selesai. Kemas kini ini, pelarasan standard kepada algoritma kedudukan teras Google, yang bertujuan untuk Enha

Jauh, Kandungan SEO Peranan Penurunan: Laporan Jauh, Kandungan SEO Peranan Penurunan: Laporan Apr 02, 2025 am 09:52 AM

Pasaran pekerjaan SEO beralih, menurut laporan pekerjaan SEO yang boleh diperolehi oleh 2025. Penurunan yang ketara dalam peranan SEO yang terpencil dan kandungan telah diperhatikan, dengan penyenaraian masing-masing menjatuhkan 34% dan 28%. Sebaliknya, kepimpinan Posi

See all articles