robots实际上指的是robots协议(也称为爬虫协议、机器人协议),它的全称是“爬虫排除标准”,网站通过robots协议告诉搜索引擎哪些页面可以被抓取,哪些页面不能被抓取。
而承载这些协议的文件是robots.txt文件,那么robots.txt文件的作用是什么?如何编写robots协议以及需要注意的事项,今天将在本文中向大家详细介绍。
一、robots.txt文件的含义,robots.txt的作用是什么
如前所述,该文本文件带有robots协议,该协议告诉所有搜索引擎该网站的哪些页面可以被抓取,哪些页面禁止被抓取。这有两个意思:
1、保护隐私。有些目录或页面不希望或不能被外界看到。有些搜索引擎可能不知道这些情况,它仍会像往常一样抓取并显示这些页面。如果我们通过robots来设置限制,搜索引擎蜘蛛将会放弃爬行,外界将无法通过搜索引擎知道这些保密信息。
2、调整抓取页面的数量。众所周知,每个网站上蜘蛛爬行的配额是有限的,如果我们禁止一些不重要的页面不被抓取,那么将配额留给那些重要的页面,会有更多的机会被抓取。
二、robots.txt文件的写法
robots协议针对允许或禁止,也可以设置特定的搜索引擎,其实在正常情况下,没有必要区分搜索引擎,而是统一设置允许抓取。
1、所有搜索引擎都被禁止访问网站
User-agent: *
Disallow: /
2、允许所有搜索引擎访问网站
User-agent: *
Allow: /
3、禁止所有蜘蛛访问网站的某个目录
User-agent:*
Disallow: /test/
这是最基本的用法,robots协议的使用有很多技巧,我建议大家仔细阅读其协议。
三、robots.txt文件相关注意事项
有些站长说我的网站上没有任何禁止爬行的页面,所以不用设置robots文件,这在理论上行得通。然而我建议,即使网站是完全开放的,最好建立一个robots文件,比如我网站的文件:https://www.krseo.com/robots.txt,通常放在网站的根目录下。Robots其实指的是robots协议(又称爬虫协议、机器人协议),全称是“爬虫排除标准”。网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不可以抓取。
而承载这些协议的文件是robots.txt文件,那么robots.txt文件的作用是什么呢?如何编写robots协议以及注意事项将在今天的这篇文章中向您详细介绍。
一、robots.txt文件的意义,robots.txt的作用是什么
前面提到过,这个文本文件自带robots协议,告诉所有搜索引擎这个网站的哪些页面可以抓取,哪些页面禁止抓取。有两层意思:
1。保护隐私。有些目录或页面不希望或不能被外界看到。有些搜索引擎可能不知道这些情况,但还是会照常抓取和显示这些页面。如果通过机器人设置限制,搜索引擎蜘蛛就会放弃抓取,外界也不会通过搜索引擎知道这些机密信息。2 .
。调整捕获的页数。众所周知,各个网站蜘蛛抓取的配额是有限的。如果我们禁止一些不重要的页面被抓取,那么把配额留给那些重要的页面,就会有更多的机会被抓取。
二、robots.txt文件的编写方法
Robots协议是针对允许或禁止的,也可以设置特定的搜索引擎。其实一般情况下,不需要区分搜索引擎,而是统一设置抓取权限。
1。禁止所有搜索引擎访问该网站
用户代理:*
不允许:/
2。允许所有搜索引擎访问网站
[/]禁止所有蜘蛛访问网站的某个目录
用户代理:*
Disable:/test/
这是最基本的用法。使用robots协议有很多技巧。我建议你仔细阅读它的协议。
三。robots.txt文件相关注意事项
有站长说我的网站没有禁止抓取的页面,所以不需要设置robots文件,理论上是行得通的。不过我建议即使网站完全开放,也最好建立一个robots文件,比如我的网站的文件:https://www.krseo.com/robots.txt,一般放在网站的根目录下。