百度蜘蛛抓取规律

2022-06-01

当网站有了蜘蛛来访，你的网站页面才有被收录的可能，而百度蜘蛛会来爬行我们网站的html代码，然后把数据拆分为标题、摘要、头图、正文等结构化数据，带回给百度的服务器，进行筛选放入数据库，接下来是关于百度蜘蛛对网站页面爬行规律的一点分享。

百度蜘蛛页面爬行规律

现在的网站数量以百亿计算，每个页面都有快照备份是不现实的，所以百度蜘蛛会优胜劣汰，就像是有探路的先锋，有主力的部队，有功能之分，其实并没有高低权重之分。

百度蜘蛛对网站内页的爬行规律：

百度蜘蛛主要由收录与快照两种蜘蛛构成，通常123IP开头的是收录蜘蛛，220IP开头的是快照蜘蛛，我们通过这两种蜘蛛的日志访问情况，基本上能判断出这个网站在百度看来是不是一个优质的网站。

1、内容有质量的页面：新发一篇文章后，通常是123开头的蜘蛛先行，然后220开头的蜘蛛后行，接着当天或隔1-2天，快照就会有更新。

2、404页面爬取规律：当网站删除了几篇已收录的内页访问变成404后，123开头的蜘蛛来爬取时，一般发现两次404后，百度蜘蛛就不会来了。

3、文章内容劣质页面：如果是用文章生成器生成的拼凑文章，排版乱无可读性，123开头的蜘蛛来了一次以后就没有再来了。

那么百度蜘蛛爬行真正的逻辑应该是：123开头蜘蛛打冲锋，对网页内容进行筛选，以便减少不必要的服务器资源浪费；220开头蜘蛛一般在123蜘蛛筛选过后才进入，如果网页内容实在劣质，220开头的蜘蛛不会造访；对于已经收录快照的页面，是220开头直接来访。

最后得出的结论如下：

1、123开头的IP是收录蜘蛛，所谓收录蜘蛛是指百度蜘蛛造访后，百度后端会通过一系列判定手段，如反作弊处理、原创度检测等等，决定是否能够可以收录，是否可以牵引百度快照蜘蛛到访。

2、220开头的IP是快照蜘蛛，当快收录蜘蛛检测网页通过了收录标准之后，通过快照蜘蛛生成结构化数据，进入倒排索引，这个时候的网页才有快照，才能被用户搜索到。

所以每次快照更新前，收录蜘蛛、快照蜘蛛均有造访，而收录蜘蛛与快照蜘蛛访问比率一般不超过2:1，如果收录蜘蛛出现次数远远大于快照蜘蛛，说明网页的内容还不过关。当蜘蛛访问该网站时，您的网站页面将被包括在内。百度蜘蛛会抓取我们网站的html代码，然后将数据拆分成标题、摘要、页眉、正文等结构化数据。，并带回百度的服务器进行筛选，放入数据库。接下来小分享一下百度蜘蛛对网站页面的抓取规则。

目前网站数量以百亿计算，每个页面都有快照备份是不现实的。所以百度蜘蛛会优胜劣汰，就像开拓者有探路者，有主力，有功能。其实没有高低贵贱之分。

百度蜘蛛抓取网站内页:

百度蜘蛛主要由索引蜘蛛和快照蜘蛛两种蜘蛛组成。通常123IP从索引蜘蛛开始，220IP从快照蜘蛛开始。通过这两种蜘蛛的日志访问，我们基本可以判断这个网站是否是百度看来的优质网站。

1。有质量内容的页面:一篇新文章发表后，通常是123开头的蜘蛛先走，然后是220开头的蜘蛛后走，之后会在当天或者每隔1-2天更新一次快照。

2、404页面抓取规则:当网站删除几个收录的内页，访问量变成404，123开头的蜘蛛来抓取，一般发现404之后百度蜘蛛不会来两次。
[br/]3。文章内容差的页面:如果是文章生成器生成的东拼西凑的文章，布局凌乱，不可读，123开头的蜘蛛来了一次就再也不来了。

那么百度蜘蛛抓取的真实逻辑应该是:123开头，蜘蛛为了减少不必要的服务器资源浪费，对网页内容进行收费和筛选；20开头的蜘蛛一般是123蜘蛛筛选完才进入。如果网页内容实在低劣，220开头的蜘蛛是不会访问的；对于已经包含快照的页面，直接访问是220。

最后的结论如下:

1。123开头的IP是一个索引蜘蛛。所谓索引蜘蛛，就是百度蜘蛛访问后，百度后端会通过反作弊处理、原创性检测等一系列判断手段来决定是否可以被索引。

2220开头的IP是快照蜘蛛。当快索引蜘蛛检测到网页已通过索引标准时，通过快照蜘蛛生成结构化数据，进入倒排索引。只有这样，网页才能被用户抓取和搜索。

因此，每次快照更新前，收录蜘蛛和快照蜘蛛都进行访问，收录蜘蛛和快照蜘蛛的访问比例一般不超过2:1。如果收录蜘蛛的数量出现远远多于快照蜘蛛，说明网页内容不够。

行业资讯

百度蜘蛛抓取规律

内定向相对定向绝对定向作用

网站站内优化如何做？（网站关键

// 搜索

// 随便看看

tag标签的优缺点

WordPress中文标签404怎么处理

为什么一个网站要做前期策划(什么是网站规划?)

做公司网站需要准备什么(公司做网站需要什么条件)

网站提高权重

留言

行业资讯

百度蜘蛛抓取规律

// 搜索

// 随便看看