服务器日志是可以记录你网站的服务器的请求记录的,通过这个日志咱们是可以看出网站被哪些蜘蛛来抓取过,抓取网站的哪些页面,可以看到抓取的时间,抓取的页面是否抓取成功。
服务器日志在网站的主机的控制面板里面,文件管理里面常规一般都是log结尾的文件里面。
不同的服务器空间记录的天数也不一样,一般的服务器都是可以记录一周左右的日志。你们用到的服务器空间一般只能记录三天的日志。
分析日志我们有专业的日志分析工具来分析网站的服务器日志(光年日志分析工具)
我们先在服务器文件管理里面下载某一天的日志,打开光年日志分析软件来分析日志
分析的注意事项:
概要分析:
哪些蜘蛛来抓取过我们的网站。
只代表你分析的那一天的,并不代表每天都是如此。
目录抓取:分析蜘蛛抓取了你网站的哪些目录
重点需要分析抓取的目录文件名称,哪些是对排名有价值的,哪些是对排名没有价值的,对于排名没有价值的目录文件写到robots文件里面进行屏蔽掉。
www.xxxx.com/a/about
www.xxx.com/about
Disallow:/a/
Disallow:/skin/
第二个,通过蜘蛛抓取的目录,我们可以在更新内容的时候更有针对性,蜘蛛经常抓取哪些目录,我们更新内容就重点围绕那个目录去更新内容
分析三天的日志ABC栏目
三天A目录每天都被抓取到
下次更新内容在A栏目多去更新内容。
B和C目录并不是每天抓取。
分析原因,是不是因为这两个目录的内容质量度做的低了,更新的频率有问题,这两个目录而是需要提高内容质量度。提高内容的原创性。
页面抓取需要结合页面抓取的状态码来分析,同时也需要分析下抓取的链接是不是有用。
www.xxx.com/a/1.html200
www.xxx.com/a/2.html404
找到这个链接看看是否还存在,存在的话删掉,不存在屏蔽掉。
关键字分析:
分析是用户通过搜索什么关键词进入网站的,任何的日志分析工具在分析这一项的时候并不是很精准。
我们一般要分析关键词来源,使用百度统计来分析:
状态码分析
状态码分为用户状态码和蜘蛛状态码
需要重点分析网址里面包含.html结尾的文件,我们直接给网站做一个404自定义页面引导用户继续访问网站的其他页面
网名请求的返回的链接状态码
蜘蛛状态码指的是蜘蛛抓取的链接返回的服务器状态码
重点需要分析蜘蛛的状态码
服务器状态码分为很多
200 301 302 404 502
重点需要注意是404这个状态码
网址能修改的尽量修改,不能修改直接屏蔽。
如果经常出现502这个状态码那么建议网站更换服务器