网站日志文件的分析方法

2014-05-09 宇易网络 1794

无论是用户还是搜索引擎访问网站,我们的日志文件中都会留有记录。这对于我们对网站的分析有非常重要的意义。很多人表示网站日志看不懂,在这里泰州网站建设公司宇易网络跟大家分享一下网站日志文件的分析方法。希望对大家能够有用。

对于网站的分析,我们最需要了解的是搜索引擎蜘蛛对网站的爬行。下面总结一下常见的搜索引擎蜘蛛的Agent。百度->baiduspider、Google ->Googlebot、360搜索 ->360spider、Bing ->bingbot、yahoo ->Slurp、yodao ->YoudaoBot、sogou ->Sogou+get+spider。在日志中我们搜索以下的关键词,我们可以了解到搜索引擎蜘蛛对网站的爬取情况。

同时我们要对状态码要有一个基本的了解。

1) 200:蜘蛛爬取正常

2) 301:访问的页面永久跳转

3) 302:访问的页面临时跳转

4) 304:蜘蛛自上次爬行以来,没有发生任何变化

5) 403:页面无访问权限

6) 404:访问的页面不存在

7) 500:网站的程序出错

我们对以下的一行日志文件进行分析(该日志文件来自于Nginx日志,Apache和IIS的日志文件大同小异):

202.102.85.18 - - [09/May/2014:09:13:19 +0800] "GET / HTTP/1.0" 200 17085 "http://www.baidu.com/" "Baiduspider+(+http://www.baidu.com/search/spider.htm)" "218.30.118.100"

前面是蜘蛛的IP地址;后面中括号中代表蜘蛛爬行的时间;后面是要求的方法,一般为GET,也有可能是POST,再后面表示http协议,版本为1.0;后面是状态码200,最后是蜘蛛的名称。

对日志文件的分析,我们可以了解到蜘蛛对网站的爬取,在什么时间爬行过哪些页面。对于我们后面对网站的分析有很重要的作用。


相关文章

展开
联系电话:0523-82182818 客服QQ:1098369