网站优化人员必须知道的网站日志分析技巧
分析网站日志是SEOer的必备技能。通过分析网站日志,可以更清楚的了解搜索引擎对网站的抓取情况,即哪个搜索引擎在什么时候抓取了哪个URL页面,搜索引擎抓取是否成功,抓取了多少个页面。通过对这些数据的整理和分析,可以清晰的了解网站的运行状态和搜索引擎蜘蛛的抓取状态,为后期的SEO运营提供数据依据。
思维分析
说到网站日志,很多新手都觉得这个太复杂,说看不懂,拿不出结论来指导SEO运营。这多半是因为网站日志数据的具体含义不明确,无法正确读取网站日志文件所反映的信息。
所谓网站日志,并没有想象中的那么深奥。简单来说就是记录访问者访问网站的轨迹和痕迹的文件记录。在这里,搜索引擎蜘蛛对网站的抓取可以看作是一种特殊的网站访问者。
01
在分析网站日志之前,我们需要简单了解一下日志文件的一些基本参数信息。
# software3360表示软件名称。
# version3360表示版本号。
#Date:表示时间。
#Fields:(此处网站日志文件中记录了相应的条目,各参数具体定义如下)
日期:发送请求的日期。
时间:发出请求的时间。
C-ip:客户端的ip地址。
.
02
虽然网站日志中有很多参数,但是对于我们的SEO优化来说,需要关注ip地址、时区、访问路径、http状态码、访问页面的字节数、客户端浏览信息等参数值。
03
例如:117 . 26 . 203 . 167-[02/May/2011:01336057336044-0700]' Get/index . PHP http/1.1 ' 500 19967 '-' ' Mozilla/4.0(兼容;MSIE 8.0Windows NT 5.1三叉戟/4.0;ask TBCs-ST/5 . 11 . 3 . 15590;净CLR 2 . 0 . 50727;Alexa Toolbar)’(如果你日志里的格式不是这样,说明日志格式设置不同)
117.26.203.167接入ip
02/May/2011:01:57:44-0700访问日期-时区(不同的日志时间格式不同)
GET/index.php HTTP/1.1根据HTTP/1.1协议,在根目录下抓取index.php的这个页面(GET代表服务器动作,/代表根目录)。
注意:在很多日志中,你可以看到200 0 0和200 0 64都代表正常抓取。
04
如何在整个网站日志中区分哪些是普通访客,哪些是搜索引擎?很简单,就是通过观察日志记录中代表访客信息的段落来区别。
百度官方给出的UA如下图所示:
不过需要注意的是,虽然记录的UA和百度官方给出的一样,但也有可能是假的百度蜘蛛UA,所以可以用IP来检查是否是真的百度蜘蛛访问抓取网站。
通过DNS查IP确定蜘蛛是否来自百度搜索引擎。根据linux/windows/os等不同平台上验证方法的不同,验证方法如下:
1)在linux平台上,使用host ip命令对ip进行解码,判断是否来自Baiduspider。
2)在windows平台或IBM OS/2平台上,使用nslookup ip命令逆向ip解决方案,确定是否来自Baiduspider。打开命令处理器,输入nslookupxxx.xxx.xxx (ip地址)解析ip,从而确定是否被Baiduspider抓取。
3)在mac os平台下,可以使用dig命令解析ip来判断是否来自Baiduspider。打开命令处理器,输入dig xxx.xxx.xxx.xxx(ip地址)解析ip,确定是否来自Baiduspider。
温馨提示:Baiduspider的主机名以*.baidu.com或*.baidu.jp的格式命名,如果不是*.baidu.com或* .baidu.jp,就是冒名顶替。
分析网站日志是每个SEOer必备的技能。通过网站日志,可以更清楚的了解搜索引擎的抓取情况。同时,当网站被黑或挂机时,我们可以通过分析网站日志快速定位可疑文件,帮助站长快速解决网站的安全隐患。