站长新闻

网站优化人员必须知道的网站日志分析技巧

文章来源：网站优化作者：外链代发人气：19 2022-09-06 13:09:05

分析网站日志是SEOer的必备技能。通过分析网站日志，可以更清楚的了解搜索引擎对网站的抓取情况，即哪个搜索引擎在什么时候抓取了哪个URL页面，搜索引擎抓取是否成功，抓取了多少个页面。通过对这些数据的整理和分析，可以清晰的了解网站的运行状态和搜索引擎蜘蛛的抓取状态，为后期的SEO运营提供数据依据。

思维分析

说到网站日志，很多新手都觉得这个太复杂，说看不懂，拿不出结论来指导SEO运营。这多半是因为网站日志数据的具体含义不明确，无法正确读取网站日志文件所反映的信息。

所谓网站日志，并没有想象中的那么深奥。简单来说就是记录访问者访问网站的轨迹和痕迹的文件记录。在这里，搜索引擎蜘蛛对网站的抓取可以看作是一种特殊的网站访问者。

01

在分析网站日志之前，我们需要简单了解一下日志文件的一些基本参数信息。

# software3360表示软件名称。

# version3360表示版本号。

#Date:表示时间。

#Fields:(此处网站日志文件中记录了相应的条目，各参数具体定义如下)

日期：发送请求的日期。

时间：发出请求的时间。

C-ip:客户端的ip地址。

.

02

虽然网站日志中有很多参数，但是对于我们的SEO优化来说，需要关注ip地址、时区、访问路径、http状态码、访问页面的字节数、客户端浏览信息等参数值。

03

例如：117 . 26 . 203 . 167-[02/May/2011:01336057336044-0700]' Get/index . PHP http/1.1 ' 500 19967 '-' ' Mozilla/4.0(兼容；MSIE 8.0Windows NT 5.1三叉戟/4.0；ask TBCs-ST/5 . 11 . 3 . 15590；净CLR 2 . 0 . 50727；Alexa Toolbar)’(如果你日志里的格式不是这样，说明日志格式设置不同)

117.26.203.167接入ip

02/May/2011:01:57:44-0700访问日期-时区(不同的日志时间格式不同)

GET/index.php HTTP/1.1根据HTTP/1.1协议，在根目录下抓取index.php的这个页面(GET代表服务器动作，/代表根目录)。

注意：在很多日志中，你可以看到200 0 0和200 0 64都代表正常抓取。

04

如何在整个网站日志中区分哪些是普通访客，哪些是搜索引擎？很简单，就是通过观察日志记录中代表访客信息的段落来区别。

百度官方给出的UA如下图所示：

不过需要注意的是，虽然记录的UA和百度官方给出的一样，但也有可能是假的百度蜘蛛UA，所以可以用IP来检查是否是真的百度蜘蛛访问抓取网站。

通过DNS查IP确定蜘蛛是否来自百度搜索引擎。根据linux/windows/os等不同平台上验证方法的不同，验证方法如下：

1)在linux平台上，使用host ip命令对ip进行解码，判断是否来自Baiduspider。

2)在windows平台或IBM OS/2平台上，使用nslookup ip命令逆向ip解决方案，确定是否来自Baiduspider。打开命令处理器，输入nslookupxxx.xxx.xxx (ip地址)解析ip，从而确定是否被Baiduspider抓取。

3)在mac os平台下，可以使用dig命令解析ip来判断是否来自Baiduspider。打开命令处理器，输入dig xxx.xxx.xxx.xxx(ip地址)解析ip，确定是否来自Baiduspider。