robots.txt协议的写法,对其SEO的作用
1,robots.txt是什么鬼?
我们都知道txt是纯文本的意思,而robots是机器人的意思,所以robots.txt文件就是给机器人看的,那么也就是给我们搜索引擎蜘蛛看的;robots.txt遵循的一个规范文本,它告诉搜索引擎(Google、百度、360、搜狗等)哪些网页可以抓取,那些网页不可以抓取。蜘蛛 spider(Googlebot/Baiduspider)来抓取你的网站页面的时候,会首先访问你的网站/robots.txt路径看是否存在,如果没有则全站抓取,否则按照设置规则进行抓取和索引。
比如:淘宝的robots.txt规则:
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
它的意思就是屏蔽百度蜘蛛的抓取;
2,robots.txt作用
(1)、屏蔽一些死链,屏蔽一些关于网站后台,内部信息,会员资料的页面,对网站的隐私有明显的保护效果;比如前几年淘宝的支付宝用户信息泄露事件,一时间许多用户的资料都在谷歌搜索页面出现,支付宝也怪不了goole,所以后来淘宝屏蔽了搜索引擎的全站抓取。
(2)屏蔽动态页面,比如我们通过url重写将动态网址静态化为永久固定链接之后,就可以通过robots.txt设置权限,阻止Google或百度等搜索引擎索引那些动态网址,从而大大减少了网站重复页面,SEO优化起到了很明显的作用,重复页面多了必定给搜索引擎不好的印象!
3,robots.txt存放位置:
一般我们创建好robots.txt直接上传到网站根目录下面,放于其他目录均为无效;因为一个robots.txt只能控制相同协议,相同端口,相同站点的网页抓取策略。
4,robots.txt的写法:
规则语句:(1)User-agent:指定对哪些爬虫生效(Google的spider是“Googlebot”,百度是“Baiduspider”);(2)Disallow:指定要屏蔽的网址 Allow:指明允许spider访问和索引的目录;
通配符:*匹配任意个字符;/要拦截的网页(例如Disallow/要屏蔽整个网站的意思);$匹配url结束
可能上面大家看得模糊;下面我们举例说明:
禁止Google/百度等所有搜索引擎访问整个网站 |
User-agent: * |
只允许Google spider: Googlebot访问您的网站,禁止百度等其他搜索引擎 |
User-agent: Googlebot |
使用美元符号”$”设置禁止访问某一后缀的文件 |
User-agent: * |
阻止google、百度等所有搜索引擎访问网站中所有带有?的动态网址页面 |
User-agent: * |
5,robots.txt正确与否的检查:
登陆百度站长平台,侧栏找到robots,选择自己的网站,点击检测并更新!如下图所示:文件生效则说明规则写入正确!
总结:robots.txt 协议对于新站长来说有点陌生有点难度,要掌握这种写法是需要花时间来操练的;需要熟记规则。说一个题外话题:robots.txt可能没有太大的作用甚至对于某些站来说根本没有任何价值,但是作为一名合作的SEO 合格的站长我们必须掌握懂得!