用Robots协议引导蜘蛛对页面进行抓取问题
(1)复制一份到HTTP下。
(2)使用user-agent判断来访者,将蜘蛛引导到HTTP页面。
关于Robots文件,详细说明如下。
(1)特定页面已经不需要蜘蛛抓取,可以进行Disallow。
(2)某类集中的页面具有共同的URL参数,可以实现批量禁止抓取功能。在操作批量禁止的时候,需要避免误伤,即具有同样URL特征的功能可能并不在禁止的目的之内,无意中被禁止了。
关于同类特征的URL的一个特殊应用就是批量禁止动态URL的抓取。比如一个动态发布内容的网站,初始页面都是动态页面,从SEO角度考虑,这些动态页面全部批量生成了对应的静态页面,如下。
http://www.abc.com/?id=1
http://www.abc.com/?id=2
......
(已经批量生成了如下)
http://www.abc.com/ 1.html
http://www.abc.com/2.html
......
如果同时被蜘蛛抓取了动态页面和对应的静态页面,那么网站就存在大量的重复页面,对SEO是不好的。可以通过Robots功能,统一禁止动态URL的抓取,比如在Robots文件里写如下内容。
Disallow : /*?*
在抓取方面,蜘蛛会依据实际情况调整对网站的抓取频次,即分配抓取定额,每天定量抓取网站内容,“定量”这个词意味着是有限的,-一个大门]户网站如果一次性提交10万条URL,并不意味着蜘蛛会很快把10万条数据抓取回去,因此,必须有耐心跟踪搜索蜘蛛在网站每天的爬行和收录情况。