外链代发包收录，纯手工外链代发就找老客外链吧

站长新闻

您的位置：老客外链吧 > 站长新闻 >

用Robots协议引导蜘蛛对页面进行抓取问题

文章来源：未知作者：老铁seo 人气：14 2022-05-03 08:47:49

　Robots协议是放在根目录下的一个协议，也是蜘蛛爬行网站的时候需要访问的第一个文件，通过解读Robots文件的策略，蜘蛛可以知道哪些页面可以爬行，哪些不可以爬行。一般来说，网站都是可以开发给蜘蛛来抓取的，某些不允许抓取的页面或者频道，只需要在Robots里面设定Disallow (禁止抓取的命令)就可以。但是在实际运营中，可能面临更复杂的情况，比如整站已经在HTTPS下，但是部分页面需要蜘蛛爬行，怎么办?有以下几个解决办法。

　　(1)复制一份到HTTP下。

　　(2)使用user-agent判断来访者，将蜘蛛引导到HTTP页面。

　　关于Robots文件，详细说明如下。

　　(1)特定页面已经不需要蜘蛛抓取，可以进行Disallow。

　　(2)某类集中的页面具有共同的URL参数，可以实现批量禁止抓取功能。在操作批量禁止的时候，需要避免误伤，即具有同样URL特征的功能可能并不在禁止的目的之内，无意中被禁止了。

　　关于同类特征的URL的一个特殊应用就是批量禁止动态URL的抓取。比如一个动态发布内容的网站，初始页面都是动态页面，从SEO角度考虑，这些动态页面全部批量生成了对应的静态页面，如下。

　　http://www.abc.com/?id=1

　　http://www.abc.com/?id=2

　　......

　　(已经批量生成了如下)

　　http://www.abc.com/ 1.html

　　http://www.abc.com/2.html

　　......

　　如果同时被蜘蛛抓取了动态页面和对应的静态页面，那么网站就存在大量的重复页面，对SEO是不好的。可以通过Robots功能，统一禁止动态URL的抓取，比如在Robots文件里写如下内容。

　　Disallow : /*?*

　　在抓取方面，蜘蛛会依据实际情况调整对网站的抓取频次，即分配抓取定额，每天定量抓取网站内容，“定量”这个词意味着是有限的，-一个大门]户网站如果一次性提交10万条URL，并不意味着蜘蛛会很快把10万条数据抓取回去，因此，必须有耐心跟踪搜索蜘蛛在网站每天的爬行和收录情况。

上一篇：搜索引擎蜘蛛抓取页面异常百度索引但不放出来收录下一篇：没有了

相关文章

联系我们

在线服务外链咨询二维码

二维码

扫码添加微信：juxia_com